Fin du vrai tueur Google AutoML! Salesforce open source TransmogrifAI

Source: AI ligne de front

th�se 4739 mots lecture recommand�e 10 minutes.

Dans cet article, nous pr�sentons flux TransmogrifAI et de discuter les d�cisions de conception derri�re elle.

Alors que l'apprentissage de la machine a fait de grands progr�s au cours de la derni�re d�cennie, mais pour construire le syst�me d'apprentissage de la machine pr�te � la production est encore tr�s difficile. Il y a trois ans, nous avons entrepris de construire un syst�me d'apprentissage automatique pour la plate-forme Salesforce, et ainsi apprendre � construire le syst�me d'apprentissage machine d'entreprise comment il est difficile. Afin de r�soudre les probl�mes que nous avons rencontr�s, nous avons construit TransmogrifAI, une configuration de fin d'apprentissage machine automatis�e r�f�rentiel de donn�es et ces derniers jours, il sera open source.

Aujourd'hui, la plupart des solutions automatis�es de la machine d'apprentissage ou se concentrer uniquement sur une petite partie de la machine globale d'apprentissage de flux de travail, con�u pour des donn�es homog�nes ou non structur�es, l'image, la voix et des constructions de langage. Mais nous avons besoin d'un moyen pour l'h�t�rog�ne � grande �chelle mod�le de donn�es structur�es pour g�n�rer rapidement des solutions, TransmogrifAI est une telle solution. Si Texas A & M University r�cemment AutoKeras open source par rapport � Google AutoML victoire importante en open source, donc avantage TransmogrifAI est plus �vidente, peut-�tre est le vrai AutoML � tueur. �

Lors de la construction d'une machine d'apprentissage comme les produits de consommation, les scientifiques de donn�es mettent souvent l'accent sur certains des cas d'utilisation et des ensembles de donn�es faciles � comprendre. Toutefois, les donn�es et les cas d'utilisation de l'entreprise il y a la diversit�, de mani�re � construire la machine de produits d'entreprise d'apprentissage pour devenir un d�fi compl�tement diff�rent. Dans Salesforce, nos clients veulent �tre en mesure de pr�dire les r�sultats d'une s�rie - de la perte de clients, les pr�visions de ventes et les clients potentiels � passer � e-mail marketing, achats en ligne, d�faillance de l'�quipement, les retards de paiement et ainsi de suite. Pour les clients de l'entreprise, de ne pas prot�ger les donn�es qu'ils partagent avec d'autres organisations ou des concurrents est essentiel. Cela signifie que nous avons � la machine de construction des mod�les d'apprentissage sp�cifiques aux besoins des utilisateurs particuliers. Nous pouvons construire un mod�le global, mais cela n'a pas de sens, parce que les donn�es de chaque client est unique, avec des motifs diff�rents, des variations diff�rentes de diff�rentes formes et diff�rents processus d'affaires mis en place. Pour l'apprentissage de la machine peut apporter une r�elle valeur ajout�e � nos clients, nous devons construire et d�ployer des milliers de mod�les d'apprentissage de la machine, qui sont diff�rentes pour le cas d'utilisation de chaque client et en fonction des propres d�riv�s des donn�es de chaque client formation.

Cet objectif, la seule fa�on d'atteindre sans engager de grandes quantit�s de donn�es scientifiques est automatis�. Aujourd'hui, la plupart des solutions d'automatisation ML soit se concentrer uniquement sur une petite partie de la machine globale d'apprentissage de flux de travail, con�u pour des donn�es homog�nes ou non structur�es, l'image, la voix et des constructions de langage. Mais nous avons besoin d'un moyen pour l'h�t�rog�ne � grande �chelle mod�le de donn�es structur�es pour g�n�rer rapidement des solutions. Dans le dictionnaire, des moyens Transmogrification � � fa�on surprenante ou magique pour convertir �, qui est TransmogrifAI fait des choses Salesforce - laissez l'�quipe scientifique de donn�es a �t� en mesure de convertir les donn�es des clients dans des pr�visions significatives. Aujourd'hui, la plate-forme a d�ploy� des milliers de mod�les d'apprentissage machine sp�cifique, chaque jour pour soutenir plus de trois milliards de fois pr�vu.

Dans cet article, nous pr�senterons TransmogrifAI flux de travail, discuter des d�cisions de conception derri�re elle.

flux de travail TransmogrifAI

La construction de mod�les d'apprentissage machine impliquent g�n�ralement un grand nombre de recherche et de d�veloppement. Pr�paration des donn�es, les caract�ristiques techniques et la formation de mod�le est un processus it�ratif, pour les automatiser m�rissent, prendre plusieurs semaines ou m�me des mois.

TransmogrifAI est une construction Scala et SparkML bas�e sur la biblioth�que, est d'accomplir cette t�che est n�. scientifiques donn�es seulement quelques lignes de code pour automatiser le nettoyage des donn�es, les caract�ristiques techniques et la s�lection de mod�les, obtenant ainsi un mod�le de haute performance, et une exploration plus pouss�e et les it�rations suivantes.

TransmogrifAI encapsule les cinq principales composantes du processus d'apprentissage de la machine:

Raisonnement Feature

La premi�re �tape est g�n�ralement conduite d'apprentissage automatique pour la pr�paration des donn�es. Les scientifiques recueillent toutes les donn�es pertinentes, les donn�es et plat, et des sources de donn�es reli�es entre elles diff�rentes, des extraits du signal d'origine peut �tre utilis� pour la pr�diction. Ensuite, le signal extrait est introduit dans une structure de donn�es flexible, commun�ment appel�e trame de donn�es. Bien que ces structures de donn�es facile � utiliser, mais ils ne peuvent pas laisser les scientifiques de donn�es des effets des erreurs en aval, telles que des hypoth�ses erron�es sur le type de donn�es ou les valeurs NULL. Par cons�quent, les scientifiques de donn�es peuvent ex�cuter un pipeline dans la nuit, mais a �chou� parce qu'elle essayait de multiplier deux cordes.

En TransmogrifAI, nous permettons aux utilisateurs de sp�cifier leurs mod�les de donn�es et extraire automatiquement les variables pr�dictives d'origine et le signal de r�ponse en tant que � fonction � afin de r�soudre ce probl�me. Fonction est fortement typ�, TransmogrifAI prend �galement en charge une fonctionnalit� riche et �volutive hi�rarchie de type. Cette hi�rarchie au-del� des types primitifs, le soutien pour le type plus granulaire, tels que l'emplacement, le num�ro de t�l�phone, code postal et ainsi de suite. En plus de permettre � l'utilisateur de sp�cifier le type d'addition, TransmogrifAI peut d�duire le type lui-m�me. Par exemple, si elle d�tecte des caract�ristiques avec un faible texte de base est en fait des caract�ristiques de classification de camouflage, il sera catalogu�e et un traitement appropri�. Fortement typ�e fonctionnalit� permet aux d�veloppeurs de capturer la plupart des erreurs au moment de la compilation plut�t que lors de l'ex�cution. Ils sont aussi la cl� de l'automatisation du pipeline apprentissage automatique en commun un type particulier de traitement.

Transmogrification (automatisation des travaux comprend par exemple)

Bien que la caract�ristique forte de l'inf�rence de type aide beaucoup de donn�es et de minimiser en aval des erreurs, mais finalement toutes les fonctionnalit�s doivent encore �tre converties en une repr�sentation num�rique, afin d'exposer la r�gularit� des donn�es, de sorte que les algorithmes d'apprentissage machine peuvent facilement utiliser les donn�es. Ce processus est appel� travaux de fonction. Il existe des m�thodes innombrables peuvent �tre utilis�s pour convertir le type repr�sent� dans la figure ci-dessus caract�ristiques, la m�thode de s�lection des donn�es correctes est une science et de l'art.

Par exemple, comment les �tats am�ricains (tels que CA, NY, TX, etc.) sont converties en num�rique? Une m�thode est un nombre compris entre 1 et 50 et chaque ensemble de mise en correspondance de l'�tat. Le probl�me avec cette approche est qu'il ne peut pas conserver les informations relatives � la proximit� g�ographique de l'�tat. Toutefois, lorsque le comportement d'achat de l'utilisateur analogique, la proximit� peut �tre une caract�ristique importante. Nous pouvons essayer une autre m�thode consiste � utiliser la distance entre le centre de l'�tat et les centres des �tats-Unis. Cela permettra de r�soudre le premier probl�me, mais ne comprend pas encore une information d'�tat est situ� aux �tats-Unis du nord, au sud, � l'ouest ou � l'est. Ceci est juste une simple caract�ristique - imaginer les centaines ou des milliers de fonctionnalit�s! Ce processus est si difficile parce que la m�thode correcte universelle n'existe pas, parce que le succ�s de la m�thode d�pend en grande partie sur les questions sp�cifiques.

Dans lequel un ensemble de diff�rents types de vecteurs automatiquement convertie en num�rique, ce qui est l'origine du nom TransmogrifAI. TransmogrifAI fournit un certain nombre de support technique pour tous les types de fonction pris en charge, � partir du num�ro de t�l�phone, adresse e-mail, les donn�es de localisation g�ographique au texte. TransmogrifAI pas seulement les donn�es dans un format qui peut �tre utilis� dans l'algorithme, il est optimis� pour la conversion, les algorithmes d'apprentissage machine � plus facile � apprendre � partir des donn�es. Par exemple, il peut convertir les �ges des �ges pour r�pondre � une question sp�cifique - l'�ge de l'industrie de la mode peut �tre diff�rente de gestion de patrimoine �ges.

Mais m�me avec toutes les fonctions ci-dessus, il dispose d'une ing�nierie de voyage est toujours pas la fin du voyage. Par cons�quent, en plus de fournir par d�faut technique, nous avons �galement mis beaucoup d'�nergie, de sorte que l'ing�nierie plus facile, des caract�ristiques communes afin que les d�veloppeurs peuvent personnaliser et �tendre les valeurs par d�faut.

fonction de v�rification automatique

Projet peut comporter la croissance explosive des dimensions de donn�es appara�t. donn�es de grande dimension vont souvent mal! Par exemple, un champ de donn�es particulier peut se produire une d�rive et une formation bas�e sur des mod�les dans ces champs de mauvais r�sultats sur les nouvelles donn�es. Un autre probl�me (souvent n�glig�) est que, apr�s la fuite de donn�es ou les pr�jug�s. Lorsque l'information ne semble pas pr�dire la fuite � l'�chantillon de formation dans ce cas se produit. Le r�sultat est que le mod�le semble bon dans la pratique tout � fait inutile. Supposons que nous ayons un ensemble de donn�es contenant des informations sur les transactions, notre t�che est de pr�dire la transaction intensive. Imaginez ce jeu de donn�es a un champ appel� � montant de la transaction a �t� r�gl�e �, le champ seulement apr�s la fin de la n�gociation penserait ce domaine est hautement pr�visible, parce que toutes les transactions ont �t� effectu�es non-z�ro Un algorithme d'apprentissage machine aveugle � montant de la transaction a �t� r�gl�e. � En fait, la transaction est toujours en cours, le terrain ne sera jamais la valeur, elle conduira � une mauvaise performance des mod�les d'apprentissage de la machine! Dans Salesforce, un tel biais de recul est �galement un probl�me, car l'inconnu et l'automatisation des processus commerciaux remplissent habituellement la plupart des donn�es du client, il est facile pour les scientifiques donn�es Confondre relation de cause � effet.

Lorsque la fonction au fil du temps et de la d�rive, montrant la variance de caract�ristique nulle, ou la distribution de pr�vision dans l'�chantillon de formation - TransgmogrifAI fournit des algorithmes peuvent �tre utilis�s pour effectuer des fonctions de v�rification automatique, de supprimer des fonctions puissance presque pas pr�dictive la r�partition des caract�ristiques sensiblement diff�rentes. Ces algorithmes de traitement peuvent �tre remplis de biais avec le recul des donn�es de grande dimension et l'inconnu est particuli�rement utile. Ils utilisent une s�rie de statistiques de test en fonction du type de fonction, et suivi en utilisant les donn�es de fonction pour d�tecter et biais d�fausse.

S�lection automatique du mod�le

La derni�re �tape du processus implique un algorithme d'apprentissage automatique pour pr�parer une bonne donn�es et construire des mod�les pr�dictifs. Ils peuvent essayer de nombreux algorithmes diff�rents, chaque algorithme a un param�tre de r�glage correspondant. Trouver les bons algorithmes et les param�tres peuvent �tre obtenus un mod�le de haute performance.

s�lecteur de mod�le TransmogrifAI sur les donn�es ex�cuter plusieurs algorithmes diff�rents d'apprentissage de la machine, et s�lectionne automatiquement le meilleur algorithme bas� sur l'erreur de validation moyenne. Elle permettra �galement des donn�es recalibrage est �chantillonn� et les donn�es pr�vues pour traiter automatiquement le probl�me de d�s�quilibre. Le meilleur et le pire mod�le de formation scientifique des donn�es de performance est g�n�ralement d�riv� �cart important, et d'explorer l'espace mod�le est essentiel pour �viter de manquer un meilleur mod�le pour.

optimisation des param�tres Ultra: Toutes la phase d'optimisation des param�tres de base ci-dessus est termin�e. Dans la communaut� d'apprentissage de la machine d'aujourd'hui, ultra-param�tre fait r�f�rence aux param�tres r�glables sur les algorithmes d'apprentissage automatique. Cependant, la r�alit� est que toutes les �tapes ci-dessus avec une vari�t� de param�tres r�glementaires importants. Par exemple, dans les caract�ristiques de phase d'ing�nierie, nous pouvons ajuster le nombre de variables en sortie binaire du facteur pr�dictif de classification. les donn�es de d�s�quilibre de traitement cadence d'�chantillonnage est un autre param�tre r�glable. R�glez tous ces param�tres pour les scientifiques de donn�es peut �tre un lourd fardeau, mais il peut faire un bon mod�le pour creuser l'�cart entre les pauvres avec le mod�le. C'est pourquoi TransmogrifAI fournit un certain cadre ajuster automatiquement ces param�tres et une super technologie peut �tre �tendue � des techniques de r�glage plus avanc�es.

Dans Salesforce, le temps total n�cessaire pour l'automatisation de la formation du mod�le a �t� r�duit de semaines et mois � quelques heures. Tous ces ensemble complexe de code est tr�s simple, il suffit de quelques lignes de code peuvent g�rer la, s�lection de mod�le et de v�rification dispose d'ing�nierie d'automatisation des caract�ristiques d�crites ci-dessus:

// lecture des donn�es de transaction

val dealData = DataReaders.Simple.csvCase (Path = pathToData) .readDataset (). ToDF ()

// extraction de caract�ristiques

val (isClosed, pr�dicteurs) = FeatureBuilder.fromDataFrame (DealData, r�ponse = "isClosed")

// fonctions d'automatisation de l'ing�nierie

val featureVector = predictors.transmogrify ()

// fonctions d'automatisation de v�rification

val cleanFeatures = survived.sanityCheck (featureVector, removeBadFeatures = true)

// S�lection automatique du mod�le

val (pred, cru, prob) = BinaryClassificationModelSelector (). setInput (isClosed, cleanFeatures) .getOutput ()

// Cr�er le flux de travail et a commenc� la formation mod�le

mod�le val = new OpWorkflow (). setInputDataset (dealData) .setResultFeatures (pred) .train ()

Les d�cisions de conception

TransmogrifAI objectif de conception est d'am�liorer l'efficacit� du d�veloppeur d'apprentissage de la machine - non seulement pour l'apprentissage de la machine automatis�e, fournit �galement un ensemble de l'API pour mettre en uvre le type de compilation s�curit�, la modularit� et la r�utilisation. Voici quelques-unes de nos d�cisions de conception.

Spark Apache

Pour diverses raisons, nous avons choisi de construire TransmogrifAI sur Spark Apache. Tout d'abord, nous devons �tre en mesure de g�rer la quantit� de donn�es de diff�rentes tailles. Certains de nos clients et les cas d'utilisation exigent des dizaines de millions d'enregistrements de donn�es � travers l'agr�gation ou la connexion pour former le mod�le, mais il y a des clients et des cas d'utilisation exigent que quelques milliers de dossiers. Spark fournit une connexion primitive et l'agr�gation des grandes donn�es distribu�es, il est tr�s important pour nous. Deuxi�mement, nous devons �tre en mesure de fournir un mod�le d'apprentissage machine selon lot et le d�bit de la mode. Spark en streaming permet de travailler TransmogrifAI dans les deux modes. Enfin, � partir d'une biblioth�que open source active construction TransmogrifAI, vous pouvez profiter de l'am�lioration continue de la biblioth�que dispose de tout sans avoir � r�inventer la roue.

caract�ristiques R�sum�

Transformateur SparkML Pipelines introduit abstrait et estimateur pour convertir dataframe. TransmogrifAI �tabli (les caract�ristiques de conversion ci-dessus, les caract�ristiques et la s�lection mod�le de validation, fourni par Estimator) sur la base de ces abstractions, en outre, a �galement pr�sent� des caract�ristiques abstraites. La caract�ristique essentielle est un pointeur sur une colonne de dataframe de type s�curis�, qui contient toutes les informations vis�es dans la colonne - son nom, le type de donn�es qu'il contient, ainsi que ses informations de lign�e.

La principale caract�ristique est un d�veloppeur de primitives interactives, d�finir les caract�ristiques de fonctionnement et devenir plus comme l'utilisation de variables dans un langage de programmation, plut�t que les colonnes de trame de donn�es d'exploitation. Feature est partageable, r�utilisable parmi les d�veloppeurs. En outre, TransmogrifAI offre la possibilit� de d�finir le r�sultat d'un complexe pour la polym�risation et la connexion en s�rie de temps.

Type de s�curit�

Fonction est fortement typ�, donc la v�rification de type TransmogrifAI peut �tre effectu�e dans l'ensemble du processus d'apprentissage de la machine, les erreurs de prises le plus t�t possible afin d'assurer que, non seulement de trouver au bout de quelques heures apr�s l'entr�e du pipeline. s�curit� de type et aussi d'autres d�tails sur la productivit� des d�veloppeurs, comme les recommandations du Code IDE intelligents. Vous pouvez voir tous les chiffres susceptibles de se convertir, et s�lectionnez celui ci-dessous.

Type de s�curit� peut �galement am�liorer la transparence des donn�es attendues flux apprentissage machine et sorties de chaque �tape, ce qui r�duit consid�rablement le nombre de connaissances tribales, les connaissances accumulent in�vitablement dans le workflow d'apprentissage machine suffisamment complexe.

Enfin, le type de fonction est essentielle pour le traitement en aval (en particulier l'ing�nierie et l'automatisation caract�ristiques de v�rification caract�ristique).

�volutivit� et personnalisation: Les d�veloppeurs peuvent utiliser le mod�le rapide de haute performance estimateur automatiquement, mais l'utilisateur a besoin de plus de contr�le estimateur chaque hors de la bo�te peuvent �tre param�tr�s et peuvent �tre directement et ajuster ces param�tres. De plus, les utilisateurs peuvent �galement sp�cifier personnalis�s estimateur Transformer et � utiliser dans le pipeline. Sp�cifiez un transformateur sur mesure est aussi simple que la d�finition des expressions lambda, TransmogrifAI charg�s de traiter tout le code pour la s�rialisation et passe-partout de-s�rialisation du transformateur.

val lowerCaseText = textFeature.map (_.Value.map (_. ToLowerCase) .toText)

�Evolutivit� et performances

En automatisant l'ing�nierie des fonctionnalit�s, donn�es scientifiques, il est facile de laisser l'expansion de l'espace caract�ristique, enfin obtenir dataframe Spark sont difficiles � manipuler. TransmogrifAI flux DAG par inf�rence se rendent compte l'ensemble des caract�ristiques de conversion n�cessaires pour r�soudre ce probl�me. En outre, �tant donn� que la Spark TransmogrifAI est bas�e sur, il est possible de b�n�ficier d'une optimisation am�lior�e de Spark dataframe.

Par cons�quent, nous pouvons automatiser la technique d'apprentissage machine avoir des donn�es sur des centaines de millions de lignes et de colonnes, l'espace de fonction �tendra � des dizaines de milliers de colonnes.

TransmogrifAI pour tout le monde sous tension

Pour nous, TransmogrifAI comme un grand changement, les scientifiques peuvent laisser nos donn�es avec un minimum de r�glages manuels g�n�rent des milliers de mod�les, et le temps moyen pour former des mod�les de haute performance raccourcie de quelques semaines � quelques heures. Ce niveau d'automatisation est essentiel pour nous d'offrir des services aux entreprises, nous pensons �galement que la machine d'aujourd'hui l'entreprise d'apprentissage chaque sc�ne plus d'un certain nombre de leurs scientifiques de donn�es et l'automatisation est la cl� de l'apprentissage de la machine.

Salesforce a �t� l'�tincelle Apache des utilisateurs et contributeurs, nous sommes heureux de continuer � travailler avec les collectivit�s pour construire TransmogrifAI ensemble. l'apprentissage de la machine peut changer le fonctionnement des entreprises, nous croyons que seulement gr�ce � l'�change d'id�es et le code afin de r�duire les obstacles � l'adoption. Gr�ce � la collaboration, nous pouvons r�unir diff�rents points de vue, continuer � promouvoir le d�veloppement de la technologie au profit de tous.

texte anglais:

https://engineering.salesforce.com/open-sourcing-transmogrifai-4e5d0e098da2

Le personnel d'exploitation: Ran Colline

Route de la soie

Apprenez � conna�tre la Chine

Fin du vrai tueur Google AutoML! Salesforce open source TransmogrifAI