mod�les d'apprentissage de la machine trop difficile � d�ployer? Il existe trois solutions

Les personnes optimistes voudront � l'avenir �tre en mesure de compl�ter la machine apprendre � conduire une voiture, de recevoir des appels, rendez-vous, r�ponse e-mail � ces humains pour accomplir la t�che. Mais la r�alit� est souvent tr�s maigre. l'apprentissage de la machine moderne peut r�soudre efficacement le probl�me est toujours fourchette tr�s �troite, par exemple, une recommandation de programme sur Netflix ou calcul ETA.

Toutefois, lorsque OpenAI lib�ration GPT-2, l'�cart entre les machines et les humains ont �t� r�duits.

En indiquant simplement la taille du mod�le, OpenAI �tablir un mod�le de langage commun, peut �tre plus facilement g�rer les t�ches humaines � travers ce dernier (bien que parfois imparfait):

Source: OpenAI

GPT-2 semble pas un hasard, il a �t� lib�r� peu de temps apr�s, Salesforce a publi� un mod�le de langage de param�tre 1,6 milliard CTRL. NVIDIA construit Megatron, transformation des param�tres de mod�le d'un 8 milliards. R�cemment, Google a publi� le mod�le le plus avanc� de la session Meena a param�tre 2,6 milliards.

M�me dans le domaine de la vision par ordinateur pour obtenir de meilleures performances n�cessite souvent un plus grand mod�le. L'�t� 2018, dans le GPT-2 a �t� publi� il y a quelques mois, Google a publi� le NASNet, c'est un record du mod�le de classification d'image, qui a 88,9 millions de param�tres, �tre en mesure d'identifier les objets d'image grand public dans une image que tout autre mod�le de classification est plus grand:

Source: Sik-Ho Tsang

La tendance est claire. Afin d'obtenir une meilleure vision de l'apprentissage de la machine entra�n�e future, ces � super mod�le � va cro�tre. Mais la question est maintenant:

Ils sont trop gros, aucun moyen d'utiliser dans la production.

Quels sont les d�fis rencontr�s super mod�le?

Le mod�le continue � se d�velopper, de les d�ployer en production est de plus en plus difficile. Avec GPT-2 comme exemple:

GPT-2 est sup�rieur � 5 GB . Mod�le int�gr� localement dans le logiciel d'application n'est pas s�lectionn� les appareils mobiles.
GPT-2 doit calculer . Pour servir une seule pr�diction, peut occuper GPT-2 plusieurs minutes � 100% d'utilisation du processeur. M�me avec GPU, une pr�diction prend encore quelques secondes. Cela se compare � une application Web peut utiliser un processeur au service des centaines d'utilisateurs simultan�s.
Grande demande de m�moire GPT-2 . En plus de l'espace disque consid�rable et les besoins informatiques, TPG-2 n�cessite �galement beaucoup de m�moire afin d'assurer le bon fonctionnement.

En d'autres termes, TPG-2 � grande �chelle, des ressources � forte intensit� et lente. Pour le mettre en production est un d�fi, et d'�largir l'�chelle est encore plus difficile.

Ces probl�mes ne sont pas uniques GPT-2, qui sont communs � tous est le mod�le super, et ne deviendront plus que le mod�le devient pire. Heureusement, la machine d'apprentissage �cosyst�me dans un certain nombre de projets sont �limin�s cet obstacle.

Comment pouvons-nous r�soudre le probl�me de super mod�le

Bien trop t�t pour r�soudre compl�tement le probl�me, mais la direction g�n�rale du super mod�le pour r�soudre le probl�me de trois points:

1. Le plus petit mod�le

Si le mod�le devient trop grand, la fa�on la plus directe est de les compresser.

Une fa�on est par la connaissance de la distillation. Sur un tr�s haut niveau, on peut dire qu'un petit mod�le (les �tudiants) peuvent imiter les performances des grands mod�les (parents) gr�ce � l'apprentissage.

En d'autres termes, la formation GPT-2 besoin de 40 Go pour saisir du texte, ce qui �quivaut � un fichier texte d'environ 27.118.520. Cependant, la formation d'un mod�le GPT-2 simplifi�, il vous suffit de donner l'entr�e et la sortie de GPT-2.

La c�l�bre biblioth�que Transformateurs PNL derri�re la cr�ation de cette soci�t� est HuggingFace DistilGPT2. Bien que certains points DistilGPT2 est inf�rieure � la qualit� de r�f�rence num�ro complet de mod�le TPG-2, mais il est plus que le mod�le complet GPT-233% plus petit, deux fois plus vite.

La vitesse est deux fois plus grosse affaire. Pour la voiture automatique de conduite, un parking surveill� et les accidents sont deux choses diff�rentes. Pour un agent de conversation, il est la diff�rence entre le naturel et le dialogue avec les appels de robots ennuyeux.

En fait, vous pouvez les performances DistilGPT2 et GPT-2 et HuggingFace par rapport � l'interaction de l'�criture �diteur Transformateurs:

Source: �crire avec des transformateurs

2. Le d�ploiement de mod�le au nuage

Cependant, m�me apr�s distillation, le mod�le est encore assez grande. Mod�le est sup�rieur � 25 Go (NVIDIA Megatron est 5,6 fois le TPG-2) est, une diminution de 33% est encore tr�s important.

Dans cette �chelle, nous avons utilis� pour consommer du mat�riel contenu ML g�n�r� - notre t�l�phone, t�l�vision, et m�me nos ordinateurs - ne sont pas ces mod�les accueillent, ils ne correspondent pas.

Une solution consiste � d�ployer le mod�le cloud en tant que micro-services, notre �quipement peut �tre interrog� au besoin. Ce raisonnement est appel� en temps r�el, il est la m�thode standard pour le mod�le de d�ploiement � grande �chelle dans la production.

Cependant, dans le d�ploiement de cloud a ses propres probl�mes, en particulier l'ampleur du probl�me.

Par exemple, le regard let � AI Dungeon, ce qui est un jeu d'aventure de texte populaire, sur la base du TPG-2:

En raison de la taille et des besoins de calcul de GPT-2, AI Dungeon ne peut servir deux utilisateurs � partir d'un mod�le unique de d�ploiement. Avec l'augmentation du trafic, AI Dungeon devez mettre � jour automatiquement.

Extended d�ploiement TPG-2 est tr�s d�licat. Il vous oblige �:

Assurez-vous que chaque d�ploiement est le m�me. Par exemple, en utilisant le mod�le Docker conteneurisation, l'utilisation de l'arrangement des conteneurs.
d�ploiement � grande �chelle automatique de s�curit�. Par exemple, en organisant une instance de fournisseur de nuage automatique scaler rotation et en fonction automatiquement le trafic.
Optimisation des ressources. Cela implique de trouver le type d'instance la plus faible r�partition des co�ts et des ressources sans sacrifier les performances.

Si bien fait, vous recevrez une somme �norme de la facture des nuages - le d�ploiement de 200 cas de g4dn.2xlarge co�te 150,40 $ par heure, ou vous vous trouvez dans l'API du service de pr�diction se bloque souvent.

En d'autres termes, aux grands mod�les pour votre service, vous devez actuellement avoir une connaissance consid�rable de DevOps, et la plupart des donn�es ne peut pas terminer les travaux d'infrastructure de scientifiques et d'ing�nieurs.

Heureusement, certains projets travaillent � �liminer ce goulet d'�tranglement.

Cortex projet open source comme ce projets d'infrastructure --AI Dungeon derri�re, au besoin pour le mod�le de d�ploiement automatis� � grande �chelle Devops des outils de travail, a re�u une large attention:

Source: Cortex GitHub

3. Le service mod�le d'acc�l�ration mat�rielle

La derni�re cat�gorie pour le rendre plus facile � entretenir le grand mod�le de m�thodes et de mod�les n'a pas de relation. Au lieu de cela, il li� au mat�riel am�lior�.

Grand mod�le de meilleures performances sur un mat�riel diff�rent. En fait, comme je l'ai dit, pourquoi GPU est important de mod�liser le service? En effet, que sur le GPU peut �tre temps de latence suffisamment faible pour que les services de GPT-2, tels que la correction automatique:

La plupart des gens ont frapp� 40 mots par minute, le mot anglais moyen sur les cinq caract�res, donc une personne ordinaire entrer 200 caract�res par minute, ou entrez 3,33 caract�res par seconde. Aller plus loin, cela signifie que la personne moyenne entre chaque temps d'entr�e de caract�res est d'environ 300 millisecondes.

Si vous utilisez sur la CPU, occupant 925 millisecondes par demande, votre taux de synth�se intelligente Gmail va ralentir. Lorsque vous avez affaire � caract�re d'un utilisateur, trois d'entre eux datant personnages principaux - si l'entr�e est une machine � �crire rapide, encore plus en avance.

Cependant, avec l'aide du GPU, votre vitesse de traitement est loin devant eux. Lorsque chaque demande occupe 199 millisecondes, vous serez en mesure de pr�dire le reste du message avec le temps libre d'environ 100 millisecondes, ce qui est tr�s utile lorsque leurs navigateurs doivent encore pr�senter vos pr�dictions.

Cependant, comme le mod�le est de plus en plus, nous avons besoin de plus de puissance de traitement.

La solution � ce probl�me comprennent la construction d'un nouveau mat�riel. Par exemple, Google a publi� TPU, qui est d�di� aux interfaces tensorflow con�u ase. TPU plus r�cent de Google a r�cemment cass� la r�f�rence de l'�volutivit� du mod�le de service et les dossiers de performance. US Amazon Cloud (AWS) a r�cemment publi� sa propre puce de raisonnement professionnel.

D'autres travaux pr�voit l'acc�l�ration et l'optimisation du mat�riel existant. Par exemple, NVIDIA a publi� TensorRT, c'est un service d'optimisation de l'utilisation GPU NVIDIA raisonnement du SDK. NVIDIA a �t� enregistr� � l'aide TensorRT sur les performances du GPU, il est plus que CPU uniquement un raisonnement a augment� de 40 fois.

l'apprentissage de la machine deviendra monnaie courante

� bien des �gards, la machine d'apprentissage encore comme l'ouest sauvage comme les Etats-Unis.

GPT-2 comme le super mod�le commence tout juste � �merger, en plus de grandes entreprises, l'apprentissage de la machine est de plus en plus largement accept�e par les ing�nieurs, l'architecture mod�le semble avoir �t� une nouvelle perc�e est � port�e de main.

Cependant, nous avons vu l'�mergence de l'apprentissage de la machine dans presque tous les secteurs verticaux, des m�dias aux services bancaires au d�tail. Sans surprise, dans un avenir proche, � peine un produit ne comportera pas l'apprentissage de la machine.

Avec la machine � apprendre � devenir une partie standard du logiciel, les d�fis du d�ploiement des mod�les � grande �chelle dans la production seront �galement devenus monnaie courante.

via: https: //towardsdatascience.com/too-big-to-deploy-how-gpt-2-is-breaking-production-63ab29f0897c

Lei Feng Lei Feng Lei r�seau de r�seau de r�seau Feng

Route de la soie

Apprenez � conna�tre la Chine

mod�les d'apprentissage de la machine trop difficile � d�ployer? Il existe trois solutions