modèles d'apprentissage de la machine trop difficile à déployer? Il existe trois solutions

Les personnes optimistes voudront à l'avenir être en mesure de compléter la machine apprendre à conduire une voiture, de recevoir des appels, rendez-vous, réponse e-mail à ces humains pour accomplir la tâche. Mais la réalité est souvent très maigre. l'apprentissage de la machine moderne peut résoudre efficacement le problème est toujours fourchette très étroite, par exemple, une recommandation de programme sur Netflix ou calcul ETA.

Toutefois, lorsque OpenAI libération GPT-2, l'écart entre les machines et les humains ont été réduits.

En indiquant simplement la taille du modèle, OpenAI établir un modèle de langage commun, peut être plus facilement gérer les tâches humaines à travers ce dernier (bien que parfois imparfait):

Source: OpenAI

GPT-2 semble pas un hasard, il a été libéré peu de temps après, Salesforce a publié un modèle de langage de paramètre 1,6 milliard CTRL. NVIDIA construit Megatron, transformation des paramètres de modèle d'un 8 milliards. Récemment, Google a publié le modèle le plus avancé de la session Meena a paramètre 2,6 milliards.

Même dans le domaine de la vision par ordinateur pour obtenir de meilleures performances nécessite souvent un plus grand modèle. L'été 2018, dans le GPT-2 a été publié il y a quelques mois, Google a publié le NASNet, c'est un record du modèle de classification d'image, qui a 88,9 millions de paramètres, être en mesure d'identifier les objets d'image grand public dans une image que tout autre modèle de classification est plus grand:

Source: Sik-Ho Tsang

La tendance est claire. Afin d'obtenir une meilleure vision de l'apprentissage de la machine entraînée future, ces « super modèle » va croître. Mais la question est maintenant:

Ils sont trop gros, aucun moyen d'utiliser dans la production.

Quels sont les défis rencontrés super modèle?

Le modèle continue à se développer, de les déployer en production est de plus en plus difficile. Avec GPT-2 comme exemple:

  • GPT-2 est supérieur à 5 GB . Modèle intégré localement dans le logiciel d'application n'est pas sélectionné les appareils mobiles.

  • GPT-2 doit calculer . Pour servir une seule prédiction, peut occuper GPT-2 plusieurs minutes à 100% d'utilisation du processeur. Même avec GPU, une prédiction prend encore quelques secondes. Cela se compare à une application Web peut utiliser un processeur au service des centaines d'utilisateurs simultanés.

  • Grande demande de mémoire GPT-2 . En plus de l'espace disque considérable et les besoins informatiques, TPG-2 nécessite également beaucoup de mémoire afin d'assurer le bon fonctionnement.

En d'autres termes, TPG-2 à grande échelle, des ressources à forte intensité et lente. Pour le mettre en production est un défi, et d'élargir l'échelle est encore plus difficile.

Ces problèmes ne sont pas uniques GPT-2, qui sont communs à tous est le modèle super, et ne deviendront plus que le modèle devient pire. Heureusement, la machine d'apprentissage écosystème dans un certain nombre de projets sont éliminés cet obstacle.

Comment pouvons-nous résoudre le problème de super modèle

Bien trop tôt pour résoudre complètement le problème, mais la direction générale du super modèle pour résoudre le problème de trois points:

1. Le plus petit modèle

Si le modèle devient trop grand, la façon la plus directe est de les compresser.

Une façon est par la connaissance de la distillation. Sur un très haut niveau, on peut dire qu'un petit modèle (les étudiants) peuvent imiter les performances des grands modèles (parents) grâce à l'apprentissage.

En d'autres termes, la formation GPT-2 besoin de 40 Go pour saisir du texte, ce qui équivaut à un fichier texte d'environ 27.118.520. Cependant, la formation d'un modèle GPT-2 simplifié, il vous suffit de donner l'entrée et la sortie de GPT-2.

La célèbre bibliothèque Transformateurs PNL derrière la création de cette société est HuggingFace DistilGPT2. Bien que certains points DistilGPT2 est inférieure à la qualité de référence numéro complet de modèle TPG-2, mais il est plus que le modèle complet GPT-233% plus petit, deux fois plus vite.

La vitesse est deux fois plus grosse affaire. Pour la voiture automatique de conduite, un parking surveillé et les accidents sont deux choses différentes. Pour un agent de conversation, il est la différence entre le naturel et le dialogue avec les appels de robots ennuyeux.

En fait, vous pouvez les performances DistilGPT2 et GPT-2 et HuggingFace par rapport à l'interaction de l'écriture éditeur Transformateurs:

Source: écrire avec des transformateurs

2. Le déploiement de modèle au nuage

Cependant, même après distillation, le modèle est encore assez grande. Modèle est supérieur à 25 Go (NVIDIA Megatron est 5,6 fois le TPG-2) est, une diminution de 33% est encore très important.

Dans cette échelle, nous avons utilisé pour consommer du matériel contenu ML généré - notre téléphone, télévision, et même nos ordinateurs - ne sont pas ces modèles accueillent, ils ne correspondent pas.

Une solution consiste à déployer le modèle cloud en tant que micro-services, notre équipement peut être interrogé au besoin. Ce raisonnement est appelé en temps réel, il est la méthode standard pour le modèle de déploiement à grande échelle dans la production.

Cependant, dans le déploiement de cloud a ses propres problèmes, en particulier l'ampleur du problème.

Par exemple, le regard let à AI Dungeon, ce qui est un jeu d'aventure de texte populaire, sur la base du TPG-2:

En raison de la taille et des besoins de calcul de GPT-2, AI Dungeon ne peut servir deux utilisateurs à partir d'un modèle unique de déploiement. Avec l'augmentation du trafic, AI Dungeon devez mettre à jour automatiquement.

Extended déploiement TPG-2 est très délicat. Il vous oblige à:

  • Assurez-vous que chaque déploiement est le même. Par exemple, en utilisant le modèle Docker conteneurisation, l'utilisation de l'arrangement des conteneurs.

  • déploiement à grande échelle automatique de sécurité. Par exemple, en organisant une instance de fournisseur de nuage automatique scaler rotation et en fonction automatiquement le trafic.

  • Optimisation des ressources. Cela implique de trouver le type d'instance la plus faible répartition des coûts et des ressources sans sacrifier les performances.

Si bien fait, vous recevrez une somme énorme de la facture des nuages - le déploiement de 200 cas de g4dn.2xlarge coûte 150,40 $ par heure, ou vous vous trouvez dans l'API du service de prédiction se bloque souvent.

En d'autres termes, aux grands modèles pour votre service, vous devez actuellement avoir une connaissance considérable de DevOps, et la plupart des données ne peut pas terminer les travaux d'infrastructure de scientifiques et d'ingénieurs.

Heureusement, certains projets travaillent à éliminer ce goulet d'étranglement.

Cortex projet open source comme ce projets d'infrastructure --AI Dungeon derrière, au besoin pour le modèle de déploiement automatisé à grande échelle Devops des outils de travail, a reçu une large attention:

Source: Cortex GitHub

3. Le service modèle d'accélération matérielle

La dernière catégorie pour le rendre plus facile à entretenir le grand modèle de méthodes et de modèles n'a pas de relation. Au lieu de cela, il lié au matériel amélioré.

Grand modèle de meilleures performances sur un matériel différent. En fait, comme je l'ai dit, pourquoi GPU est important de modéliser le service? En effet, que sur le GPU peut être temps de latence suffisamment faible pour que les services de GPT-2, tels que la correction automatique:

La plupart des gens ont frappé 40 mots par minute, le mot anglais moyen sur les cinq caractères, donc une personne ordinaire entrer 200 caractères par minute, ou entrez 3,33 caractères par seconde. Aller plus loin, cela signifie que la personne moyenne entre chaque temps d'entrée de caractères est d'environ 300 millisecondes.

Si vous utilisez sur la CPU, occupant 925 millisecondes par demande, votre taux de synthèse intelligente Gmail va ralentir. Lorsque vous avez affaire à caractère d'un utilisateur, trois d'entre eux datant personnages principaux - si l'entrée est une machine à écrire rapide, encore plus en avance.

Cependant, avec l'aide du GPU, votre vitesse de traitement est loin devant eux. Lorsque chaque demande occupe 199 millisecondes, vous serez en mesure de prédire le reste du message avec le temps libre d'environ 100 millisecondes, ce qui est très utile lorsque leurs navigateurs doivent encore présenter vos prédictions.

Cependant, comme le modèle est de plus en plus, nous avons besoin de plus de puissance de traitement.

La solution à ce problème comprennent la construction d'un nouveau matériel. Par exemple, Google a publié TPU, qui est dédié aux interfaces tensorflow conçu ase. TPU plus récent de Google a récemment cassé la référence de l'évolutivité du modèle de service et les dossiers de performance. US Amazon Cloud (AWS) a récemment publié sa propre puce de raisonnement professionnel.

D'autres travaux prévoit l'accélération et l'optimisation du matériel existant. Par exemple, NVIDIA a publié TensorRT, c'est un service d'optimisation de l'utilisation GPU NVIDIA raisonnement du SDK. NVIDIA a été enregistré à l'aide TensorRT sur les performances du GPU, il est plus que CPU uniquement un raisonnement a augmenté de 40 fois.

l'apprentissage de la machine deviendra monnaie courante

À bien des égards, la machine d'apprentissage encore comme l'ouest sauvage comme les Etats-Unis.

GPT-2 comme le super modèle commence tout juste à émerger, en plus de grandes entreprises, l'apprentissage de la machine est de plus en plus largement acceptée par les ingénieurs, l'architecture modèle semble avoir été une nouvelle percée est à portée de main.

Cependant, nous avons vu l'émergence de l'apprentissage de la machine dans presque tous les secteurs verticaux, des médias aux services bancaires au détail. Sans surprise, dans un avenir proche, à peine un produit ne comportera pas l'apprentissage de la machine.

Avec la machine à apprendre à devenir une partie standard du logiciel, les défis du déploiement des modèles à grande échelle dans la production seront également devenus monnaie courante.

via: https: //towardsdatascience.com/too-big-to-deploy-how-gpt-2-is-breaking-production-63ab29f0897c

Lei Feng Lei Feng Lei réseau de réseau de réseau Feng

SiPM appliquée LiDAR: Pourquoi doit d'abord résoudre l'impulsion de retard, plutôt que d'améliorer la PDE?
Précédent
Poly sortie nationale du premier auto-développé rétro-éclairé puce microélectronique, puce de capteur à haute résolution ToF
Prochain
Regardez! L'intelligence artificielle que les plus grands femmes scientifiques du monde
Dur barre Google, Huawei a publié la « bataille »: l'année 2020, 1: 9 partager, mais seul développeur à la mer
train de voyageurs aveugles, le personnel de la station relais Taishan d'amour quand les « yeux »
Ali la vie locale premier boxeur
Prenez Apple « échappatoire épique », quelqu'un avec une machine à iPhone7 Andrews avait une brosse Andrews
Des données structurées ne doivent pas oublier l'intelligence artificielle
Chargé que le niveau de régulation mise en page de puce AI pilote automatique L3, Chang UNI-T haut de gamme revisitée
Prix de départ de l'appartement iPhone 11, OPPO Trouver série X2 flottant encore?
Le capteur d'image exploite le réseau de neurones! Réaliser nanoseconde classification d'image en temps, ou le bord de l'informatique avancer
Top algorithme RecSys 2020 acommence la saison, et vous pourriez Trump dans le même échantillon
Lu retour complet! Le dernier lot de triomphe de l'équipe médicale du Shandong, infirmière a crié « Allez à notre retour de mariage. »
La nouvelle épidémie de pneumonie couronne mieux, les habitants de Jinan Forest Park pour profiter des bons vieux jours du printemps