Google BERT open source sans effort détendu formation modèle de langage naturel

Cet article est une compilation de technologie blog AI Yanxishe, le titre original:

Google Open Sources BERT à se entraîner en langage naturel Modèles sans casser la Banque

Auteur | Jesus Rodriguez

Traduction | Michée Une façon Relecture nord | sauce Fan Li

Finition | soeur ananas

Lien original:

https://towardsdatascience.com/google-open-sources-bert-to-train-natural-language-models-without-breaking-the-bank-813ef38018fc

Google BERT open source sans effort détendu formation modèle de langage naturel

KK

À l'heure actuelle le modèle de traitement du langage naturel est une technologie de pointe de l'intelligence artificielle, ils sont beaucoup de systèmes d'IA interagissent avec l'interface utilisateur. principal obstacle vient du modèle de développement de la PNL repose sur des données de marque de haute qualité. Comme la langue est un mécanisme d'échange universel que tout ce qui peut être appliqué, ce qui signifie qu'il est difficile de trouver un champs de données d'annotation de spécifiques pour former le modèle. Pour relever ce défi, le modèle linguistique de formation PNL a décidé d'utiliser le principe de la grande quantité de données sans étiquette. Très célèbre modèle de pré-formation comprend Word2Vec, gants ou fastexte. Cependant, le modèle de pré-formation a ses propres défis, dans le contexte de l'expression de grandes quantités de données échouent souvent. Récemment, des chercheurs de l'équipe GOOGLE linguistique AI du projet de code open source BERT, une formation pré-langue et les bibliothèques de la santé, ainsi que leurs résultats de formation obtenus de très bons résultats.

Représentations de codeur bi-directionnel Transformateurs (BERT) est issue d'une étude interne de Google, mis en avant différentes méthode d'acquisition de données dans un modèle de pré-formation d'un grand nombre de langue contextuelle dans. Ces expressions peuvent être utilisées dans des domaines spécifiques des tâches PNL, questions et réponses déclaration similaire, l'analyse des sentiments. Relâchez projets open source, aussi bien dans la mise en uvre des documents techniques tensorflow présentés, ainsi qu'une série de modèle de pré-formation.

Récupération et contexte bidirectionnel

Maintenant, vous voudrez peut-être connaître un autre BERT et autre lieu de modèle de pré-formation. En théorie, les techniques de formation en PNL peuvent être prédéfinis sans contexte, le contexte peut être récupéré avec l'autre. Contexte modèle indépendant, ou similaire word2vec GloVegenerate seule expression de mot est un vocabulaire intégré. Par exemple, « football » Ce mot a la même sémantique que la déclaration suivante: « Je suis allé à un match de football », «J'ai eu quelques joueurs de football du Real Madrid ».

Génération d'une récupération de modèle de contexte n'est pas exprimé par une seule déclaration de mot, mais exprimé pour générer des phrases fondées sur d'autres mots à dire dans les différentes directions. Dans notre exemple, le contexte du modèle requête recherche « football » selon le sens de l'expression « je suis allé .. » ou «j'ai rencontré ... » produit plutôt que la « race », « joueur du Real Madrid. » Essentiellement, le style peut être récupéré, modèle plus pré-formation peut être un contexte sans contexte en profondeur, peut être la nature unidirectionnelle ou bidirectionnelle.

BERT en créant un contexte de récupération qui signifie contextuellement de la sémantique des mots, l'extension de l'approche modèle de pré-formation avant, enrichir le modèle de langage. Atteint les deux sens, la recherche sémantique contextuelle est pas aussi facile que cela puisse paraître dans le modèle de la PNL. Bidirectionnel plus grande difficulté réside pas seulement dans le modèle de formation d'un front et à l'arrière d'un mot de mot comme contexte, le mot peut faire indirectement à la recherche de « eux-mêmes » dans un modèle multi-couches. Google BERT utilise une architecture très intelligent pour relever ce défi.

architecture

BERT modèle d'architecture multicouche basée sur le décodage de conversion dans les deux sens, et le principe de tensor2tensor bibliothèque est très similaire. BERT a un modèle OpenAI TPG ou Elmo et d'autres pré-formation est très similaire à l'architecture du réseau. Cependant, comme indiqué ci-dessous avec une connexion bidirectionnelle entre le convertisseur.

BERT plus grande contribution est l'utilisation de deux tâches de prédiction non surveillée exotiques pour relever les défis mentionnés précédemment. Alors que le mot de telle sorte que dans le contexte de l'article dans « se reconnaître » possible. Adresse BERT ce défi en utilisant une variété de mission de pré-formation: un bouclier et une prévision inférieure. Le premier modèle de pré-masquage environ 15% de la parole d'entrée, exécuter toute la profondeur de la communication bidirectionnelle de convertisseur décodé, et seule la prédiction de mots ombrée, par exemple:

La seconde tâches de prétraitement générés au hasard par l'instruction simple corpus, étudier le lien entre les déclarations. Compte tenu de deux déclarations A et B, B de A est la déclaration après? B corpus ou mot juste choisi au hasard?

Ces deux pré-tâche combinée rend BERT se sont enrichis, l'expression sémantique bi-directionnelle dans presque toutes les tâches de la PNL.

Utilisez BERT a deux phases: pré-formation et de réglage fin

  • Préformation: relativement cher (4 course sur les nuages 4 à 16 PUT jours), mais pour chaque langue, pour exécuter une seule fois. Afin d'atténuer la gravité de la tâche, Google a annoncé le lancement de plusieurs modèles pré-formation qui peut être utilisé scène PNL.

  • Fin: très pas cher, tout ce qui peut être fait sur le travail de papier peut être complété dans un TPU nuage d'une heure, ou utiliser le GPU, puis prendre quelques heures. À partir du même modèle de pré-formation.

BERT pratique

Google BERT comme référence à d'autres bons systèmes de PNL, a accompli des réalisations remarquables. Plus important encore, tous les résultats obtenus bert sans changer la structure du réseau de neurones en fonction de la tâche. Dans SQUAD V1.1, BERT et atteint 93,2% du score de F1 (calculé score de précision), dépassant la traduction humaine 91,2% et 91,6% du modèle précédent.

BERT a également augmenté de 7,6% de référence de COLLE de référence, et une tâche de collecte 9 types de compréhension du langage naturel (NLU).

Apprendre un modèle de langage de la migration récente a apporté beaucoup de empiriques améliorer le spectacle d'un grand nombre de modèle de pré-formation non supervisée est une partie importante de nombreux systèmes de compréhension linguistique. BERT indique que l'acquisition de deux voies, il est possible d'exprimer le contexte de la langue dans le modèle de la PNL pré-traitement. À l'heure actuelle tensorflow BERT permet aux développeurs de mettre en uvre cette technologie de pointe dans leur scène PNL tout en maintenant la gérer des coûts de calcul. Lei Feng Lei Feng Lei réseau de réseau de réseau Feng

Je veux continuer à voir les articles liens et références connexes?

Appuyez sur et cliquez pour ouvrir le lien suivant:

AI Yanxishe contenu passionnant mis à jour tous les jours, pour voir plus de contenu:

CVPR 2018 Résumé: La première partie

Ce 25 projet d'apprentissage machine open source, la plupart des gens que je ne dis pas Ta

Comment améliorer considérablement la vitesse de votre modèle d'efficacité de la formation?

Circonvolution avec quatre types de réseaux de neurones, la classification des images de la mode détendue

En attendant vous interprétez:

2018,11 Top texte réseau d'apprentissage machine Dix

Comment se démarquer dans la science des données d'entrevue

25 peut être placé dans le lac des ensembles de données de recherche de données vocales

Un article que vous lisez avec un WaveNet: assistant Google synthétiseur sonore

« Complexe avec 4 » portée de la remorque 182 minutes! Plus de trois heures de disque à succès final Marvel
Précédent
Allez sur la route tout à coup trouvé Izawa Riel League, la pose de fraîche comme dans kabedon
Prochain
BAPE a également commencé à jouer la marque de chaîne! ? Rafraîchissez série d'automne de féroce!
Le nouveau Leinuo Ka Bin listé dans le Royaume-Uni environ 140.000 yuans de la vente
Déesse comme photo P? Je ne pensais pas que vous êtes à la recherche à la maison a aussi des photos P
Le plus bas de yuans de nouveaux 3499 téléphone mobile (tableau) de Nubian est plein de mauvais goût « vase »
10W charge rapide +124 évents, Nanfu lancement de l'iPhone X personnalisé chargeur sans fil
« Maître-bon » au box-office brisera les milliards de téléspectateurs: Après la lecture de l'enseignant voulait appeler
Riz rouge Note 7 Pro version BNM 3,18 version performance comparable à celle de la caméra phare mise à niveau
temps de singe automne 2017 et édition spéciale d'hiver style pour inverser la tendance du vent! L'utilisation de plusieurs éléments pour voler la vedette!
La nouvelle e6 BYD ou les années indiquées vie de la batterie jusqu'à 450 km
Betta vivent avec la « ère d'ange » première main amour Wuhan Han marécageuse bouche
A part de volume a chuté de près de 3 lourd%! Deux dirigeants financiers est baissier, l'ajustement du niveau hebdomadaire approche?
Le nouveau détail phare! mil 6X officiellement publié: le prix de 1599 yuans