La machine n'apprend pas: un article pour voir par recrue BERT-PNL

Coincide avec les vacances du Nouvel An chinois, étudier un peu BERT. En tant que recrue en 2018 dans le domaine du traitement du langage naturel, BERT faire un progrès significatif de la PNL maître au cours des dernières années, une pièce de théâtre sur la compétition de roulement sensationnel, un record élevé 11 PNL testé, même au-delà de la performance humaine, Je crois que l'avenir sera l'une des applications les plus de recherche PNL modèle de langage grand public et de l'industrie. Ce document tente Deep apporte BERT élégant interprété comme vous spectateurs.

fond PNL: étape d'application BERT

PNL: Processus de langage naturel, le traitement du langage naturel, la science informatique, l'ingénierie et de l'information sous-domaine de l'intelligence artificielle, en se concentrant sur l'interaction homme-ordinateur, en particulier le traitement et l'analyse du langage naturel à grande échelle des données.

En plus de l'OCR, la reconnaissance vocale, le traitement du langage naturel ont des tâches communes en quatre catégories. Le premier type de tâche: l'étiquetage de séquence, comme la reconnaissance d'entités nommées, l'annotation sémantique, le marquage de point de vente, etc. mot, et un second type de tâche: les tâches de classification, telles que la classification du texte, l'analyse de l'émotion, le troisième type de tâche: déterminer la relation entre les phrases, par exemple, naturel le raisonnement de la langue, Q QA, la similitude sémantique du texte, etc .; et la quatrième tâche: formule de tâches, par exemple, la traduction automatique, texte résumé, la poésie et la phrase comme.

référence COLLE: Langue générale Comprendre l'évaluation de référence, la base d'évaluation de la compréhension du langage universel pour tester la robustesse du modèle dans un large éventail de tâches compréhension du langage naturel.

BERT a établi un record de 11 tâche test de référence de COLLE, qui a testé 11 tâches simples peuvent être divisés en trois catégories. Catégories d'étiquetage de séquence: NER CoNNL 2003 NER, une seule catégorie de classification de la phrase: seule phrase sentiment classement SST-2, une seule phrase correction grammaticale de COLA, phrase pour déterminer une relation entre les classes: la reconnaissance de la peine Mnll et RTE, langage naturel raisonnement WNLI des relations d'implication, questions et réponses pour contenir la bonne réponse QNLI, des phrases de texte similarité sémantique STS-B, phrase égale QQP d'analyse sémantique et MRPC, tâche SQUAD v1.1 de questions et réponses. Bien que le document ne mentionne pas la tâche générative, BERT fonction de base extracteur du nouveau cadre de réseau Transformer Google pour les questions de traduction automatique soulevé, la formule elle-même est adapté à la tâche.

Changement de modèle de langage: BERT du maître

LM: distribution de probabilités Langue modèle, un modèle de langage, un tas de séquences de mots pour représenter du texte par modèle probabiliste sémantique.

Quelle est la langue de modèle? Par modèle de langage peut mesurer quantitativement la probabilité de la présence d'un morceau de texte. Pour une longueur de texte n, où chaque mot a le texte du processus de prédiction de mots décrit ci-dessus, le produit des probabilités de tous les mots seront utilisés pour évaluer le texte. Dans la pratique, si le texte est très long, P (wi | contexte (wi)) sera très difficile à estimer, donc il y a une version simplifiée: N métamodèle. Dans le modèle N-gramme, les N premiers mots du mot en cours est calculée pour estimer la probabilité conditionnelle du mot. Pour les modèles N-gramme couramment utilisés Unigram bigramme et trigramme de, plus le N, le problème des données sujettes, a permis les résultats de l'estimation. En outre, le modèle d'élément N ne peut pas résoudre la polysémie et un problème de mot multi-intentionnés.

Afin de résoudre le problème de données d'estimer la probabilité modèle N-gramme, les chercheurs ont proposé un langage de modèle de réseau de neurones, mis représentant l'avant en 2003 Bengio de NNLM, mais l'effet est pas attrayant, une décennie de silence. Dans un autre domaine de la vision industrielle de l'informatique, l'apprentissage en profondeur Fared le vent et l'eau, est particulièrement intéressant de mentionner est le processus de pré-formation, typique: modèle Fine-Tuning IMAGEnet basé sur la pré-formation. les zones pré-image du processus de pré-formation avec la pensée actuelle dans le domaine de la PNL est similaire, l'image à grande échelle basée sur l'ensemble des données de formation, l'utilisation du réseau de neurones pré-formés, pour enregistrer les paramètres du réseau formés. Quand une nouvelle tâche, la même architecture de réseau, pré-formation d'initialisation des paramètres charge du réseau, le modèle de formation basé sur les données de la nouvelle tâche, ou congelée de réglage fin. Frozen fait référence à sous-jacents préchargés paramètres réseau ferroviaire inchangés dans le nouveau processus de formation des tâches, mise au point fait référence aux paramètres du réseau de train préchargés sous-jacents avec le nouveau processus de formation des tâches adapter en permanence à la tâche en cours. l'apprentissage en profondeur convient aux données à grande échelle, les données moins modèle de réseau de neurones formés et l'effet est pas si bon. Donc, apporter les avantages de pré-formation est très clair, même si la nouvelle mission de jeu de données de formation est faible, sur la base des résultats de pré-formation, mais aussi un bon effet d'entraînement.

La formation préalable approfondie dans les résultats d'apprentissage dans le domaine de l'image et attirer des chercheurs d'explorer le domaine de la pré-formation dans les applications PNL, tels que Word Embedding. 2013 Mot feu Embedding outil Word2Vec, suivi Gant. Word2Vec Il existe deux types de méthodes de formation: CBOW et Skip-gramme. CBOW fait référence à retirer un mot en fonction du contexte de prédiction de mots, Skip-gramme et CBOW au contraire, prédisent un mot par son contexte. Je dois dire que, Word2Vec des méthodes de formation CBOW, avec BERT « closure » idées d'apprentissage avec le même but.

Un mot par mot Embedding dit, il est facile de trouver la sémantique similaire du mot, mais un seul mot représentation vectorielle, problème de polysémie inévitable. Donc, avec Elmo à base OpenAI TPG et la représentation du contexte.

Elmo, Embedding de modèles de langue, modèle de réseau de neurones bidirectionnel basé sur le contexte de la langue de la Parole Embedding ajustée dynamiquement. ELMO utilise une « entité basée-approches » mode de pré-formation, en deux étapes: une première étape en utilisant le double modèle LSTM bidirectionnel pré-formé, le deuxième tâche de traitement en aval de l'étape, on extrait réseau pré-entraîné la Parole Embedding ajouté comme une nouvelle fonctionnalité à une tâche en aval, les caractéristiques grammaticales et sémantiques ajoutées par le modèle à double LSTM bidirectionnel. Par rapport Word2Vec, Elmo bonne solution au problème de la polysémie, SOTA fait en six tâches PNL test.

Transformer: La nouvelle architecture de réseau proposé par Google, dans ce cas Encoder fonction extracteur. LSTM extrait caractéristiques ayant une limite de longueur à longue distance, sur la base du mécanisme de transformateur auto-attention, une cellule interagira, il n'y a aucune limitation de longueur, afin de mieux saisir les caractéristiques de longue distance.

TPG, générative pré-formation, pré-formé formule OpenAI unidirectionnelle proposée du réseau de neurones modèle de langage basé. GPT utilise un mode de pré-formation « Réglage fin approches », les mêmes deux étapes: une première étape de pré-formé en utilisant le modèle de transformateur prédit par le mode de réalisation ci-dessus, la seconde phase utilise l'ajustement des modes de tâche en aval. GPT aussi bons résultats obtenus dans neuf tâches PNL test de SOTA. Cependant, le mode de formation GPT cette façon, vous perdez beaucoup d'informations ci-dessous à la lecture des tâches de compréhension de telles scènes ne pas le mode de formation dans les deux sens si bon.

BERT, codeur Représentations de Bidirectionnel Transformateurs, modèle transformateur basé sur le langage dans les deux sens est. En outre, comme l'utilisation de TPG BERT « Approches Fine-Tuning » en mode pré-formation, en deux étapes: une première étape en utilisant le double modèle Transformer bidirectionnel pré-formé à travers deux stratégies MLM et nsp; deuxième étape en utilisant Fine-Tuning le modèle à une tâche en aval. Quelqu'un a plaisanté: Word2Vec + Elmo + TPG = BERT, mais il n'y a aucune raison, BERT absorbe les avantages de ces modèles: « closure » mode d'apprentissage pour forcer le modèle à compter davantage sur l'information contextuelle pour prédire les mots, étant donné une certaine quantité de modèle de correction d'erreur la capacité, le modèle Transformer ne modélise pas par rapport à des restrictions de longueur LSMC, ont une meilleure capacité de capturer des informations contextuelles caractéristiques, un sens par rapport au mode de formation, sera plus complet capture les informations contextuelles du modèle de formation à deux voies, et ainsi de suite. Bien sûr, l'effet est roi, un maître de BERT a 11 SOTA.

Interprétation de papier: principe BERT

Articles connexes:

2017, Google a publié « L'attention est tout ce qu'il faut », a présenté le modèle Transformer;

2018, Google a publié « BERT: Pré-formation des transformateurs profonds pour la compréhension du langage Bidirectionnel », modèle de langage proposé BERT basé sur le transformateur.

Recherche et application dans le domaine de l'avenir de la PNL, BERT il y a deux points de dollars est pour référence: Tout d'abord, sur la base codeur transformateur pour l'extraction de caractéristique, combinée avec la stratégie MLM & nsp pré-formation, d'autre part, la grande taille des données des tâches spécifiques pré-formation pré-formation + à fin de formation-tune fine -Tuning modèle en deux étapes.

1. La fonction extracteur

Transformateur encodeur, un extracteur de caractéristique, une même couche entièrement Nx, chaque couche a deux sous-couche, sont: mécanisme multi-tête auto-attention, Position Sage avant entièrement connecté au réseau de neurones. Pour chaque sous-couche, deux opérations sont ajoutés: connecteur résiduel résiduel de connexion et la normalisation de normalisation, en utilisant les équations suivantes représentent la sous-couche de sortie est LayerNorm (x + sous-couche (x)).

Mécanisme d'attention. Pourquoi mécanisme d'attention? En d'autres termes, le mécanisme d'attention Quels sont les avantages? Analogie du monde humain, quand on voit un homme est venu d'identifier l'identité de cette personne, l'attention se concentrera sur les yeux dans le visage, en plus d'autres zones du visage après l'information sera temporairement ignorée ou pas très au sérieux. Pour le modèle de langue, afin de déterminer plus précisément le modèle, vous devez saisir du texte à la clé d'extraction et des informations importantes. Comment faire? Étant donné un texte différent d'entrée pour chaque poids de mot, porter mot clé d'information importante pour polariser donné un poids plus élevé. Abstractions, qui est: l'entrée d'entrée, et le vecteur de requête correspondant de paires de valeurs de clé, en calculant le rapport entre la touche et la fonction d'interrogation, chaque valeur donnée de poids différents, le finalement obtenu une bonne sortie de sortie de vecteurs. Transformateur dans le codeur, l'application des deux unités Attention: Scaled Attention Dot-produit et l'attention à plusieurs têtes.

Attention Scaled Dot-produit. mécanisme d'auto-attention est mis en uvre dans la cellule. Entrée à l'entrée, obtenue par la transformation linéaire Q, K, V, Q et K ont été ensuite calculée en multipliant le produit scalaire, pour donner des dépendances d'entrée entre les mots d'entrée et la parole, et ensuite par mise à l'échelle Scale, et Mask softmax a été obtenue matrice auto-attention, avec finalement calculé en multipliant V Dot-produit.

Attention, multi-tête. Par h différente transformation linéaire, le Q de dimension d_model, K, V mappée dans D_K, D_K, d_v dimension mécanisme d'auto-Attention application parallèle, pour obtenir un signal de sortie h a calculé épissé dimensions D_v Concat, transformation linéaire opération linéaire .

2. Traitement de la fonction d'entrée

séquence d'entrée BERT est linéaire, le texte de soutien à la seule phrase et phrase texte, symbole de la phrase symbole de la phrase dit Il a dit que si la phrase est juste, ajouter des symboles entre les phrases . vecteur caractéristique d'entrée par le jeton, segment vecteur et position Vector trois communes, ce qui représente le mot d'information, l'information des phrases, des informations de position.

3. Pré-formation

BERT utilise deux stratégies pour le modèle MLM et pré-formation PNS. Afin de démontrer l'efficacité de ces deux stratégies, Google ajoute deux expériences de contrôle supplémentaires. Un groupe témoin: Non NSP, MLM retenu, mais sans le PSN, le groupe témoin deux: RLT & Non NSP, le PNS et pas MLM, remplacé par un modèle de gauche à droite (LRT), et même de renforcer la crédibilité, dans le contrôle BiLSTM augmenter une initialisation aléatoire sur la base du groupe deux. Les données expérimentales montrent que, à l'aide d'autres BERT victoire de la stratégie MLM & nsp.

MLM, Masked LM. Entrez la séquence de mots de mots aléatoires pour couvrir jusqu'à 15%, alors la tâche de faire des prédictions couvrir les mots. Par rapport aux conditions standard traditionnelles du modèle de langage seul moyen de gauche à droite ou de droite à gauche pour prédire la fonction cible, MLM peut Anticiper les mots masqués dans toutes les directions. Cependant, cette approche apportera deux inconvénients: 1. Phase de pré-formation symbole aléatoire Remettre le couvercle les mots, et la tâche en aval de l'étape de réglage fin et aucune opération de masque provoque un décalage pré-formation à l'étape de réglage fin 2. Phase de pré-formation seulement 15% de la prédiction de mot masqué, plutôt que des phrases complètes, les besoins de convergence du modèle passer plus de temps. Pour le deuxième point, les auteurs se sentent améliorer de manière significative l'effet est toujours utile, et pour le premier point, afin d'atténuer, pour couvrir 15% d'un mot au hasard ne sont pas en utilisant des symboles Sinon, le mot opération masquage suivant des améliorations, par exemple alors que le « mon chien est poilu » choisi mot « poilu ».

Symbole 80% Remplacer: mon chien est poilu - >  mon chien est

10% remplacé par d'autres mots: mon chien est poilu - >  mon chien est la pomme

10% remplace pas l'opération: mon chien est poilu - >  mon chien est poilu

PNS, suivant la prévision de la peine. De nombreuses tâches importantes en aval telles que le modèle QA, besoin d'une langue NLI de comprendre la relation entre les deux phrases, et le modèle d'apprentissage des langues traditionnelles ne considèrent pas la peine de la relation dans le processus de formation. PNS, à une tâche de prévision du modèle de prévision plus faible pour augmenter la relation entre les phrases A et B, 50% du temps B de A est une étiquette de classification isnext, et 50 pour cent du temps B est au hasard des phrases sélectionnées, non a est une étiquette de classification inférieure NotNext.

= entrée  l'homme est allé  magasin

 il a apporté un gallon  lait

Label = isnext

= entrée  l'homme est allé  magasin

 manchot  sont vol ## moins oiseaux

Label = NotNext

4. Tâche de réglage

BERT réglage fin du programme offre quatre différentes tâches en aval:

(A) la détermination de la relation entre les phrases, un premier symbole de départ Après l'encodeur Transformer, l'ajout d'une simple couche Softmax, il peut être utilisé pour la classification;

(B) une des tâches de classification des phrases simples, comme la réalisation concrète de (a);

(C) les tâches de Q, tels que Escouade V1.1, question de répondre à la séquence d'entrée de texte de la question et les paragraphes contiennent réponse et marquer la réponse dans l'ordre, de sorte que le modèle d'apprentissage BERT réponse a marqué le début et la fin du modèle de formation de vecteur;

(D) séquence de tâches standard, comme entité nommée désignée par le NER, entrée du système de reconnaissance Mark la classe d'entité (personne, organisation, emplacement, autre entité sans nom) pour affiner la séquence d'apprentissage du texte, identifiant l'entité de catégorie, chacune des séquences de vecteur Jeton prédiction de la couche de NER à l'étiquette de classification est identifiée.

analyse Source: BERT pour atteindre

PyTorch: torche de sac de python, mais la flamme est une machine pour l'apprentissage et le calcul scientifique bibliothèque open source modulaire. Anaconda Python ajusté pour l'architecture Interl du MKL, ce qui rend la PyTorch performance sur le processeur Interl pour obtenir le meilleur, en outre, le soutien PyTorch GPU NVIDIA, pour tirer profit de la formation de l'accélération GPU.

Internet a différentes versions de la source BERT, comme source tensorflow à base de source ouverte de Google BERT, Google est en mesure de charger la version recommandée PyTorch-PreTrain-BERT de Google modèle de pré-formation. Je l'habitude d'étudier l'analyse de code source est une autre version PyTorch: Google AI 2018 BERT PyTorch mise en uvre, le contrôle Google Version tf-BERT des pratiques de développement open source.

la mise en uvre du modèle MLM.

PNS mise en uvre du modèle. modèle de classification peut également être appliquée à une seule phrase ou une phrase de classification pour déterminer la relation entre les tâches.

la mise en uvre BERT-Encoder.

Transformateur atteindre.

Multi-tête Attention à atteindre

atteindre l'auto-attention.

SubLayerConnection atteindre.

références:

Jacob Devlin, Ming-Wei Chang, Kenton Lee et Krisina Toutanova.2018.BERT: pré-formation des transformateurs pour la compréhension profonde Bidirectionnel langue.

Matthew Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee et Luke Zettlemoyer. 2018. profond contextualisées mot RESENTATIONS sentants. En NAACL.

Alec Radford, Karthik Narasimhan, Tim Salimans et Ilya Sutskever. 2018. Améliorer la compréhension par langue générative pré-formation. Port de technique, OpenAI.

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, et Illia Polosukhin. 2017. L'attention est tout ce que vous avez besoin. Dans Advances in Neural Information sur Pro- cessing Systems, pages 6000-6010.

J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, et L. Fei- Fei 2009. IMAGEnet: .. Une image à grande échelle hiérarchique Base de données en CVPR09.

Tomas Mikolov, Kai Chen, Greg Corrado, et Jeffrey Dean. 2013.Efficient Estimation des représentations Word dans l'espace vectoriel.

sortie d'origine au nombre de micro-chaîne publique - Tencent Technology Engineering (Tencent_TEG)

Lin Yun fin est vraiment puissant, retouche avant et après différentes personnes, de la face aux jambes perdu au moins 20 livres!
Précédent
GIF: Fernando fondit pause, 1-1 Chongqing partie
Prochain
Lee Yan retour Carman à la valeur maximale, portant une robe blanche pour obtenir des fleurs roses, que la « Femme de chambre » plus belle
Six passagers chinois étaient American Airlines « s'il vous plaît » dont le plan faute?
Lorsque la rencontre d'apprentissage machine réseaux complexes: analyse algorithme cercle micro-canal d'amis Lookalike
Zhang Jun Ning a joué sur la jeune fille, porte maintenant un chandail à capuchon avec un pantalon décontracté, un miroir sourire doux ronflement
Sandro C Lo fait pause Oolong, la Juventus 2-1 Fiorentina victoire d'avance sur cinq
Graphique Embedding (1) Struc2Vec- recommande l'algorithme de mesure de similarité
Cherchez un modèle provincial peur!
Tong Li Ya aussi beau, manteau portant jambes minces d'épissage d'exposition, porter des lunettes de soleil à gaz de champ éclater A
39 ans d'entretien Zhang Jingchu sont très bons, l'usure Sundresses peau lisse blanche, petite taille que la paume
l'architecture de plate-forme informatique Ctrip temps réel et la pratique Shu DataPipeline
la pratique Flink seulement la volonté du produit
jeu Mahjong sur la ligne deux mois, la société a grimpé en flèche à plus de 20 millions qui créent « mythe de la richesse »