La machine n'apprend pas: un article pour voir par recrue BERT-PNL

Coincide avec les vacances du Nouvel An chinois, �tudier un peu BERT. En tant que recrue en 2018 dans le domaine du traitement du langage naturel, BERT faire un progr�s significatif de la PNL ma�tre au cours des derni�res ann�es, une pi�ce de th��tre sur la comp�tition de roulement sensationnel, un record �lev� 11 PNL test�, m�me au-del� de la performance humaine, Je crois que l'avenir sera l'une des applications les plus de recherche PNL mod�le de langage grand public et de l'industrie. Ce document tente Deep apporte BERT �l�gant interpr�t� comme vous spectateurs.

fond PNL: �tape d'application BERT

PNL: Processus de langage naturel, le traitement du langage naturel, la science informatique, l'ing�nierie et de l'information sous-domaine de l'intelligence artificielle, en se concentrant sur l'interaction homme-ordinateur, en particulier le traitement et l'analyse du langage naturel � grande �chelle des donn�es.

En plus de l'OCR, la reconnaissance vocale, le traitement du langage naturel ont des t�ches communes en quatre cat�gories. Le premier type de t�che: l'�tiquetage de s�quence, comme la reconnaissance d'entit�s nomm�es, l'annotation s�mantique, le marquage de point de vente, etc. mot, et un second type de t�che: les t�ches de classification, telles que la classification du texte, l'analyse de l'�motion, le troisi�me type de t�che: d�terminer la relation entre les phrases, par exemple, naturel le raisonnement de la langue, Q QA, la similitude s�mantique du texte, etc .; et la quatri�me t�che: formule de t�ches, par exemple, la traduction automatique, texte r�sum�, la po�sie et la phrase comme.

r�f�rence COLLE: Langue g�n�rale Comprendre l'�valuation de r�f�rence, la base d'�valuation de la compr�hension du langage universel pour tester la robustesse du mod�le dans un large �ventail de t�ches compr�hension du langage naturel.

BERT a �tabli un record de 11 t�che test de r�f�rence de COLLE, qui a test� 11 t�ches simples peuvent �tre divis�s en trois cat�gories. Cat�gories d'�tiquetage de s�quence: NER CoNNL 2003 NER, une seule cat�gorie de classification de la phrase: seule phrase sentiment classement SST-2, une seule phrase correction grammaticale de COLA, phrase pour d�terminer une relation entre les classes: la reconnaissance de la peine Mnll et RTE, langage naturel raisonnement WNLI des relations d'implication, questions et r�ponses pour contenir la bonne r�ponse QNLI, des phrases de texte similarit� s�mantique STS-B, phrase �gale QQP d'analyse s�mantique et MRPC, t�che SQUAD v1.1 de questions et r�ponses. Bien que le document ne mentionne pas la t�che g�n�rative, BERT fonction de base extracteur du nouveau cadre de r�seau Transformer Google pour les questions de traduction automatique soulev�, la formule elle-m�me est adapt� � la t�che.

Changement de mod�le de langage: BERT du ma�tre

LM: distribution de probabilit�s Langue mod�le, un mod�le de langage, un tas de s�quences de mots pour repr�senter du texte par mod�le probabiliste s�mantique.

Quelle est la langue de mod�le? Par mod�le de langage peut mesurer quantitativement la probabilit� de la pr�sence d'un morceau de texte. Pour une longueur de texte n, o� chaque mot a le texte du processus de pr�diction de mots d�crit ci-dessus, le produit des probabilit�s de tous les mots seront utilis�s pour �valuer le texte. Dans la pratique, si le texte est tr�s long, P (wi | contexte (wi)) sera tr�s difficile � estimer, donc il y a une version simplifi�e: N m�tamod�le. Dans le mod�le N-gramme, les N premiers mots du mot en cours est calcul�e pour estimer la probabilit� conditionnelle du mot. Pour les mod�les N-gramme couramment utilis�s Unigram bigramme et trigramme de, plus le N, le probl�me des donn�es sujettes, a permis les r�sultats de l'estimation. En outre, le mod�le d'�l�ment N ne peut pas r�soudre la polys�mie et un probl�me de mot multi-intentionn�s.

Afin de r�soudre le probl�me de donn�es d'estimer la probabilit� mod�le N-gramme, les chercheurs ont propos� un langage de mod�le de r�seau de neurones, mis repr�sentant l'avant en 2003 Bengio de NNLM, mais l'effet est pas attrayant, une d�cennie de silence. Dans un autre domaine de la vision industrielle de l'informatique, l'apprentissage en profondeur Fared le vent et l'eau, est particuli�rement int�ressant de mentionner est le processus de pr�-formation, typique: mod�le Fine-Tuning IMAGEnet bas� sur la pr�-formation. les zones pr�-image du processus de pr�-formation avec la pens�e actuelle dans le domaine de la PNL est similaire, l'image � grande �chelle bas�e sur l'ensemble des donn�es de formation, l'utilisation du r�seau de neurones pr�-form�s, pour enregistrer les param�tres du r�seau form�s. Quand une nouvelle t�che, la m�me architecture de r�seau, pr�-formation d'initialisation des param�tres charge du r�seau, le mod�le de formation bas� sur les donn�es de la nouvelle t�che, ou congel�e de r�glage fin. Frozen fait r�f�rence � sous-jacents pr�charg�s param�tres r�seau ferroviaire inchang�s dans le nouveau processus de formation des t�ches, mise au point fait r�f�rence aux param�tres du r�seau de train pr�charg�s sous-jacents avec le nouveau processus de formation des t�ches adapter en permanence � la t�che en cours. l'apprentissage en profondeur convient aux donn�es � grande �chelle, les donn�es moins mod�le de r�seau de neurones form�s et l'effet est pas si bon. Donc, apporter les avantages de pr�-formation est tr�s clair, m�me si la nouvelle mission de jeu de donn�es de formation est faible, sur la base des r�sultats de pr�-formation, mais aussi un bon effet d'entra�nement.

La formation pr�alable approfondie dans les r�sultats d'apprentissage dans le domaine de l'image et attirer des chercheurs d'explorer le domaine de la pr�-formation dans les applications PNL, tels que Word Embedding. 2013 Mot feu Embedding outil Word2Vec, suivi Gant. Word2Vec Il existe deux types de m�thodes de formation: CBOW et Skip-gramme. CBOW fait r�f�rence � retirer un mot en fonction du contexte de pr�diction de mots, Skip-gramme et CBOW au contraire, pr�disent un mot par son contexte. Je dois dire que, Word2Vec des m�thodes de formation CBOW, avec BERT � closure � id�es d'apprentissage avec le m�me but.

Un mot par mot Embedding dit, il est facile de trouver la s�mantique similaire du mot, mais un seul mot repr�sentation vectorielle, probl�me de polys�mie in�vitable. Donc, avec Elmo � base OpenAI TPG et la repr�sentation du contexte.

Elmo, Embedding de mod�les de langue, mod�le de r�seau de neurones bidirectionnel bas� sur le contexte de la langue de la Parole Embedding ajust�e dynamiquement. ELMO utilise une � entit� bas�e-approches � mode de pr�-formation, en deux �tapes: une premi�re �tape en utilisant le double mod�le LSTM bidirectionnel pr�-form�, le deuxi�me t�che de traitement en aval de l'�tape, on extrait r�seau pr�-entra�n� la Parole Embedding ajout� comme une nouvelle fonctionnalit� � une t�che en aval, les caract�ristiques grammaticales et s�mantiques ajout�es par le mod�le � double LSTM bidirectionnel. Par rapport Word2Vec, Elmo bonne solution au probl�me de la polys�mie, SOTA fait en six t�ches PNL test.

Transformer: La nouvelle architecture de r�seau propos� par Google, dans ce cas Encoder fonction extracteur. LSTM extrait caract�ristiques ayant une limite de longueur � longue distance, sur la base du m�canisme de transformateur auto-attention, une cellule interagira, il n'y a aucune limitation de longueur, afin de mieux saisir les caract�ristiques de longue distance.

TPG, g�n�rative pr�-formation, pr�-form� formule OpenAI unidirectionnelle propos�e du r�seau de neurones mod�le de langage bas�. GPT utilise un mode de pr�-formation � R�glage fin approches �, les m�mes deux �tapes: une premi�re �tape de pr�-form� en utilisant le mod�le de transformateur pr�dit par le mode de r�alisation ci-dessus, la seconde phase utilise l'ajustement des modes de t�che en aval. GPT aussi bons r�sultats obtenus dans neuf t�ches PNL test de SOTA. Cependant, le mode de formation GPT cette fa�on, vous perdez beaucoup d'informations ci-dessous � la lecture des t�ches de compr�hension de telles sc�nes ne pas le mode de formation dans les deux sens si bon.

BERT, codeur Repr�sentations de Bidirectionnel Transformateurs, mod�le transformateur bas� sur le langage dans les deux sens est. En outre, comme l'utilisation de TPG BERT � Approches Fine-Tuning � en mode pr�-formation, en deux �tapes: une premi�re �tape en utilisant le double mod�le Transformer bidirectionnel pr�-form� � travers deux strat�gies MLM et nsp; deuxi�me �tape en utilisant Fine-Tuning le mod�le � une t�che en aval. Quelqu'un a plaisant�: Word2Vec + Elmo + TPG = BERT, mais il n'y a aucune raison, BERT absorbe les avantages de ces mod�les: � closure � mode d'apprentissage pour forcer le mod�le � compter davantage sur l'information contextuelle pour pr�dire les mots, �tant donn� une certaine quantit� de mod�le de correction d'erreur la capacit�, le mod�le Transformer ne mod�lise pas par rapport � des restrictions de longueur LSMC, ont une meilleure capacit� de capturer des informations contextuelles caract�ristiques, un sens par rapport au mode de formation, sera plus complet capture les informations contextuelles du mod�le de formation � deux voies, et ainsi de suite. Bien s�r, l'effet est roi, un ma�tre de BERT a 11 SOTA.

Interpr�tation de papier: principe BERT

Articles connexes:

2017, Google a publi� � L'attention est tout ce qu'il faut �, a pr�sent� le mod�le Transformer;

2018, Google a publi� � BERT: Pr�-formation des transformateurs profonds pour la compr�hension du langage Bidirectionnel �, mod�le de langage propos� BERT bas� sur le transformateur.

Recherche et application dans le domaine de l'avenir de la PNL, BERT il y a deux points de dollars est pour r�f�rence: Tout d'abord, sur la base codeur transformateur pour l'extraction de caract�ristique, combin�e avec la strat�gie MLM & nsp pr�-formation, d'autre part, la grande taille des donn�es des t�ches sp�cifiques pr�-formation pr�-formation + � fin de formation-tune fine -Tuning mod�le en deux �tapes.

1. La fonction extracteur

Transformateur encodeur, un extracteur de caract�ristique, une m�me couche enti�rement Nx, chaque couche a deux sous-couche, sont: m�canisme multi-t�te auto-attention, Position Sage avant enti�rement connect� au r�seau de neurones. Pour chaque sous-couche, deux op�rations sont ajout�s: connecteur r�siduel r�siduel de connexion et la normalisation de normalisation, en utilisant les �quations suivantes repr�sentent la sous-couche de sortie est LayerNorm (x + sous-couche (x)).

M�canisme d'attention. Pourquoi m�canisme d'attention? En d'autres termes, le m�canisme d'attention Quels sont les avantages? Analogie du monde humain, quand on voit un homme est venu d'identifier l'identit� de cette personne, l'attention se concentrera sur les yeux dans le visage, en plus d'autres zones du visage apr�s l'information sera temporairement ignor�e ou pas tr�s au s�rieux. Pour le mod�le de langue, afin de d�terminer plus pr�cis�ment le mod�le, vous devez saisir du texte � la cl� d'extraction et des informations importantes. Comment faire? �tant donn� un texte diff�rent d'entr�e pour chaque poids de mot, porter mot cl� d'information importante pour polariser donn� un poids plus �lev�. Abstractions, qui est: l'entr�e d'entr�e, et le vecteur de requ�te correspondant de paires de valeurs de cl�, en calculant le rapport entre la touche et la fonction d'interrogation, chaque valeur donn�e de poids diff�rents, le finalement obtenu une bonne sortie de sortie de vecteurs. Transformateur dans le codeur, l'application des deux unit�s Attention: Scaled Attention Dot-produit et l'attention � plusieurs t�tes.

Attention Scaled Dot-produit. m�canisme d'auto-attention est mis en uvre dans la cellule. Entr�e � l'entr�e, obtenue par la transformation lin�aire Q, K, V, Q et K ont �t� ensuite calcul�e en multipliant le produit scalaire, pour donner des d�pendances d'entr�e entre les mots d'entr�e et la parole, et ensuite par mise � l'�chelle Scale, et Mask softmax a �t� obtenue matrice auto-attention, avec finalement calcul� en multipliant V Dot-produit.

Attention, multi-t�te. Par h diff�rente transformation lin�aire, le Q de dimension d_model, K, V mapp�e dans D_K, D_K, d_v dimension m�canisme d'auto-Attention application parall�le, pour obtenir un signal de sortie h a calcul� �piss� dimensions D_v Concat, transformation lin�aire op�ration lin�aire .

2. Traitement de la fonction d'entr�e

s�quence d'entr�e BERT est lin�aire, le texte de soutien � la seule phrase et phrase texte, symbole de la phrase symbole de la phrase dit Il a dit que si la phrase est juste, ajouter des symboles entre les phrases . vecteur caract�ristique d'entr�e par le jeton, segment vecteur et position Vector trois communes, ce qui repr�sente le mot d'information, l'information des phrases, des informations de position.

3. Pr�-formation

BERT utilise deux strat�gies pour le mod�le MLM et pr�-formation PNS. Afin de d�montrer l'efficacit� de ces deux strat�gies, Google ajoute deux exp�riences de contr�le suppl�mentaires. Un groupe t�moin: Non NSP, MLM retenu, mais sans le PSN, le groupe t�moin deux: RLT & Non NSP, le PNS et pas MLM, remplac� par un mod�le de gauche � droite (LRT), et m�me de renforcer la cr�dibilit�, dans le contr�le BiLSTM augmenter une initialisation al�atoire sur la base du groupe deux. Les donn�es exp�rimentales montrent que, � l'aide d'autres BERT victoire de la strat�gie MLM & nsp.

MLM, Masked LM. Entrez la s�quence de mots de mots al�atoires pour couvrir jusqu'� 15%, alors la t�che de faire des pr�dictions couvrir les mots. Par rapport aux conditions standard traditionnelles du mod�le de langage seul moyen de gauche � droite ou de droite � gauche pour pr�dire la fonction cible, MLM peut Anticiper les mots masqu�s dans toutes les directions. Cependant, cette approche apportera deux inconv�nients: 1. Phase de pr�-formation symbole al�atoire Remettre le couvercle les mots, et la t�che en aval de l'�tape de r�glage fin et aucune op�ration de masque provoque un d�calage pr�-formation � l'�tape de r�glage fin 2. Phase de pr�-formation seulement 15% de la pr�diction de mot masqu�, plut�t que des phrases compl�tes, les besoins de convergence du mod�le passer plus de temps. Pour le deuxi�me point, les auteurs se sentent am�liorer de mani�re significative l'effet est toujours utile, et pour le premier point, afin d'att�nuer, pour couvrir 15% d'un mot au hasard ne sont pas en utilisant des symboles Sinon, le mot op�ration masquage suivant des am�liorations, par exemple alors que le � mon chien est poilu � choisi mot � poilu �.

Symbole 80% Remplacer: mon chien est poilu - > �mon chien est

10% remplac� par d'autres mots: mon chien est poilu - > �mon chien est la pomme

10% remplace pas l'op�ration: mon chien est poilu - > �mon chien est poilu

PNS, suivant la pr�vision de la peine. De nombreuses t�ches importantes en aval telles que le mod�le QA, besoin d'une langue NLI de comprendre la relation entre les deux phrases, et le mod�le d'apprentissage des langues traditionnelles ne consid�rent pas la peine de la relation dans le processus de formation. PNS, � une t�che de pr�vision du mod�le de pr�vision plus faible pour augmenter la relation entre les phrases A et B, 50% du temps B de A est une �tiquette de classification isnext, et 50 pour cent du temps B est au hasard des phrases s�lectionn�es, non a est une �tiquette de classification inf�rieure NotNext.

= entr�e �l'homme est all� �magasin

�il a apport� un gallon �lait

Label = isnext

= entr�e �l'homme est all� �magasin

�manchot �sont vol ## moins oiseaux

Label = NotNext

4. T�che de r�glage

BERT r�glage fin du programme offre quatre diff�rentes t�ches en aval:

(A) la d�termination de la relation entre les phrases, un premier symbole de d�part Apr�s l'encodeur Transformer, l'ajout d'une simple couche Softmax, il peut �tre utilis� pour la classification;

(B) une des t�ches de classification des phrases simples, comme la r�alisation concr�te de (a);

(C) les t�ches de Q, tels que Escouade V1.1, question de r�pondre � la s�quence d'entr�e de texte de la question et les paragraphes contiennent r�ponse et marquer la r�ponse dans l'ordre, de sorte que le mod�le d'apprentissage BERT r�ponse a marqu� le d�but et la fin du mod�le de formation de vecteur;

(D) s�quence de t�ches standard, comme entit� nomm�e d�sign�e par le NER, entr�e du syst�me de reconnaissance Mark la classe d'entit� (personne, organisation, emplacement, autre entit� sans nom) pour affiner la s�quence d'apprentissage du texte, identifiant l'entit� de cat�gorie, chacune des s�quences de vecteur Jeton pr�diction de la couche de NER � l'�tiquette de classification est identifi�e.

analyse Source: BERT pour atteindre

PyTorch: torche de sac de python, mais la flamme est une machine pour l'apprentissage et le calcul scientifique biblioth�que open source modulaire. Anaconda Python ajust� pour l'architecture Interl du MKL, ce qui rend la PyTorch performance sur le processeur Interl pour obtenir le meilleur, en outre, le soutien PyTorch GPU NVIDIA, pour tirer profit de la formation de l'acc�l�ration GPU.

Internet a diff�rentes versions de la source BERT, comme source tensorflow � base de source ouverte de Google BERT, Google est en mesure de charger la version recommand�e PyTorch-PreTrain-BERT de Google mod�le de pr�-formation. Je l'habitude d'�tudier l'analyse de code source est une autre version PyTorch: Google AI 2018 BERT PyTorch mise en uvre, le contr�le Google Version tf-BERT des pratiques de d�veloppement open source.

la mise en uvre du mod�le MLM.

PNS mise en uvre du mod�le. mod�le de classification peut �galement �tre appliqu�e � une seule phrase ou une phrase de classification pour d�terminer la relation entre les t�ches.

la mise en uvre BERT-Encoder.

Transformateur atteindre.

Multi-t�te Attention � atteindre

atteindre l'auto-attention.

SubLayerConnection atteindre.

r�f�rences:

Jacob Devlin, Ming-Wei Chang, Kenton Lee et Krisina Toutanova.2018.BERT: pr�-formation des transformateurs pour la compr�hension profonde Bidirectionnel langue.

Matthew Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee et Luke Zettlemoyer. 2018. profond contextualis�es mot RESENTATIONS sentants. En NAACL.

Alec Radford, Karthik Narasimhan, Tim Salimans et Ilya Sutskever. 2018. Am�liorer la compr�hension par langue g�n�rative pr�-formation. Port de technique, OpenAI.

Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, et Illia Polosukhin. 2017. L'attention est tout ce que vous avez besoin. Dans Advances in Neural Information sur Pro- cessing Systems, pages 6000-6010.

J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, et L. Fei- Fei 2009. IMAGEnet: .. Une image � grande �chelle hi�rarchique Base de donn�es en CVPR09.

Tomas Mikolov, Kai Chen, Greg Corrado, et Jeffrey Dean. 2013.Efficient Estimation des repr�sentations Word dans l'espace vectoriel.

sortie d'origine au nombre de micro-cha�ne publique - Tencent Technology Engineering (Tencent_TEG)

Route de la soie

Apprenez � conna�tre la Chine

La machine n'apprend pas: un article pour voir par recrue BERT-PNL