Technologie AI Revue de presse, L'auteur Yang Wei, nous savons presque � partir de l'apprentissage de la profondeur de la colonne et le traitement du langage naturel, AI Technology Review sa r�impression autoris�e.

Wei Yang sait presque Page d'accueil:

https://www.zhihu.com/people/godweiyang/posts

Colonne sait presque Adresse:

https://zhuanlan.zhihu.com/godweiyang

Papier: non supervis�es r�currentes Neural Network Grammars

Documents Adresse:

github Adresse de code:

https://github.com/harvardnlp/urnng

introduction

Cet article est au sujet de la grammaire NAACL19 sans supervision de r�seau de neurones r�currents fra�chement sorti du four (URNNG), et dans le mod�le de langage et des composants d'analyse sans supervision ont obtenu de tr�s bons r�sultats, principalement l'inf�rence variationnelle et RNNG. Cette formule de l'article est grand, donc je poussais depuis longtemps, beaucoup d'algorithmes, les premi�res notes, je d�duit une formule:

Je ne commander ce blog en termes de papier, vous parlez de ma compr�hension de celui-ci selon mes notes au-dessus de cela, de nombreux d�tails peuvent �tre ignor�s, s'il vous pla�t voir la barre d'origine.

Pour la premi�re analyse des ingr�dients sans supervision, la pratique classique consiste � apprendre un mod�le g�n�ratif

Il est un mod�le de g�n�ration de RNNG, mais le manque de supervision du signal arbre de syntaxe z comment le faire? Maintenant donnez votre entr�e uniquement x phrase, alors seulement avec le mod�le de langue

Do a supervis�. Traditionnellement, nous aimons prendre quelques-uns, qui est la suivante:

Ici, il y a plusieurs probl�mes, tels que l'espace d'�tat z est trop grand, ne peut pas exhaustive de tous, donc l'�tape suivante en expliquera pas � pas comment r�soudre.

mod�le URNNG

Tout d'abord sur une carte du mod�le, de sorte que nous avons une connaissance g�n�rale du mod�le global:

La gauche est une inf�rence de r�seau (Inference r�seau), est utilis�e pour d�duire des variables latentes selon l'entr�e x est la distribution de probabilit� de l'arbre de syntaxe z

. Sur la droite est la g�n�ration d'un mod�le (mod�le g�n�ratif), utilis� pour calculer la probabilit� conjointe d'�chantillonnage sur l'arbre de syntaxe r�seau raisonnement z, la probabilit� est calcul�e en fonction de ce qui pr�c�de la derni�re phrase mod�le de langage afin de maximiser la probabilit�.

Viennent ensuite expliqu� deux parties et la m�thode d'optimisation sp�cifique.

premier vecteur de mot

Et des vecteurs de position

Brochage, comme le r�seau raisonnement entr�e LSTM:

ensuite calculate

Score calcul� comme d'habitude, pour faire la diff�rence de sortie avant et apr�s BiLSTM et anticipatrice score r�seau de neurones obtenu par un front:

Ensuite, vous devez calculer la distribution de probabilit� de l'arbre syntaxique, ici n'est pas calcul� z arbre directement la syntaxe, mais sa matrice de contigu�t� pour calculer la distribution de probabilit� de B, cela signifie que la matrice de contigu�t�, si elle est pr�sente,

, Dans le cas contraire

. CRF peut alors �tre utilis� pour calculer la probabilit� correspondant matrice de contigu�t� B:

parmi

Est la fonction de partition, � savoir pour la probabilit� de r�duction compris entre 0 et 1:

Notez ici

Pas tous de l'ensemble 01 de la matrice, mais doit r�pondre � l'arbre de syntaxe juridique peut produire la matrice, la situation beaucoup, pas exhaustive r�solu, ici � l'int�rieur algorithme classique pour r�soudre cette fonction de partition:

Mais je pense que cela est faux! Voici deux

Devrait �tre chang�

. Mais quand la mise en uvre concr�te du code ne l'a pas fait, il est le m�me que la valeur initiale

Mais r�cursivit� lorsque vous utilisez la formule suivante:

En fait, avec

Au lieu de cela, le code de la simplification de cette formule est qu'elle devrait �tre pour �viter tout d�bordement num�rique.

Ensuite, est l'�chantillonnage probabiliste, le but du r�seau est calcul� raisonnant la distribution des arbres de syntaxe, puis � partir de cette distribution d'�chantillonnage d'un certain nombre d'arbres de syntaxe, maintenant donn� un arbre de syntaxe peut calculer sa probabilit� selon l'algorithme ci-dessus, que comment il �chantillonnage? Mais il est encore possible de go�ter � un tableau de calcul juste par l'algorithme d'�chantillonnage est la suivante:

En fait, selon un top-down de distribution fendu de probabilit� d'�chantillonnage de chaque trav�e, avec une file d'attente d'intervalle pour contenir tous les �chantillons ne sont pas divis�s, puis tous les �chantillons couvrent la valeur correspondante de la matrice standard d'adjacence est 1.

Enfin, le r�seau d'inf�rence probabiliste �chantillonner une pluralit� d'arbre syntaxique z, est ensuite calcul� pour chaque arbre syntaxique selon la CRF

Derri�re les choses pour g�n�rer un r�seau.

L'objet ci-dessus du r�seau de raisonnement �chantillonner une pluralit� d'arbre syntaxique z, la g�n�ration d'un r�seau de sa probabilit� conjointe est calcul�e

. Ce n'est pas difficile, avant que les notes de papier RNNG, j'ai parl� en g�n�ral, vous pouvez aller de recyclage: Recurrent Neural Network Grammars, ici apport� quelques am�liorations mineures.

Tout d'abord n�cessaire de d�finir une pile est de stocker l'historique des transitions d'�tat, tel que d�fini ici, la pile a �t� �l�ment mis tuple (h, g), il est une sortie cod�e pile LSTM, une structure de sous-arbre de la Fig. Tout d'abord besoin de pr�dire ce que l'action suivante est donc de la partie sup�rieure des �l�ments de pile

, L'action pr�vue lorsqu'il est utilis� en tant que la sortie de la couche cach�e:

Ensuite, selon cette probabilit� est pr�dit une action ou SHIFT Reduce, les deux cas suivants ont discut�.

Si SHIFT, puis parce que le mod�le est g�n�r�, il est n�cessaire de pr�voir le prochain mouvement en un mot ce qui est:

Le vecteur d'expression est ensuite entr�e � un mot x obtenue synchronisation de sortie de la couche cach�e pile LSTM de l'autre:

Enfin,

Faire avancer la pile.

Si REDUIRE, vous devez d'abord retirer les deux �l�ments de la pile

Et calcule alors les deux nuds sous-sous-arbres ont �t� mis en commun la repr�sentation TreeLSTM:

Il est ensuite calcul�e � la pile LSTM de sortie de la couche cach�e la fois:

Enfin,

Faire avancer la pile.

Afin d'�viter que le nombre de d�passement num�rique, on calcule la probabilit� conjointe du classique:

Comme on peut le voir de cette formule, la probabilit� conjointe est d�finie comme tout donn� un certain mot et l'action de pr�voir le prochain produit de mot et de r�duire la probabilit� de certains mots et la pr�diction d'action d'une action donn�e.

Si la t�che est de superviser ce RNNG, il vous suffit de maximiser la probabilit� conjointe de cela suffit, mais maintenant faire sans surveillance, sans z, veillez � ne pas confondre, le raisonnement sur le r�seau d'�chantillonnage z ne peut pas �tre utilis� pour surveiller Oh, parce que il n'a pas �t� fait correctement, donc la langue suivante � utiliser comme mod�le pour la fonction objectif final.

variationnelle Inference

D�finir logarithme de x est la probabilit� d'une phrase:

parmi

L'ensemble de tous les arbres de syntaxe juridique, mais il ne peut pas exhaustive de tous l'arbre de syntaxe, il est n�cessaire d'utiliser l'inf�rence variationnelle, connaissances th�oriques sp�cifiques pas mis en place avec soin, vous pouvez aller � l'acc�s inf�rence variationnelle de la connaissance, la d�rivation directe suivante.

La derni�re ligne est appel�e a priori

limite inf�rieure des preuves (ELBO), afin de maximiser a priori, peut maximiser la ELBO, si l'on examine les changements � cette forme de ELBO peuvent �tre obtenues:

Donc, ce ELBO sur la diff�rence entre une divergence priori et KL, il maximise la probabilit� d'ELBO �quivalent � minimiser la divergence KL, � savoir que les arbres syntaxiques du r�seau d'inf�rence mod�le de g�n�ration g�n�r�s et distribu�s aussi pr�s que possible.

Mais ce ELBO ou pas pris en compte, m�me si elle a mis

D�placer le signe de sommation est pr�vu � l'int�rieur, donc de changer ma forme:

�tant donn� que le mod�le un total de deux ensembles de param�tres, un param�tre r�seau d'inf�rence

, Un param�tre de r�seau est g�n�r�, de sorte que les deux param�tres suivants pour chaque d�riv�.

la d�riv�e premi�re partie, �tant donn� que seul le premier � avoir ce param�tre, les d�riv�es partielles sont les suivantes:

Les d�riv�es partielles peuvent suivre la probabilit�

Sampled:

Ensuite, les d�riv�es partielles, parce que celui-ci contient deux param�tres, � savoir la d�riv�e partielle. La seconde est l'entropie, en fait, sa valeur peut �tre calcul�e en utilisant l'algorithme pr�c�dent de r�seau est comme suit:

Ensuite, peuvent �tre remis aux d�riv�es partielles sur la biblioth�que pour apprendre la profondeur de la diff�renciation automatique, ne vous le trouver.

En ce qui concerne les premi�res d�riv�es partielles peut �tre utilis� une solution de gradient proc�d� de strat�gies similaires:

Ici enfin est converti en �chantillonnage, des strat�gies et des pratiques similaires gradient, ici pour rejoindre la ligne de base pour am�liorer les performances:

parmi

Elle est d�finie comme la moyenne du nombre de toutes les autres probabilit�s conjointes:

� ce stade, toutes les d�riv�es partielles ont cherch� �, obtenu en �chantillonnant les deux, un r�sultat obtenu par l'algorithme � l'int�rieur de la diff�rentiation automatique, le signe de la d�riv�e est retir� et ajout� pour obtenir la fonction de perte finale:

Je dois noter ici

Lorsque la mise en uvre du code ne peut pas passer gradient, sinon les d�riv�es partielles de celui-ci seront plus des d�riv�es partielles de!

exp�rience

Les r�sultats ne disent pas ici, et il d�taille les documents de lecture sp�cifiques, publi� deux r�sultats, un mod�le de langage:

On peut voir sur un ensemble de donn�es standard de TBP, URNNG seul effet que RNNG d'apprentissage supervis� et l'effet RNNG apr�s la perte de la fonction de coupe URNNG l�g�rement moins bonne, mais sur de grands ensembles de donn�es, l'avantage URNNG se manifeste.

Un autre �l�ment d'analyse non supervis�e, o� toute la longueur de l'ensemble de test est utilis�:

Cette t�che URNNG l'effet est le meilleur.

conclusion

Et avant que les deux mod�les linguistiques font partie de l'analyse syntaxique non supervis�e est similaire � la probabilit� d'apprendre l'arbre de syntaxe avec inf�rence de r�seau de distribution de papier et d'�chantillonnage arbre de syntaxe, puis g�n�rer une probabilit� conjointe de r�seau informatique ces phrases et arbre de syntaxe, et enfin l'inf�rence variationnelle maximiser la probabilit� d'une phrase, qui est un bon mod�le d'apprentissage des langues.

2019 Sommet mondial sur l'intelligence artificielle et robotique

Organis� par la F�d�ration chinoise informatique, Lei Feng r�seau et l'Universit� chinoise (Shenzhen) Hong Kong co-h�te du Sommet mondial 2019 sur l'intelligence artificielle et robotique (CCF-GAIR 2019), sera 2019 Nian 12 Juillet � 14 Tenue � Shenzhen.

D'ici l�, le laur�at du prix Nobel JamesJ. Heckman, acad�micien �tranger, pr�sident du haut du monde, bien connu Fellow, un certain nombre d'invit�s poids lourds seront personnellement Zuozhen , Pour discuter de l'intelligence artificielle et sur le terrain complexe de situation de survie de la robotique, la production, l'investissement et ainsi de suite.

Cliquez pour lire le texte original, l'ajout de groupes de discussion sur papier PNL, d'�changer et d'apprendre avec leurs pairs

Route de la soie

Apprenez � conna�tre la Chine

NAACL19 | grammaire sans supervision du r�seau de neurones r�currents (URNNG)

introduction

mod�le URNNG

variationnelle Inference

exp�rience

conclusion