NAACL19 | grammaire sans supervision du réseau de neurones récurrents (URNNG)

Technologie AI Revue de presse, L'auteur Yang Wei, nous savons presque à partir de l'apprentissage de la profondeur de la colonne et le traitement du langage naturel, AI Technology Review sa réimpression autorisée.

Wei Yang sait presque Page d'accueil:

https://www.zhihu.com/people/godweiyang/posts

Colonne sait presque Adresse:

https://zhuanlan.zhihu.com/godweiyang

Papier: non supervisées récurrentes Neural Network Grammars

Documents Adresse:

github Adresse de code:

https://github.com/harvardnlp/urnng

introduction

Cet article est au sujet de la grammaire NAACL19 sans supervision de réseau de neurones récurrents fraîchement sorti du four (URNNG), et dans le modèle de langage et des composants d'analyse sans supervision ont obtenu de très bons résultats, principalement l'inférence variationnelle et RNNG. Cette formule de l'article est grand, donc je poussais depuis longtemps, beaucoup d'algorithmes, les premières notes, je déduit une formule:

Je ne commander ce blog en termes de papier, vous parlez de ma compréhension de celui-ci selon mes notes au-dessus de cela, de nombreux détails peuvent être ignorés, s'il vous plaît voir la barre d'origine.

Pour la première analyse des ingrédients sans supervision, la pratique classique consiste à apprendre un modèle génératif

Il est un modèle de génération de RNNG, mais le manque de supervision du signal arbre de syntaxe z comment le faire? Maintenant donnez votre entrée uniquement x phrase, alors seulement avec le modèle de langue

Do a supervisé. Traditionnellement, nous aimons prendre quelques-uns, qui est la suivante:

Ici, il y a plusieurs problèmes, tels que l'espace d'état z est trop grand, ne peut pas exhaustive de tous, donc l'étape suivante en expliquera pas à pas comment résoudre.

modèle URNNG

Tout d'abord sur une carte du modèle, de sorte que nous avons une connaissance générale du modèle global:

La gauche est une inférence de réseau (Inference réseau), est utilisée pour déduire des variables latentes selon l'entrée x est la distribution de probabilité de l'arbre de syntaxe z

. Sur la droite est la génération d'un modèle (modèle génératif), utilisé pour calculer la probabilité conjointe d'échantillonnage sur l'arbre de syntaxe réseau raisonnement z, la probabilité est calculée en fonction de ce qui précède la dernière phrase modèle de langage afin de maximiser la probabilité.

Viennent ensuite expliqué deux parties et la méthode d'optimisation spécifique.

premier vecteur de mot

Et des vecteurs de position

Brochage, comme le réseau raisonnement entrée LSTM:

ensuite calculate

Score calculé comme d'habitude, pour faire la différence de sortie avant et après BiLSTM et anticipatrice score réseau de neurones obtenu par un front:

Ensuite, vous devez calculer la distribution de probabilité de l'arbre syntaxique, ici n'est pas calculé z arbre directement la syntaxe, mais sa matrice de contiguïté pour calculer la distribution de probabilité de B, cela signifie que la matrice de contiguïté, si elle est présente,

, Dans le cas contraire

. CRF peut alors être utilisé pour calculer la probabilité correspondant matrice de contiguïté B:

parmi

Est la fonction de partition, à savoir pour la probabilité de réduction compris entre 0 et 1:

Notez ici

Pas tous de l'ensemble 01 de la matrice, mais doit répondre à l'arbre de syntaxe juridique peut produire la matrice, la situation beaucoup, pas exhaustive résolu, ici à l'intérieur algorithme classique pour résoudre cette fonction de partition:

Mais je pense que cela est faux! Voici deux

Devrait être changé

. Mais quand la mise en uvre concrète du code ne l'a pas fait, il est le même que la valeur initiale

Mais récursivité lorsque vous utilisez la formule suivante:

En fait, avec

Au lieu de cela, le code de la simplification de cette formule est qu'elle devrait être pour éviter tout débordement numérique.

Ensuite, est l'échantillonnage probabiliste, le but du réseau est calculé raisonnant la distribution des arbres de syntaxe, puis à partir de cette distribution d'échantillonnage d'un certain nombre d'arbres de syntaxe, maintenant donné un arbre de syntaxe peut calculer sa probabilité selon l'algorithme ci-dessus, que comment il échantillonnage? Mais il est encore possible de goûter à un tableau de calcul juste par l'algorithme d'échantillonnage est la suivante:

En fait, selon un top-down de distribution fendu de probabilité d'échantillonnage de chaque travée, avec une file d'attente d'intervalle pour contenir tous les échantillons ne sont pas divisés, puis tous les échantillons couvrent la valeur correspondante de la matrice standard d'adjacence est 1.

Enfin, le réseau d'inférence probabiliste échantillonner une pluralité d'arbre syntaxique z, est ensuite calculé pour chaque arbre syntaxique selon la CRF

Derrière les choses pour générer un réseau.

L'objet ci-dessus du réseau de raisonnement échantillonner une pluralité d'arbre syntaxique z, la génération d'un réseau de sa probabilité conjointe est calculée

. Ce n'est pas difficile, avant que les notes de papier RNNG, j'ai parlé en général, vous pouvez aller de recyclage: Recurrent Neural Network Grammars, ici apporté quelques améliorations mineures.

Tout d'abord nécessaire de définir une pile est de stocker l'historique des transitions d'état, tel que défini ici, la pile a été élément mis tuple (h, g), il est une sortie codée pile LSTM, une structure de sous-arbre de la Fig. Tout d'abord besoin de prédire ce que l'action suivante est donc de la partie supérieure des éléments de pile

, L'action prévue lorsqu'il est utilisé en tant que la sortie de la couche cachée:

Ensuite, selon cette probabilité est prédit une action ou SHIFT Reduce, les deux cas suivants ont discuté.

Si SHIFT, puis parce que le modèle est généré, il est nécessaire de prévoir le prochain mouvement en un mot ce qui est:

Le vecteur d'expression est ensuite entrée à un mot x obtenue synchronisation de sortie de la couche cachée pile LSTM de l'autre:

Enfin,

Faire avancer la pile.

Si REDUIRE, vous devez d'abord retirer les deux éléments de la pile

et

Et calcule alors les deux nuds sous-sous-arbres ont été mis en commun la représentation TreeLSTM:

Il est ensuite calculée à la pile LSTM de sortie de la couche cachée la fois:

Enfin,

Faire avancer la pile.

Afin d'éviter que le nombre de dépassement numérique, on calcule la probabilité conjointe du classique:

Comme on peut le voir de cette formule, la probabilité conjointe est définie comme tout donné un certain mot et l'action de prévoir le prochain produit de mot et de réduire la probabilité de certains mots et la prédiction d'action d'une action donnée.

Si la tâche est de superviser ce RNNG, il vous suffit de maximiser la probabilité conjointe de cela suffit, mais maintenant faire sans surveillance, sans z, veillez à ne pas confondre, le raisonnement sur le réseau d'échantillonnage z ne peut pas être utilisé pour surveiller Oh, parce que il n'a pas été fait correctement, donc la langue suivante à utiliser comme modèle pour la fonction objectif final.

variationnelle Inference

Définir logarithme de x est la probabilité d'une phrase:

parmi

L'ensemble de tous les arbres de syntaxe juridique, mais il ne peut pas exhaustive de tous l'arbre de syntaxe, il est nécessaire d'utiliser l'inférence variationnelle, connaissances théoriques spécifiques pas mis en place avec soin, vous pouvez aller à l'accès inférence variationnelle de la connaissance, la dérivation directe suivante.

La dernière ligne est appelée a priori

limite inférieure des preuves (ELBO), afin de maximiser a priori, peut maximiser la ELBO, si l'on examine les changements à cette forme de ELBO peuvent être obtenues:

Donc, ce ELBO sur la différence entre une divergence priori et KL, il maximise la probabilité d'ELBO équivalent à minimiser la divergence KL, à savoir que les arbres syntaxiques du réseau d'inférence modèle de génération générés et distribués aussi près que possible.

Mais ce ELBO ou pas pris en compte, même si elle a mis

Déplacer le signe de sommation est prévu à l'intérieur, donc de changer ma forme:

Étant donné que le modèle un total de deux ensembles de paramètres, un paramètre réseau d'inférence

, Un paramètre de réseau est généré, de sorte que les deux paramètres suivants pour chaque dérivé.

la dérivée première partie, étant donné que seul le premier à avoir ce paramètre, les dérivées partielles sont les suivantes:

Les dérivées partielles peuvent suivre la probabilité

Sampled:

Ensuite, les dérivées partielles, parce que celui-ci contient deux paramètres, à savoir la dérivée partielle. La seconde est l'entropie, en fait, sa valeur peut être calculée en utilisant l'algorithme précédent de réseau est comme suit:

Ensuite, peuvent être remis aux dérivées partielles sur la bibliothèque pour apprendre la profondeur de la différenciation automatique, ne vous le trouver.

En ce qui concerne les premières dérivées partielles peut être utilisé une solution de gradient procédé de stratégies similaires:

Ici enfin est converti en échantillonnage, des stratégies et des pratiques similaires gradient, ici pour rejoindre la ligne de base pour améliorer les performances:

parmi

Elle est définie comme la moyenne du nombre de toutes les autres probabilités conjointes:

À ce stade, toutes les dérivées partielles ont cherché à, obtenu en échantillonnant les deux, un résultat obtenu par l'algorithme à l'intérieur de la différentiation automatique, le signe de la dérivée est retiré et ajouté pour obtenir la fonction de perte finale:

Je dois noter ici

Lorsque la mise en uvre du code ne peut pas passer gradient, sinon les dérivées partielles de celui-ci seront plus des dérivées partielles de!

expérience

Les résultats ne disent pas ici, et il détaille les documents de lecture spécifiques, publié deux résultats, un modèle de langage:

On peut voir sur un ensemble de données standard de TBP, URNNG seul effet que RNNG d'apprentissage supervisé et l'effet RNNG après la perte de la fonction de coupe URNNG légèrement moins bonne, mais sur de grands ensembles de données, l'avantage URNNG se manifeste.

Un autre élément d'analyse non supervisée, où toute la longueur de l'ensemble de test est utilisé:

Cette tâche URNNG l'effet est le meilleur.

conclusion

Et avant que les deux modèles linguistiques font partie de l'analyse syntaxique non supervisée est similaire à la probabilité d'apprendre l'arbre de syntaxe avec inférence de réseau de distribution de papier et d'échantillonnage arbre de syntaxe, puis générer une probabilité conjointe de réseau informatique ces phrases et arbre de syntaxe, et enfin l'inférence variationnelle maximiser la probabilité d'une phrase, qui est un bon modèle d'apprentissage des langues.

2019 Sommet mondial sur l'intelligence artificielle et robotique

Organisé par la Fédération chinoise informatique, Lei Feng réseau et l'Université chinoise (Shenzhen) Hong Kong co-hôte du Sommet mondial 2019 sur l'intelligence artificielle et robotique (CCF-GAIR 2019), sera 2019 Nian 12 Juillet à 14 Tenue à Shenzhen.

D'ici là, le lauréat du prix Nobel JamesJ. Heckman, académicien étranger, président du haut du monde, bien connu Fellow, un certain nombre d'invités poids lourds seront personnellement Zuozhen , Pour discuter de l'intelligence artificielle et sur le terrain complexe de situation de survie de la robotique, la production, l'investissement et ainsi de suite.

Cliquez pour lire le texte original, l'ajout de groupes de discussion sur papier PNL, d'échanger et d'apprendre avec leurs pairs

12345 pour fournir des services en langue des signes, est chaleureux et les détails de la ville de Shanghai
Précédent
légende Tianchi - a été peint 1987 Jiangqi Sunray Press
Prochain
Académie chinoise d'ingénierie Shilu Xicheng parler de l'informatique intelligente: devrait renforcer la base technologique, afin d'éviter de répéter les erreurs de l'industrie de l'informatique trad
légende Klippe - Sunray Press, 1987 Yukio peint secteur
Meizu FlyMe 7.3 version stable: 6 fonction Daxin 4 modèles de section early adopters
West Lake à Hangzhou Legend - Li Zhiguo peint Sunray Press, 1987
légendes jaune Grue à tour - Sunray Press, 1987 Wang Yu peint
KDD 2019 | Tencent algorithme publicitaire en équipe sur les stocks de papier estimation a été embauché KDD 2019
La magie de guérison sont apaisantes d'exposition à thème fantastique
innocence « Juin » Rappel: les enfants de notre chose d'église
Légende cascade Huangguoshu - Sunray Press, 1987 Cao a quitté mari peint
Les souvenirs du jour de trois générations d'enfants: chaque génération a un goût unique de l'enfance
Yuquan - Édition des beaux-arts du Zhejiang populaire Maison 1979 Luo Xixian peint
Shanghai Chi-fait! Le premier vaccin international Norovirus quadrivalent approuvé pour la recherche clinique