Technologie AI Revue de presse, L'auteur Yang Wei, nous savons presque à partir de l'apprentissage de la profondeur de la colonne et le traitement du langage naturel, AI Technology Review sa réimpression autorisée.
Wei Yang sait presque Page d'accueil:
https://www.zhihu.com/people/godweiyang/posts
Colonne sait presque Adresse:
https://zhuanlan.zhihu.com/godweiyang
Papier: non supervisées récurrentes Neural Network Grammars
Documents Adresse:
github Adresse de code:
https://github.com/harvardnlp/urnng
introduction
Cet article est au sujet de la grammaire NAACL19 sans supervision de réseau de neurones récurrents fraîchement sorti du four (URNNG), et dans le modèle de langage et des composants d'analyse sans supervision ont obtenu de très bons résultats, principalement l'inférence variationnelle et RNNG. Cette formule de l'article est grand, donc je poussais depuis longtemps, beaucoup d'algorithmes, les premières notes, je déduit une formule:
Je ne commander ce blog en termes de papier, vous parlez de ma compréhension de celui-ci selon mes notes au-dessus de cela, de nombreux détails peuvent être ignorés, s'il vous plaît voir la barre d'origine.
Pour la première analyse des ingrédients sans supervision, la pratique classique consiste à apprendre un modèle génératif
Il est un modèle de génération de RNNG, mais le manque de supervision du signal arbre de syntaxe z comment le faire? Maintenant donnez votre entrée uniquement x phrase, alors seulement avec le modèle de langue Do a supervisé. Traditionnellement, nous aimons prendre quelques-uns, qui est la suivante:
Ici, il y a plusieurs problèmes, tels que l'espace d'état z est trop grand, ne peut pas exhaustive de tous, donc l'étape suivante en expliquera pas à pas comment résoudre.
modèle URNNG
Tout d'abord sur une carte du modèle, de sorte que nous avons une connaissance générale du modèle global:
La gauche est une inférence de réseau (Inference réseau), est utilisée pour déduire des variables latentes selon l'entrée x est la distribution de probabilité de l'arbre de syntaxe z
. Sur la droite est la génération d'un modèle (modèle génératif), utilisé pour calculer la probabilité conjointe d'échantillonnage sur l'arbre de syntaxe réseau raisonnement z, la probabilité est calculée en fonction de ce qui précède la dernière phrase modèle de langage afin de maximiser la probabilité.Viennent ensuite expliqué deux parties et la méthode d'optimisation spécifique.
premier vecteur de mot
Et des vecteurs de position Brochage, comme le réseau raisonnement entrée LSTM:ensuite calculate
Score calculé comme d'habitude, pour faire la différence de sortie avant et après BiLSTM et anticipatrice score réseau de neurones obtenu par un front:Ensuite, vous devez calculer la distribution de probabilité de l'arbre syntaxique, ici n'est pas calculé z arbre directement la syntaxe, mais sa matrice de contiguïté pour calculer la distribution de probabilité de B, cela signifie que la matrice de contiguïté, si elle est présente,
, Dans le cas contraire . CRF peut alors être utilisé pour calculer la probabilité correspondant matrice de contiguïté B:parmi
Est la fonction de partition, à savoir pour la probabilité de réduction compris entre 0 et 1:
Notez ici
Pas tous de l'ensemble 01 de la matrice, mais doit répondre à l'arbre de syntaxe juridique peut produire la matrice, la situation beaucoup, pas exhaustive résolu, ici à l'intérieur algorithme classique pour résoudre cette fonction de partition:Mais je pense que cela est faux! Voici deux
Devrait être changé . Mais quand la mise en uvre concrète du code ne l'a pas fait, il est le même que la valeur initiale Mais récursivité lorsque vous utilisez la formule suivante:En fait, avec
Au lieu de cela, le code de la simplification de cette formule est qu'elle devrait être pour éviter tout débordement numérique.Ensuite, est l'échantillonnage probabiliste, le but du réseau est calculé raisonnant la distribution des arbres de syntaxe, puis à partir de cette distribution d'échantillonnage d'un certain nombre d'arbres de syntaxe, maintenant donné un arbre de syntaxe peut calculer sa probabilité selon l'algorithme ci-dessus, que comment il échantillonnage? Mais il est encore possible de goûter à un tableau de calcul juste par l'algorithme d'échantillonnage est la suivante:
En fait, selon un top-down de distribution fendu de probabilité d'échantillonnage de chaque travée, avec une file d'attente d'intervalle pour contenir tous les échantillons ne sont pas divisés, puis tous les échantillons couvrent la valeur correspondante de la matrice standard d'adjacence est 1.
Enfin, le réseau d'inférence probabiliste échantillonner une pluralité d'arbre syntaxique z, est ensuite calculé pour chaque arbre syntaxique selon la CRF
Derrière les choses pour générer un réseau.
L'objet ci-dessus du réseau de raisonnement échantillonner une pluralité d'arbre syntaxique z, la génération d'un réseau de sa probabilité conjointe est calculée
. Ce n'est pas difficile, avant que les notes de papier RNNG, j'ai parlé en général, vous pouvez aller de recyclage: Recurrent Neural Network Grammars, ici apporté quelques améliorations mineures.
Tout d'abord nécessaire de définir une pile est de stocker l'historique des transitions d'état, tel que défini ici, la pile a été élément mis tuple (h, g), il est une sortie codée pile LSTM, une structure de sous-arbre de la Fig. Tout d'abord besoin de prédire ce que l'action suivante est donc de la partie supérieure des éléments de pile
, L'action prévue lorsqu'il est utilisé en tant que la sortie de la couche cachée:Ensuite, selon cette probabilité est prédit une action ou SHIFT Reduce, les deux cas suivants ont discuté.
Si SHIFT, puis parce que le modèle est généré, il est nécessaire de prévoir le prochain mouvement en un mot ce qui est:
Le vecteur d'expression est ensuite entrée à un mot x obtenue synchronisation de sortie de la couche cachée pile LSTM de l'autre:
Enfin,
Faire avancer la pile.
Si REDUIRE, vous devez d'abord retirer les deux éléments de la pile
et Et calcule alors les deux nuds sous-sous-arbres ont été mis en commun la représentation TreeLSTM:Il est ensuite calculée à la pile LSTM de sortie de la couche cachée la fois:
Enfin,
Faire avancer la pile.
Afin d'éviter que le nombre de dépassement numérique, on calcule la probabilité conjointe du classique:
Comme on peut le voir de cette formule, la probabilité conjointe est définie comme tout donné un certain mot et l'action de prévoir le prochain produit de mot et de réduire la probabilité de certains mots et la prédiction d'action d'une action donnée.
Si la tâche est de superviser ce RNNG, il vous suffit de maximiser la probabilité conjointe de cela suffit, mais maintenant faire sans surveillance, sans z, veillez à ne pas confondre, le raisonnement sur le réseau d'échantillonnage z ne peut pas être utilisé pour surveiller Oh, parce que il n'a pas été fait correctement, donc la langue suivante à utiliser comme modèle pour la fonction objectif final.
variationnelle Inference
Définir logarithme de x est la probabilité d'une phrase:
parmi
L'ensemble de tous les arbres de syntaxe juridique, mais il ne peut pas exhaustive de tous l'arbre de syntaxe, il est nécessaire d'utiliser l'inférence variationnelle, connaissances théoriques spécifiques pas mis en place avec soin, vous pouvez aller à l'accès inférence variationnelle de la connaissance, la dérivation directe suivante.La dernière ligne est appelée a priori
limite inférieure des preuves (ELBO), afin de maximiser a priori, peut maximiser la ELBO, si l'on examine les changements à cette forme de ELBO peuvent être obtenues:Donc, ce ELBO sur la différence entre une divergence priori et KL, il maximise la probabilité d'ELBO équivalent à minimiser la divergence KL, à savoir que les arbres syntaxiques du réseau d'inférence modèle de génération générés et distribués aussi près que possible.
Mais ce ELBO ou pas pris en compte, même si elle a mis
Déplacer le signe de sommation est prévu à l'intérieur, donc de changer ma forme:Étant donné que le modèle un total de deux ensembles de paramètres, un paramètre réseau d'inférence
, Un paramètre de réseau est généré, de sorte que les deux paramètres suivants pour chaque dérivé.la dérivée première partie, étant donné que seul le premier à avoir ce paramètre, les dérivées partielles sont les suivantes:
Les dérivées partielles peuvent suivre la probabilité
Sampled:
Ensuite, les dérivées partielles, parce que celui-ci contient deux paramètres, à savoir la dérivée partielle. La seconde est l'entropie, en fait, sa valeur peut être calculée en utilisant l'algorithme précédent de réseau est comme suit:
Ensuite, peuvent être remis aux dérivées partielles sur la bibliothèque pour apprendre la profondeur de la différenciation automatique, ne vous le trouver.
En ce qui concerne les premières dérivées partielles peut être utilisé une solution de gradient procédé de stratégies similaires:
Ici enfin est converti en échantillonnage, des stratégies et des pratiques similaires gradient, ici pour rejoindre la ligne de base pour améliorer les performances:
parmi
Elle est définie comme la moyenne du nombre de toutes les autres probabilités conjointes:À ce stade, toutes les dérivées partielles ont cherché à, obtenu en échantillonnant les deux, un résultat obtenu par l'algorithme à l'intérieur de la différentiation automatique, le signe de la dérivée est retiré et ajouté pour obtenir la fonction de perte finale:
Je dois noter ici
Lorsque la mise en uvre du code ne peut pas passer gradient, sinon les dérivées partielles de celui-ci seront plus des dérivées partielles de!expérience
Les résultats ne disent pas ici, et il détaille les documents de lecture spécifiques, publié deux résultats, un modèle de langage:
On peut voir sur un ensemble de données standard de TBP, URNNG seul effet que RNNG d'apprentissage supervisé et l'effet RNNG après la perte de la fonction de coupe URNNG légèrement moins bonne, mais sur de grands ensembles de données, l'avantage URNNG se manifeste.
Un autre élément d'analyse non supervisée, où toute la longueur de l'ensemble de test est utilisé:
Cette tâche URNNG l'effet est le meilleur.
conclusion
Et avant que les deux modèles linguistiques font partie de l'analyse syntaxique non supervisée est similaire à la probabilité d'apprendre l'arbre de syntaxe avec inférence de réseau de distribution de papier et d'échantillonnage arbre de syntaxe, puis générer une probabilité conjointe de réseau informatique ces phrases et arbre de syntaxe, et enfin l'inférence variationnelle maximiser la probabilité d'une phrase, qui est un bon modèle d'apprentissage des langues.
2019 Sommet mondial sur l'intelligence artificielle et robotique
Organisé par la Fédération chinoise informatique, Lei Feng réseau et l'Université chinoise (Shenzhen) Hong Kong co-hôte du Sommet mondial 2019 sur l'intelligence artificielle et robotique (CCF-GAIR 2019), sera 2019 Nian 12 Juillet à 14 Tenue à Shenzhen.
D'ici là, le lauréat du prix Nobel JamesJ. Heckman, académicien étranger, président du haut du monde, bien connu Fellow, un certain nombre d'invités poids lourds seront personnellement Zuozhen , Pour discuter de l'intelligence artificielle et sur le terrain complexe de situation de survie de la robotique, la production, l'investissement et ainsi de suite.
Cliquez pour lire le texte original, l'ajout de groupes de discussion sur papier PNL, d'échanger et d'apprendre avec leurs pairs