Lei Feng réseau par AI Technology Review : Avec le succès d'apprentissage amélioré dans des domaines tels que la robotique et l'IA du jeu, qui a également attiré de plus en plus d'attention. Lei Feng réseau dans un avenir proche GAIR Auditorium, Département des sciences informatiques doctorant Feng Jun de l'Université de Tsinghua, d'introduire l'apprentissage par renforcement comment utiliser la technologie pour mieux répondre au traitement du langage naturel de deux tâches classiques: extraction de relations et de classification de texte. Cette vidéo en direct Partager selon la ORGANISER fait, le cas échéant le contenu des omissions à l'invité vidéo originale a parlé de sujet.
Lecture vidéo Adresse: http: //www.mooc.ai/open/course/318
Dans la tâche d'extraction de relation, essayez d'utiliser l'apprentissage par renforcement pour résoudre le problème du bruit des données de formation à distance supervisé généré automatiquement dans la méthode. Dans les tâches de classification de textes, une meilleure utilisation de la représentation de la structure des phrases d'apprentissage de renforcement, en utilisant la représentation de la catégorisation de textes obtenir de meilleurs résultats. La part des travaux ont été publiés dans deux AAAI2018.
Feng Jun, Ph.D., Université de Tsinghua Département cinquième année informatique, sous la tutelle du professeur Zhu Xiaoyan Huang Min et fort, la direction de la recherche principale pour la cartographie des connaissances, l'apprentissage de renforcement. Il a publié de nombreux articles dans la conférence internationale AAAI, COLING, WSDM et ainsi de suite.
Partager le contenu:
Bonjour à tous, je suis Feng Jun de l'Université Tsinghua, a partagé le thème d'étude intensive a rencontré lors du traitement du langage naturel, le partage de contenu est principalement les trois aspects suivants:
-
Renforcer les concepts de base de l'apprentissage bref
-
Basé sur la méthode d'extraction de relation d'apprentissage par renforcement, résoudre le problème du bruit des données de formation de méthodologie de surveillance à distance générées automatiquement
-
Il représente la méthode d'apprentissage basée sur l'apprentissage de renforcement de la structure de la phrase
Renforcer les concepts de base de l'apprentissage
État, l'agent est obtenu à partir de l'environnement de fonctionnement, l'agent, l'action appropriée est de rendre l'état actuel après qu'il touche. récompense, est un agent de rétroaction à l'environnement, et de recevoir cette récompense saura faire cette action est bonne ou mauvaise. L'objectif de l'agent est de choisir une action, toute récompense maximale.
l'agent fera beaucoup d'interaction et de l'environnement, l'environnement à chaque fois que l'action pourrait avoir un impact à long terme, non seulement l'impact de la récompense actuelle. récompense peut aussi être retardée. Voici une brève introduction du concept de la politique. décision politique est une fonction d'un agent de l'action.
Si les lecteurs peuvent regarder ces concepts est labyrinthe vidéo exemple clair: http: //www.mooc.ai/open/course/318
Notre groupe est composé de deux extraction de relations de travail et la classification de texte.
Tout d'abord, il est le premier travail: l'utilisation de l'apprentissage dans l'extraction accrue de la relation (apprentissage par renforcement des relations avec la classification de Noisy données) à partir de données bruitées
tâche de fond
tâches de classification des relations doivent faire est de déterminer quelle est la relation entre les entités, les entités incluses dans la phrase pour les enfants est connu. tâche de classification est une relation forte entre l'apprentissage supervisé, la nécessité de le faire manuellement marque pour chaque mot, et donc avant l'ensemble de données est relativement faible.
Surveillance à distance a également été proposé avant, et j'espère pouvoir utiliser les ressources existantes pour marquer automatiquement la phrase, de sorte que la résultante ensembles de données plus importantes. Cependant, cette méthode est utilisée pour prédire le mot en fonction du modèle de connaissance relation entité relation entité existante, il ne peut pas être correctement étiquetés.
Cet article est d'utiliser l'apprentissage de renforcement pour résoudre ce problème. Avant il y a quelques méthodes sont basées sur l'apprentissage multi-instance à faire.
Bureau de le faire est maintenant pas une bonne affaire prédiction de niveau de la phrase.
Sur la base des inconvénients ci-dessus, nous avons établi un nouveau modèle. Il se compose de deux parties: instance de sélection et Relation Calssifier.
Ce modèle a deux défis, le premier n'est pas que chaque mot est l'étiquetage correct « , le second défi est les deux parties ensemble en un seul, de sorte qu'ils influencent.
Instance structure de sélecteur et la figure Relation Calssifier
Instance de sélection dans « l'état » serait représenté comme la peine actuelle qui la peine, qui peine avant l'élection, ainsi que l'entité actuelle contient la phrase sur les enfants.
Relation classificateur est représentée directement par la structure pour obtenir une phrase CNN.
étape de formation modèle
Partie expérimentale sur la collecte de données et la source de référence
résumé
Nous avons mentionné un nouveau modèle, en présence de bruit peut condamner la relation entre les niveaux de classification, pas prédire seulement le niveau de sacs de relations.
La deuxième tâche
tâche de fond
Si vous faites une classification de phrase, d'abord de donner une phrase à faire, at-il dit la phrase après la représentation de la phrase a été dit à « représenter » le classificateur d'entrée, la finale sera obtenir la peine quelle catégorie.
La représentation de la phrase traditionnelle a le modèle classique suivant:
-
Sac-de-mots
-
CNN
-
RNN
-
Procédé d'addition mécanisme d'attention
Plusieurs méthodes ont une des lacunes communes, n'a pas tenu compte de la structure de l'information de la phrase. Tous ont un cinquième LSTM arborescent.
Cependant, cette méthode a aussi quelques défauts, bien que l'utilisation des informations structurelles, mais exigent un prétraitement est utilisé pour obtenir la structure de l'arbre de syntaxe. Et il est peut-être la même structure dans différentes tâches, parce que la syntaxe est la même.
Nous espérons donc être en mesure d'apprendre et de structure tâches, et en fonction de la structure des phrases appris à faire la représentation, espérant ainsi obtenir une meilleure structure de classification. Mais le défi est que nous ne savons pas quel genre de structure est bon pour cette tâche, nous ne disposons pas d'une structure d'étiquette peut nous guider pour apprendre cette structure. Mais nous pouvons être bon ou pas bon de juger cette structure en fonction de la nouvelle structure de rendre les résultats de classification.
Cette tâche peut également être modélisé comme des problèmes d'apprentissage de renforcement, avec l'apprentissage à renforcer la solution idéologique. La même chose, récompense dans cette tâche est retardée en raison de la nécessité d'avoir appris toute la structure, afin d'obtenir une peine afin de faire le classement d'une phrase, au milieu du processus n'a pas connaissance de cette structure est bonne ou mauvais.
L'ensemble de données est dérivé de la partie expérimentale
Les résultats de classification de l'expérience, les deux dernières lignes de notre approche.
résumé
Dans ce travail, nous avons étudié les tâches associées à la structure de la phrase, obtenir une autre phrase dit, et obtenir une meilleure méthode de classification de texte basé sur l'agence de la phrase. Nous vous proposons deux représentations différentes, ID-LSMC et HS-LSMC. Les deux ont été bien représentés dans les résultats de la classification étaient très intéressantes et indique que la tâche associée.
Lei Feng réseau pour fournir une lecture vidéo en direct, si vous avez des questions sur le texte, vous pouvez cliquer pour voir la vidéo: http: //www.mooc.ai/open/course/318.