Université de Tsinghua, Feng Jun: Lors de l'apprentissage de renforcement que la chimie merveilleuse ont rencontré le traitement du langage naturel? | Partager Résumé

Lei Feng réseau par AI Technology Review : Avec le succès d'apprentissage amélioré dans des domaines tels que la robotique et l'IA du jeu, qui a également attiré de plus en plus d'attention. Lei Feng réseau dans un avenir proche GAIR Auditorium, Département des sciences informatiques doctorant Feng Jun de l'Université de Tsinghua, d'introduire l'apprentissage par renforcement comment utiliser la technologie pour mieux répondre au traitement du langage naturel de deux tâches classiques: extraction de relations et de classification de texte. Cette vidéo en direct Partager selon la ORGANISER fait, le cas échéant le contenu des omissions à l'invité vidéo originale a parlé de sujet.

Lecture vidéo Adresse: http: //www.mooc.ai/open/course/318

Dans la tâche d'extraction de relation, essayez d'utiliser l'apprentissage par renforcement pour résoudre le problème du bruit des données de formation à distance supervisé généré automatiquement dans la méthode. Dans les tâches de classification de textes, une meilleure utilisation de la représentation de la structure des phrases d'apprentissage de renforcement, en utilisant la représentation de la catégorisation de textes obtenir de meilleurs résultats. La part des travaux ont été publiés dans deux AAAI2018.

Feng Jun, Ph.D., Université de Tsinghua Département cinquième année informatique, sous la tutelle du professeur Zhu Xiaoyan Huang Min et fort, la direction de la recherche principale pour la cartographie des connaissances, l'apprentissage de renforcement. Il a publié de nombreux articles dans la conférence internationale AAAI, COLING, WSDM et ainsi de suite.

Partager le contenu:

Bonjour à tous, je suis Feng Jun de l'Université Tsinghua, a partagé le thème d'étude intensive a rencontré lors du traitement du langage naturel, le partage de contenu est principalement les trois aspects suivants:

  • Renforcer les concepts de base de l'apprentissage bref

  • Basé sur la méthode d'extraction de relation d'apprentissage par renforcement, résoudre le problème du bruit des données de formation de méthodologie de surveillance à distance générées automatiquement

  • Il représente la méthode d'apprentissage basée sur l'apprentissage de renforcement de la structure de la phrase

Renforcer les concepts de base de l'apprentissage

État, l'agent est obtenu à partir de l'environnement de fonctionnement, l'agent, l'action appropriée est de rendre l'état actuel après qu'il touche. récompense, est un agent de rétroaction à l'environnement, et de recevoir cette récompense saura faire cette action est bonne ou mauvaise. L'objectif de l'agent est de choisir une action, toute récompense maximale.

l'agent fera beaucoup d'interaction et de l'environnement, l'environnement à chaque fois que l'action pourrait avoir un impact à long terme, non seulement l'impact de la récompense actuelle. récompense peut aussi être retardée. Voici une brève introduction du concept de la politique. décision politique est une fonction d'un agent de l'action.

Si les lecteurs peuvent regarder ces concepts est labyrinthe vidéo exemple clair: http: //www.mooc.ai/open/course/318

Notre groupe est composé de deux extraction de relations de travail et la classification de texte.

Tout d'abord, il est le premier travail: l'utilisation de l'apprentissage dans l'extraction accrue de la relation (apprentissage par renforcement des relations avec la classification de Noisy données) à partir de données bruitées

tâche de fond

tâches de classification des relations doivent faire est de déterminer quelle est la relation entre les entités, les entités incluses dans la phrase pour les enfants est connu. tâche de classification est une relation forte entre l'apprentissage supervisé, la nécessité de le faire manuellement marque pour chaque mot, et donc avant l'ensemble de données est relativement faible.

Surveillance à distance a également été proposé avant, et j'espère pouvoir utiliser les ressources existantes pour marquer automatiquement la phrase, de sorte que la résultante ensembles de données plus importantes. Cependant, cette méthode est utilisée pour prédire le mot en fonction du modèle de connaissance relation entité relation entité existante, il ne peut pas être correctement étiquetés.

Cet article est d'utiliser l'apprentissage de renforcement pour résoudre ce problème. Avant il y a quelques méthodes sont basées sur l'apprentissage multi-instance à faire.

Bureau de le faire est maintenant pas une bonne affaire prédiction de niveau de la phrase.

Sur la base des inconvénients ci-dessus, nous avons établi un nouveau modèle. Il se compose de deux parties: instance de sélection et Relation Calssifier.

Ce modèle a deux défis, le premier n'est pas que chaque mot est l'étiquetage correct « , le second défi est les deux parties ensemble en un seul, de sorte qu'ils influencent.

Instance structure de sélecteur et la figure Relation Calssifier

Instance de sélection dans « l'état » serait représenté comme la peine actuelle qui la peine, qui peine avant l'élection, ainsi que l'entité actuelle contient la phrase sur les enfants.

Relation classificateur est représentée directement par la structure pour obtenir une phrase CNN.

étape de formation modèle

Partie expérimentale sur la collecte de données et la source de référence

résumé

Nous avons mentionné un nouveau modèle, en présence de bruit peut condamner la relation entre les niveaux de classification, pas prédire seulement le niveau de sacs de relations.

La deuxième tâche

tâche de fond

Si vous faites une classification de phrase, d'abord de donner une phrase à faire, at-il dit la phrase après la représentation de la phrase a été dit à « représenter » le classificateur d'entrée, la finale sera obtenir la peine quelle catégorie.

La représentation de la phrase traditionnelle a le modèle classique suivant:

  • Sac-de-mots

  • CNN

  • RNN

  • Procédé d'addition mécanisme d'attention

Plusieurs méthodes ont une des lacunes communes, n'a pas tenu compte de la structure de l'information de la phrase. Tous ont un cinquième LSTM arborescent.

Cependant, cette méthode a aussi quelques défauts, bien que l'utilisation des informations structurelles, mais exigent un prétraitement est utilisé pour obtenir la structure de l'arbre de syntaxe. Et il est peut-être la même structure dans différentes tâches, parce que la syntaxe est la même.

Nous espérons donc être en mesure d'apprendre et de structure tâches, et en fonction de la structure des phrases appris à faire la représentation, espérant ainsi obtenir une meilleure structure de classification. Mais le défi est que nous ne savons pas quel genre de structure est bon pour cette tâche, nous ne disposons pas d'une structure d'étiquette peut nous guider pour apprendre cette structure. Mais nous pouvons être bon ou pas bon de juger cette structure en fonction de la nouvelle structure de rendre les résultats de classification.

Cette tâche peut également être modélisé comme des problèmes d'apprentissage de renforcement, avec l'apprentissage à renforcer la solution idéologique. La même chose, récompense dans cette tâche est retardée en raison de la nécessité d'avoir appris toute la structure, afin d'obtenir une peine afin de faire le classement d'une phrase, au milieu du processus n'a pas connaissance de cette structure est bonne ou mauvais.

L'ensemble de données est dérivé de la partie expérimentale

Les résultats de classification de l'expérience, les deux dernières lignes de notre approche.

résumé

Dans ce travail, nous avons étudié les tâches associées à la structure de la phrase, obtenir une autre phrase dit, et obtenir une meilleure méthode de classification de texte basé sur l'agence de la phrase. Nous vous proposons deux représentations différentes, ID-LSMC et HS-LSMC. Les deux ont été bien représentés dans les résultats de la classification étaient très intéressantes et indique que la tâche associée.

Lei Feng réseau pour fournir une lecture vidéo en direct, si vous avez des questions sur le texte, vous pouvez cliquer pour voir la vidéo: http: //www.mooc.ai/open/course/318.

Oolong salle de spectacle, les combats de féroces, de la télévision nouvelle année toutes sortes de chaos
Précédent
Non seulement est-il la beauté de la lumière selfie et facile à utiliser le système de mini-L9 avis duo CD
Prochain
Ne cherchez pas la connaissance de son ancien Jia Zhangke « Foolish » après que les médias étrangers ont loué cette femme!
Comment porter des chaussettes à la fin? Kanye vous enseigner la bonne façon d'ouvrir!
loin de pas en arrière du drame entre le bien et le drame de style chaud? Il est avéré impossible
"Catherine Full Body" nouvelle bande-annonce: Joker être aussi des amis Sokoban
Pourquoi taxi peut être si durable?
AI-permis lunettes AR, la vision claire est de savoir comment faire?
Pour le son original, cérémonie G-off est devenu un réseau de Girouette d'origine
"Jeu Decode" Han Geng, Rhydian Vaughan, le fonctionnement limite Yamashita Tomohisa! « La clé » fait référence à l'été!
Les grands sous-trotteurs Shuaixiang Japon Lolita, « Yanxi Raiders » pays excédentaires commerciaux ouverts tels que le mode dramatique
Le pilote automatique actuel est ce genre d'état?
Lenovo package de luxe rejointes CES2017 vous voulez la technologie noire ont vu le jour
Thanos jouant Star-Seigneur après la pression de ses doigts, à travers le « Jurassic World 2 » et le jeu des dinosaures!