Universit� de Tsinghua, Feng Jun: Lors de l'apprentissage de renforcement que la chimie merveilleuse ont rencontr� le traitement du langage naturel?

Lei Feng r�seau par AI Technology Review : Avec le succ�s d'apprentissage am�lior� dans des domaines tels que la robotique et l'IA du jeu, qui a �galement attir� de plus en plus d'attention. Lei Feng r�seau dans un avenir proche GAIR Auditorium, D�partement des sciences informatiques doctorant Feng Jun de l'Universit� de Tsinghua, d'introduire l'apprentissage par renforcement comment utiliser la technologie pour mieux r�pondre au traitement du langage naturel de deux t�ches classiques: extraction de relations et de classification de texte. Cette vid�o en direct Partager selon la ORGANISER fait, le cas �ch�ant le contenu des omissions � l'invit� vid�o originale a parl� de sujet.

Lecture vid�o Adresse: http: //www.mooc.ai/open/course/318

Dans la t�che d'extraction de relation, essayez d'utiliser l'apprentissage par renforcement pour r�soudre le probl�me du bruit des donn�es de formation � distance supervis� g�n�r� automatiquement dans la m�thode. Dans les t�ches de classification de textes, une meilleure utilisation de la repr�sentation de la structure des phrases d'apprentissage de renforcement, en utilisant la repr�sentation de la cat�gorisation de textes obtenir de meilleurs r�sultats. La part des travaux ont �t� publi�s dans deux AAAI2018.

Feng Jun, Ph.D., Universit� de Tsinghua D�partement cinqui�me ann�e informatique, sous la tutelle du professeur Zhu Xiaoyan Huang Min et fort, la direction de la recherche principale pour la cartographie des connaissances, l'apprentissage de renforcement. Il a publi� de nombreux articles dans la conf�rence internationale AAAI, COLING, WSDM et ainsi de suite.

Partager le contenu:

Bonjour � tous, je suis Feng Jun de l'Universit� Tsinghua, a partag� le th�me d'�tude intensive a rencontr� lors du traitement du langage naturel, le partage de contenu est principalement les trois aspects suivants:

Renforcer les concepts de base de l'apprentissage bref
Bas� sur la m�thode d'extraction de relation d'apprentissage par renforcement, r�soudre le probl�me du bruit des donn�es de formation de m�thodologie de surveillance � distance g�n�r�es automatiquement
Il repr�sente la m�thode d'apprentissage bas�e sur l'apprentissage de renforcement de la structure de la phrase

Renforcer les concepts de base de l'apprentissage

�tat, l'agent est obtenu � partir de l'environnement de fonctionnement, l'agent, l'action appropri�e est de rendre l'�tat actuel apr�s qu'il touche. r�compense, est un agent de r�troaction � l'environnement, et de recevoir cette r�compense saura faire cette action est bonne ou mauvaise. L'objectif de l'agent est de choisir une action, toute r�compense maximale.

l'agent fera beaucoup d'interaction et de l'environnement, l'environnement � chaque fois que l'action pourrait avoir un impact � long terme, non seulement l'impact de la r�compense actuelle. r�compense peut aussi �tre retard�e. Voici une br�ve introduction du concept de la politique. d�cision politique est une fonction d'un agent de l'action.

Si les lecteurs peuvent regarder ces concepts est labyrinthe vid�o exemple clair: http: //www.mooc.ai/open/course/318

Notre groupe est compos� de deux extraction de relations de travail et la classification de texte.

Tout d'abord, il est le premier travail: l'utilisation de l'apprentissage dans l'extraction accrue de la relation (apprentissage par renforcement des relations avec la classification de Noisy donn�es) � partir de donn�es bruit�es

t�che de fond

t�ches de classification des relations doivent faire est de d�terminer quelle est la relation entre les entit�s, les entit�s incluses dans la phrase pour les enfants est connu. t�che de classification est une relation forte entre l'apprentissage supervis�, la n�cessit� de le faire manuellement marque pour chaque mot, et donc avant l'ensemble de donn�es est relativement faible.

Surveillance � distance a �galement �t� propos� avant, et j'esp�re pouvoir utiliser les ressources existantes pour marquer automatiquement la phrase, de sorte que la r�sultante ensembles de donn�es plus importantes. Cependant, cette m�thode est utilis�e pour pr�dire le mot en fonction du mod�le de connaissance relation entit� relation entit� existante, il ne peut pas �tre correctement �tiquet�s.

Cet article est d'utiliser l'apprentissage de renforcement pour r�soudre ce probl�me. Avant il y a quelques m�thodes sont bas�es sur l'apprentissage multi-instance � faire.

Bureau de le faire est maintenant pas une bonne affaire pr�diction de niveau de la phrase.

Sur la base des inconv�nients ci-dessus, nous avons �tabli un nouveau mod�le. Il se compose de deux parties: instance de s�lection et Relation Calssifier.

Ce mod�le a deux d�fis, le premier n'est pas que chaque mot est l'�tiquetage correct � , le second d�fi est les deux parties ensemble en un seul, de sorte qu'ils influencent.

Instance structure de s�lecteur et la figure Relation Calssifier

Instance de s�lection dans � l'�tat � serait repr�sent� comme la peine actuelle qui la peine, qui peine avant l'�lection, ainsi que l'entit� actuelle contient la phrase sur les enfants.

Relation classificateur est repr�sent�e directement par la structure pour obtenir une phrase CNN.

�tape de formation mod�le

Partie exp�rimentale sur la collecte de donn�es et la source de r�f�rence

r�sum�

Nous avons mentionn� un nouveau mod�le, en pr�sence de bruit peut condamner la relation entre les niveaux de classification, pas pr�dire seulement le niveau de sacs de relations.

La deuxi�me t�che

t�che de fond

Si vous faites une classification de phrase, d'abord de donner une phrase � faire, at-il dit la phrase apr�s la repr�sentation de la phrase a �t� dit � � repr�senter � le classificateur d'entr�e, la finale sera obtenir la peine quelle cat�gorie.

La repr�sentation de la phrase traditionnelle a le mod�le classique suivant:

Sac-de-mots
CNN
RNN
Proc�d� d'addition m�canisme d'attention

Plusieurs m�thodes ont une des lacunes communes, n'a pas tenu compte de la structure de l'information de la phrase. Tous ont un cinqui�me LSTM arborescent.

Cependant, cette m�thode a aussi quelques d�fauts, bien que l'utilisation des informations structurelles, mais exigent un pr�traitement est utilis� pour obtenir la structure de l'arbre de syntaxe. Et il est peut-�tre la m�me structure dans diff�rentes t�ches, parce que la syntaxe est la m�me.

Nous esp�rons donc �tre en mesure d'apprendre et de structure t�ches, et en fonction de la structure des phrases appris � faire la repr�sentation, esp�rant ainsi obtenir une meilleure structure de classification. Mais le d�fi est que nous ne savons pas quel genre de structure est bon pour cette t�che, nous ne disposons pas d'une structure d'�tiquette peut nous guider pour apprendre cette structure. Mais nous pouvons �tre bon ou pas bon de juger cette structure en fonction de la nouvelle structure de rendre les r�sultats de classification.

Cette t�che peut �galement �tre mod�lis� comme des probl�mes d'apprentissage de renforcement, avec l'apprentissage � renforcer la solution id�ologique. La m�me chose, r�compense dans cette t�che est retard�e en raison de la n�cessit� d'avoir appris toute la structure, afin d'obtenir une peine afin de faire le classement d'une phrase, au milieu du processus n'a pas connaissance de cette structure est bonne ou mauvais.

L'ensemble de donn�es est d�riv� de la partie exp�rimentale

Les r�sultats de classification de l'exp�rience, les deux derni�res lignes de notre approche.

r�sum�

Dans ce travail, nous avons �tudi� les t�ches associ�es � la structure de la phrase, obtenir une autre phrase dit, et obtenir une meilleure m�thode de classification de texte bas� sur l'agence de la phrase. Nous vous proposons deux repr�sentations diff�rentes, ID-LSMC et HS-LSMC. Les deux ont �t� bien repr�sent�s dans les r�sultats de la classification �taient tr�s int�ressantes et indique que la t�che associ�e.

Lei Feng r�seau pour fournir une lecture vid�o en direct, si vous avez des questions sur le texte, vous pouvez cliquer pour voir la vid�o: http: //www.mooc.ai/open/course/318.

Route de la soie

Apprenez � conna�tre la Chine

Universit� de Tsinghua, Feng Jun: Lors de l'apprentissage de renforcement que la chimie merveilleuse ont rencontr� le traitement du langage naturel? | Partager R�sum�