Ali sur REVIEW: Dans le contexte actuel du moteur de recherche intelligente, non seulement pour comprendre les informations que les utilisateurs extraient et r�sumez le contenu pertinent au sujet de la recherche, mais dans une construction progressive li�e aux r�sultats de la recherche du syst�me complet de connaissances, ce qui permet aux utilisateurs d'obtenir inattendu d�couverte. Smarter recherche et de l'application de l'�quipe carte de connaissances sur cette route explorer en permanence.

Hier, nous avons introduit la m�thode fond�e sur l'extraction de relation scaphandrier son application dans la construction des donn�es cartographiques de connaissances (Portal: la construction de donn�es cartographiques de connaissances � os �, les ing�nieurs Ali comment gagner). Cette m�thode de haute pr�cision, une bonne interaction, refl�te la forte capacit� d'extraire un seul des relations de travail. Aujourd'hui, nous allons tous continuer � partager la technologie d'extraction est bas�e sur la relation entre la profondeur de l'apprentissage et de l'exploration et de la pratique, ainsi que quelques-uns des d�fis rencontr�s dans le processus des affaires d'atterrissage est construit sur des donn�es de cartes plus intelligentes du savoir, nous r�jouissons de discuter de l'�change avec vous.

mod�le d'apprentissage profondeur introduit

�tape scaphandrier dans le syst�me de traitement de donn�es d�pend en grande partie sur les outils de la PNL, un processus d'erreur si le PNL, ces erreurs seront propag�es sans cesse et amplifi�s dans l'�tude ult�rieure de l'�tape d'�tiquetage, l'effet des r�sultats d'extraction de relation finale. Pour �viter cela, la propagation et l'impact des technologies d'apprentissage au cours des derni�res ann�es, la profondeur a commenc� � devenir de plus en plus d'attention et de l'application dans la t�che d'extraction de relation. Ce chapitre d�crit une technique d'am�lioration marqu�e pour la m�thode de supervision � distance et l'extraction relation bas�e sur le mod�le de r�seau de neurones convolution de moissonneuses-batteuses et la m�thode.

Piecewise Convolutif mod�le Neural Networks (de PCNNs)

. PCNNs mod�le pour 2015 propos� par Zeng et al, mis principalement des solutions avant deux probl�mes:

probl�me de mauvaise �tiquette pour la surveillance � distance, le mod�le de l'apprentissage propos� fa�on multi-instance de l'ensemble de la formation des exemples tir�s de formation mod�le de formation �lev� pour prendre confiance.
mod�le statistique traditionnel aux fonctions d'extraction et des erreurs qui se produisent lors de la propagation d'erreur suivant, le mod�le propos� par fonction d'apprentissage du r�seau de neurones � convolution automatiquement par morceaux, �vitant ainsi le processus complexe de la PNL.

La figure est un sch�ma de principe du mod�le PCNNs:

PCNNs mod�le comprend les �tapes suivantes:

Les exp�riences montrent que, PCNNs + m�thode d'apprentissage multi-instance sur la moyenne des points de pourcentage Top N 5 m�thode simple plus d'utiliser un apprentissage multi-instance.

m�canismes d'attention et d'autres am�liorations

Le mod�le ci-dessus pour chaque entit� d'utiliser uniquement une phrase pour apprendre et pr�dire la perte d'une grande quantit� d'informations de l'autre phrase �tiquet�e correcte. Afin de filtrer le mauvais cas de l'�tiquette en m�me temps, l'utilisation plus efficace comme une grande partie de la phrase de l'�tiquetage correct, Lin et al. Proposition PCNNs + algorithme Attention (APCNNs) en 2016. PCNNs par rapport au mod�le pr�c�dent, l'algorithme apr�s la couche cellulaire, avant l'ajout d'un m�canisme d'attention de couche sur la base du niveau de la phrase, sch�ma de l'algorithme est la suivante:

m�canisme d'Attention en outre, il existe une autre information auxiliaire est �galement ajout� � l'extraction de relation de changement de qualit� mod�le d'apprentissage multi-instance, telles que l'ajout entit� d'information de description � une entit� de calcul vectoriel de temps (Ji et al, 2017); Nerve externe l'acc�s au r�seau � des donn�es et des informations sur le degr� de fiabilit� de la confiance des �chantillons de formation mod�le Guide (Tang et al., 2017).

La figure ci-dessous montre une comparaison entre la pr�cision et le taux de rappel de chaque mod�le et l'algorithme am�lior�, dans lequel la surveillance � distance Mintz fait pas mal le traitement des probl�mes d'�tiquette marqu�e directement avec tous les �chantillons pour la formation, MultiR et MIML est l'utilisation du d�pistage par exemple de mod�le graphique probabiliste deux exemplaires mod�le de multi-apprentissage; mod�le PCNN + MIL est d�crit dans la section pr�c�dente; APCNNs ajout�s m�canismes d'attention base PCNN + MIL; PCNNs + D en utilisant les informations de description ajout�e � base PCNN + MIL; APCNNs + D sur la base de APCNNs ajout�e l'utilisation des informations de description. Exp�rience sur le terrain que l'utilisation d'une �valuation plus approfondie ensemble de donn�es du New York Times (NYT) (Riedel et al., 2010).

Les progr�s dans les m�thodes d'apprentissage de la profondeur de la construction de carte

Application de mod�le d'apprentissage en profondeur dans les donn�es de carte Dieu connaissance du cheval est encore la construction au stade exploratoire, ce chapitre pr�sente quelques-uns des probl�mes actuels et des progr�s rencontr�s au cours des op�rations d'atterrissage.

pr�paration du corpus et des entit�s � quantifier

Une grande partie d�pend de la profondeur du mod�le d'apprentissage pour quantifier la pr�cision du jeton. m�thodes � base de corpus et scaphandrier pr�paration, o� le jeton par l'entit� de segmentation taille du sujet en unit�s de mots, au lieu des unit�s physiques, afin d'identifier le lien NER. Exhaustivit� et corpus �chelle vecteur Word2vec g�n�r� avec la possibilit� de caract�riser le corpus jeton sont li�s, nous choisissons corpus Encyclop�die en quantit� word2vec de donn�es de formation, chaque donn�e statistique et les param�tres du mod�le comme suit:

Afin de v�rifier l'effet de la formation des vecteurs terme, nous faisons une vari�t� de r�sultats des tests word2vec donn� quelques donn�es exp�rimentales ici. Il est indiqu� ci-dessous une entit� donn�e, de trouver les plus pertinentes entit�s exp�riences:

Ce qui suit est une entit� d'une entit� donn�e et une pr�diction d'une entit�, le calcul de l'entit� pr�vue dans une autre entit� de l'exp�rience. . Cinq relation de pr�diction s�lectionn�e au hasard, la configuration repr�sent�e sur la figure 15 pour un ensemble donn� de pr�vision des entit�s et entit�s, les r�sultats de pr�diction comme indiqu� ci-dessous, en plus de deux exemples roses, les autres ont �t� correctement pr�dit:

Mod�le de s�lection et de pr�paration des donn�es de formation

Des applications sp�cifiques que nous choisissons d'utiliser le mod�le APCNNs. NYT nous sur un ensemble de donn�es standard plusieurs mod�les reproduisent cl�s mentionn�s dans le chapitre pr�c�dent, y compris CNN + MIL, PCNN + MIL, CNNs (mod�le CNN bas� sur le m�canisme de l'attention) et APCNNs. r�sultats reproductibles avec le papier de base �tant donn� essentiellement les m�mes, la performance mod�le APCNNs est sup�rieure aux autres mod�les. La figure est appel�e quasi-comparaison des r�sultats de plusieurs mod�les:

Afin d'obtenir une multitude de donn�es de formation, nous prenons 15 relation de base dans la construction graphique de la connaissance est une personne relativement parfaite, l'emplacement, l'organisation, les films, la t�l�vision, des livres et d'autres domaines, tels que l'acteur du film, les auteurs du livre, les cadres, les gens lieu de naissance, la quantit� de commande corpus Encyclop�die, rapport de sortie est d�sign� par n un mode de r�alisation de la relation 15, le nombre total de l'exemple de l'ordre de dix millions, la valeur de sortie not�e sans rapport (valeur de rapport NA) plus de 1 million.

Application et essayer d'analyser le probl�me

APCNNs mod�le est construit sur la carte des connaissances donn�es auxiliaires est encore au stade d'essai. En termes de puissance de calcul, syst�me mod�le APCNNs par rapport avantage scaphandrier, il pourrait �galement �tre calcul� pour les relations multiples sur un grand corpus � grande �chelle, et le processus de mise � jour it�rative sans v�rification de l'interaction humaine. Mais dans le processus d'atterrissage d'affaires, nous avons �galement rencontr� quelques probl�mes, se r�sument comme suit:

exp�rience � grande �chelle prend trop de temps, et d'ajuster les param�tres de chaque it�ration de la strat�gie de l'algorithme plus difficile
corpus de test scolaire actuel de GM est en anglais New York Times ensemble de donn�es, lorsque le m�me mod�le est appliqu� au corpus chinois, il y a un taux normal quasi-disant des questions difficiles
processus d'apprentissage profondeur d'intervention manuelle difficile. Supposons que nous voulons pr�dire (Yang Mi, Liu Kaiwei) mariage, mais la premi�re g�n�ration de vecteur de mot a commenc� par corpus � grande �chelle, si (Yang Mi, Liu Kaiwei) relation coexistant entre le corpus dominant est pas un mariage, mais le drame TV le partenariat (comme � le film raconte Yang Mi jou� en �t� Atteindre les calculs amis souffert, son dilemme divorce petit ami, sauv� Playboy Qiaojin Fan Liu Kaiwei jou�, mais il a �t� jet� dans le pi�ge d'une histoire plus grande. �), relation bas�e sur la commune ou participer � certaines activit�s (telles que � Yang Mi et Hawick co-pr�sid�es un ambassadeur de charit� Sina Xiamen aiment la biblioth�que �), la relation entre le vecteur obtenu dans l'attention �tape aura tendance partenariat, ce qui se traduira par le paquet de calcul phrase que le poids de chaque phrase, l'expression relation conjugale est difficile d'obtenir des scores �lev�s, entra�nant la d�viation de l'�tude de suivi.
�tude approfondie des r�sultats du mod�le est difficile � examiner manuellement, en particulier pour l'entit� ne semble pas sur le graphe de connaissance dynamique, la n�cessit� d'une mise en correspondance et l'extraction au milieu d'une matrice de processus � grande �chelle, l'ensemble de la matrice de poids visualis� comme une note pour chaque phrase les ressources informatiques et la main-d'uvre ne sont pas une faible consommation.

R�sum� et perspectives

Le r�sum� et la comparaison suivante des quatre aspects de ces deux m�thodes bas�es scaphandrier et une m�thode bas�e sur la profondeur de l'apprentissage ont leurs propres avantages et inconv�nients:

1, et la plage de s�lection du corpus

Scaphandrier applicable aux plus petits, corpus plus sp�cialis�s, tels que la relation entre les personnages historiques de l'exploitation mini�re, les r�gles peuvent �tre adapt�es aux caract�ristiques de la relation entre corps et l'extraction, comme un � un ou un mariage des relations, comme le corpus partiel de la langue chinoise classique habitudes.
mod�le APCNNs convient corpus � grande �chelle, parce que la pr�misse du fonctionnement normal du m�canisme d'attention est l'entit� appris word2vec vecteur riche compl�te.

2, l'extraction de relation

Scaphandrier applique uniquement � une seule relation de jugement, la classification d'une entit� particuli�re en raison de l'�tablissement de relations entre les attentes. Pour des relations diff�rentes, des r�gles diff�rentes peuvent fonctionner, marqu� par l'�tiquetage fond� sur des r�gles peut mieux am�liorer la pr�cision de l'ensemble de la formation.
mod�le APCNNs pour probl�me multi-classification, la classification pour les points de collecte de relation de relation tri�es. Les op�rateurs ne ont pas besoin de se prononcer pour la relation d'un ensemble particulier de relations.

3, les donn�es � long tail

Scaphandrier plus appropri�e pour les donn�es mini�res relation longue queue, aussi longtemps qu'il peut identifier les entit�s Ner, m�me si la fr�quence d'apparition est faible, le jugement peut �tre caract�ris�e dans le contexte de l'entit�.
APCNNs besoin de mod�le pour veiller � ce que le nombre d'entit�s qui apparaissent dans le corpus au-dessus d'un certain seuil, comme min_count > = 5, afin de veiller � ce que l'entit� a word2vec repr�sentation vectorielle. sac dans un certain nombre de phrase, s�lectionner une grande similitude pour faciliter la formation des

4, et g�n�re un r�sultat de d�tection

d�termination erron�e scaphandrier d'une sortie positive que pour une seule phrase, la m�me entit� peut donner des r�sultats diff�rents pr�dit se produisent dans des phrases diff�rentes. Test n�cessite une combinaison de la peine initiale pour d�terminer si les r�sultats avec pr�cision, les avantages sont la peine initiale de base, afin de faciliter la v�rification manuelle.
APCNNs mod�le pour une entit� particuli�re pour rendre le jugement, la m�me sortie pour une entit� donn�e, syst�me. R�sultats pour la d�termination exactitude de nouvelles donn�es, n�cessite une combinaison d'un r�sultat interm�diaire du paquet ensemble de phrases s�lectionn�es sont extraites et valid�es, l'augmentation de l'inspection du travail des difficult�s.

Dans les travaux futurs, en fonction de scaphandrier pour la fa�on dont nous explorons tout en �largissant le nombre de relations, compte tenu des processus d'algorithme am�lior�, les pratiques commerciales de la plate-forme dans la pr�cipitation, ainsi que des informations suppl�mentaires pour construire l'outil auxiliaire pour aider � soulager scaphandrier g�n�rer des r�sultats travaux d'inspection manuelle processus de cartographie des connaissances �crites, par exemple, pour le mariage de l'entit�, nous pouvons obtenir le sexe du personnage, la date de naissance et d'autres informations de cartes, pour aider les relations positives erreur de jugement.

Pour la m�thode bas�e sur la profondeur de l'apprentissage, nous allons investir plus de temps et d'efforts � essayer d'am�liorer et de promouvoir l'atterrissage du mod�le d'affaires des aspects suivants:

Il aurait �t� appliqu� scaphandrier av�r� efficace pour certaines m�thodes am�lior�es d'apprentissage en profondeur de l'algorithme, telles que le filtrage bas� sur des mots cl�s li�s aux relations, r�duire la taille des donn�es, am�liorer l'efficacit� op�rationnelle.
Le r�sultat du calcul interm�diaire de la visualisation, l'analyse de la corr�lation de la relation attention de vecteur au cours de la phrase choisie, tente d'�tablir un m�canisme pour s�lectionner les r�sultats du jugement de la qualit�, avec une tentative plus vaste pour obtenir des informations plus pr�cises sur la relation entre le vecteur.
Consid�rez comment sortir d'un ensemble de relation pr�d�termin�e, l'extraction de la relation pour les zones ouvertes, d�couvrir automatiquement de nouvelles relations et connaissances.
En plus d'explorer la relation entre les donn�es textuelles extraites sous d'autres formes, telles que les tables, audio, images et autres.

r�f�rences

. Linyan Kai, Liu Zhi, l'extraction de relation bas� sur une �tude approfondie

. Daojian Zeng, Liu Kang, Chen Yubo, et Zhao. 2015. Supervision Distant pour des relations d'extraction via juin par morceaux convolutifs Neural Networks.. En EMNLP 1753-1762.

. Guoliang Ji, Liu Kang, Shizhu He, Jun Zhao. 2017. Distant Supervision pour l'extraction Relation avec la peine de niveau Description de l'attention et l'entit�. Compte rendu de la trente et uni�me Conf�rence AAAI sur l'intelligence artificielle

. Siliang Tang, Zhang Jinjian, Ning Zhang, Fei Wu, Jun Xiao, Yueting Zhuang 2017. :. contraintes ext�rieures ENCORE Neural r�gularis�es Supervision Distant pour Relation Extraction SIGIR'17.

Zeng, D,.. Liu, K;. Chen, Y;. Et Zhao, J. 2015. supervision loin pour l'extraction de relation via les r�seaux de neurones par morceaux de convolution EMNLP..

Riedel, S,.. Yao, L;. et McCallum, A. 2010. relations de mod�lisation et leurs mentions sans texte intitul� Dans l'apprentissage machine et d�couverte des connaissances dans les bases de donn�es Springer 148-163....

Ce Zhang 2015. scaphandrier: ... Un syst�me de gestion des donn�es pour th�se de doctorat Base de connaissances Construction automatique.

Hoffmann, R;.. Zhang, C;. Ling, X;. Zettlemoyer, L;. Et Weld, DS 2011. supervision faible de la connaissance pour l'extraction de l'information de relations qui se chevauchent dans Proceedings of the 49e r�union annuelle de. l'Association de linguistique informatique: technologies du langage humain-Volume 1, 541-550 Association for Computational Linguistics ..

Surdeanu, M;.. Tibshirani, J;. Nallapati, R;. Et Manning, CD 2012. multi-instance apprentissage multi-label pour l'extraction de relation Dans Actes de la Conf�rence conjointe 2012 sur les m�thodes empiriques dans le traitement du langage naturel. et informatique d'apprentissage du langage naturel, 455-465. Association de linguistique informatique.

. Shingo Takamatsu, Issei Sato et Hiroshi Nakagawa. 2012. La r�duction des �tiquettes erron�es en mati�re de surveillance Distant pour Relation Extraction. Actes de la 50e assembl�e annuelle de l'Association pour la linguistique informatique, pages 721-729

Zeng, D,.. Liu, K;. Lai, S;. Zhou, G;. Zhao, J;... Et al classification de Relation via 2014. r�seau neuronal convolutif de profondeur dans COLING, 2335-2344.

. Ce zhang, Cheistopher Re ;. Et al 2017. Communications de l'ACM CACM Page d'accueil archives

Volume 60 N � 5, pages 93-102

Mintz, M,.. Bills, S;. Neige, R,.. Et Jurafsky, D. 2009. supervision Distant pour l'extraction de donn�es sans relation marqu�es dans Actes de la Conf�rence conjointe de la 47e r�union annuelle de l'ACL et la 4�me Conf�rence internationale conjointe sur le traitement du langage naturel du AFNLP :. Volume 2, 1003-1011 Association de linguistique informatique.

. Http://deepdive.stanford.edu/

Route de la soie

Apprenez � conna�tre la Chine

public � l'�pargne! L'application est construite sur les cartes de connaissances d'apprentissage en profondeur

mod�le d'apprentissage profondeur introduit

Les progr�s dans les m�thodes d'apprentissage de la profondeur de la construction de carte

R�sum� et perspectives

r�f�rences