ACL2017 | Universit� de Columbia: soci�t� entit� centr�e sur la m�thode de g�n�ration de description

ACL 2017 Court Papers

Entit� centr�e Proc�d� de g�n�ration de gestion d�crit

Une approche ax� sur l'entit� de g�n�rer des descriptions Soci�t�

Universit� de Columbia

R�sum� recherche d'entreprises �mergentes, la description de haute qualit�, comme d�crit dans l'article de Wikipedia, peut �tre difficile sur le Web: les moteurs de recherche afficher de nombreuses pages ont diff�rentes pertinence et multi-documents digest algorithme difficile de distinguer entre les faits de base et d'autres informations tels que les rapports d'information. Dans cet article, nous proposons une m�thode pour g�n�rer une entit� centr�e sur hybride et peut g�n�rer automatiquement pas vu pr�c�demment la description de l'entreprise, et de montrer une forte par rapport � la r�f�rence algorithme de hachage avantage.

1 introduction

Avec la formation et la croissance des entreprises �mergentes, les investisseurs potentiels, les services d'achat, et des partenaires commerciaux dans une perspective � 360 degr�s pour les d�crire, il est tr�s important. Un tr�s grand nombre d'entreprises du monde entier, mais la plupart des entreprises n'ont pas beaucoup d'informations sur Wikipedia (Wikipedia) Autres documents. Habituellement, seules les statistiques de la soci�t� (telles que la classification de l'industrie, la position, la taille, etc.) sont disponibles. Cela n�cessite r�sum� peut syst�me cognitif, ainsi que des nouvelles, des informations sur les r�seaux de bases de donn�es et de filtrage et d'autres sources. La soci�t� fournit une description du langage naturel de haute qualit�, ce qui permet un acc�s plus facile aux donn�es, par exemple dans le cas des alertes ou texte aux applications de technologie vocale.

Dans cet article, nous pr�sentons un syst�me centr� sur l'entit�, l'utilisation de la publicit� cibl�e (ax�s sur la connaissance) et une combinaison de g�n�ration ax�e sur les donn�es pour cr�er une description de style Wikipedia Description de l'entreprise. Syst�me g�n�rateur de phrase est d�crit pour une entreprise donn�e de triplets RDF (par exemple, triples et Freebase DBPedia trouv�e), et les phrases et les phrases d'apprentissage r�seau de correspondance d'expression relationnelle ensemble. Nous avons �valu� notre m�thode hybride, et comparer avec la seule approche fond�e sur les objectifs et bas�e uniquement sur l'approche ax�e sur les donn�es et un objectif de r�f�rence puissant r�sum� multi-documents. Nos r�sultats montrent que l'approche hybride devrait �tre beaucoup mieux que les m�thodes individuelles et des performances de base.

Description de la soci�t� cible (TD) en utilisant la m�thode d�crite Wikipedia comme un mod�le g�n�ratif. Il est d'apprendre � mettre en uvre l'entreprise comme le th�me de la relation entre RDF: Chaque relation contient une soci�t� / entit�, qui est ax�e sur le contenu et la pr�sentation de la soci�t� d�crite. Pour chaque soci�t� / entit�, le syst�me trouve l'expression de toutes les fa�ons soci�t�s / entit�s similaires dans d'autres soci�t�s d�crites dans Wikipedia, la phrase qui exprime la m�me relation entreprise / entit� regroupement ensemble. Il est g�n�r� pour chaque classe dans les phrases de mod�le, au lieu des soci�t�s mentionn�es entit�s par type et des rainures, et g�n�re une nouvelle description dans l'expression donn�e par les entreprises et les entit�s. Toutes les phrases possibles sont g�n�r�es � partir du regroupement de mod�le, la peine est tri�e, et s�lectionne la meilleure phrase pour chaque relation pour g�n�rer une finale d�crite. Par cons�quent, la m�thode descendante TD est une m�thode couramment utilis�e par l'utilisation de la relation dans la soci�t� Wikipedia phrase de donn�es RDF.

En revanche, une m�thode pilote de donn�es (DD) pour la m�thode semi-supervis�e description en ligne entreprise donn�e pour s�lectionner une phrase. Comme m�thode TD, il graine entr�e DBPedia a �galement commenc� � des relations de quelques entreprises qui apparaissent dans l'ensemble, il appara�t dans la soci�t� / entit� dans la forme, mais pas voir l'article de Wikipedia correspondant, mais d'apprendre couramment utilis� pour l'expression sur le Web relation. Dans ce processus, il utilise bootstrapping (Agichtein et Gravano, 2000) pour apprendre chaque entreprise / Une expression de nouveau mod�le de relation d'entit� M�thode correspondant � l'expression, et l'apprentissage alternatif et appris une nouvelle paire assortie. Depuis processus de bootstrapping est entra�n� que par les soci�t�s / entit�s et le mode vocabulaire, il est donc possible pour chacun d'en apprendre davantage et apprendre de nouvelles expressions de chaque relation qui peut exister. Par cons�quent, cette m�thode permet une donn�es de description de l'entreprise sur le r�seau dans une approche ascendante peut �tre de d�terminer le profil d'expression de ces relations et les relations. Ensuite, utilisez un mod�le � partir de l'Internet pour en apprendre davantage sur la phrase choisie pour correspondre � la soci�t� cible.

Travaux connexes

TD m�thode appartient au paradigme de pipeline de g�n�ration (Reiter et Dale, 1997), la s�lection du contenu d�pend de la relation de la soci�t� entr�e DBpedia, et micro-planification et la mise en uvre par la g�n�ration de mod�le. Alors que certains syst�me de production, en particulier au d�but, en utilisant la syntaxe complexe � r�aliser (Matthiessen et Bateman, 1991; Elhadad, 1991; Blanc, 2014), au cours des derni�res ann�es, bas� sur la g�n�ration de mod�le a montr� des signes de reprise. Dans certains cas, l'auteur met l'accent sur le document de planification, et les peines de terrain suffisant stylis� pour repr�senter le mod�le (Elhadad et McKeown, 2001; Bouayad-Agha et al, 2011;. Gkatzia et al, 2014;. Biran et McKeown, 2015 ). Dans d'autres cas, l'enregistrement de base de donn�es est align� avec les fragments de texte, et en extrait des champs sp�cifiques pour former un mod�le d'apprentissage du mod�le a fait ses preuves pour r�ussir la g�n�ration de diff�rents domaines (Angeli et 2010; Kondadadi et al, 2013.). D'autres, comme nous, les �v�nements atomiques (comme la date de naissance, profession) comme cible inclus dans la biographie (Filatov et Prager, 2005), mais le mod�le utilis� dans d'autres travaux sont cod�s � la main.

Phrase est �galement utilis� pour s�lectionner des questions et r�ponses et de v�rifier pour le centre du profil. Certaines m�thodes mettent l'accent sur le choix des phrases pertinentes, les m�thodes probabilistes (Daume III et Marcu, 2005, Conroy et al, 2006), l'apprentissage semi-supervis� (Wang et al, 2011.) et les m�thodes bas�es sur le graphique (Erkan et Radev, 2004; Otterbacher et al., 2005). D'autres encore utilisent une langue mixte centr�e et l'approche ax�e sur les donn�es pour compl�ter un syst�me pur de s�lection de phrase (Blair-Goldensohn et al, 2003 ;. Weischedel et al, 2004; .. Schiffman et al, 2001). Dans notre approche, nous nous sommes concentr�s sur la pertinence et la diversit� d'expression, tir�e par la soci�t� s�lection correspondant / phrases d'entit� pour la g�n�ration de contenu, et induire une vari�t� d'expressions. �galement utilis� pour s�lectionner une phrase (Sauper et Barzilay, 2009) dans une pr�c�dente g�n�ration Wikip�dia article travail d'ensemble. Ils se concentrent davantage sur des domaines sp�cifiques de la structure aper�u du mod�le de sujet d'apprentissage, ce mod�le est beaucoup plus longue que le texte que nous g�n�rons.

3 g�n�ration cible

Et leur utilisation pour d�velopper un ensemble d'articles de Wikipedia et les entr�es mod�le de formulaire DBPedia l'ensemble du syst�me TD par les 100 soci�t�s du S & P500. Pour chaque entreprise relation de RDF avec le th�me, qui identifie l'article contient toutes les phrases dans la relation de l'entit�. Remplacez ensuite des entit�s sp�cifiques � leurs relations pour cr�er un mod�le. Par exemple, � Microsoft a �t� fond�e par Bill Gates et Paul Allen � est converti en � company a �t� fond� par founder �, la relation entre l'entit� connect�e dans une fente. Cr�� un certain nombre de mod�les possibles, certains mod�les contiennent de multiples relations (par exemple, company, situ� dans location, a �t� fond� par founder). De cette fa�on, les apprend syst�me comment les articles Wikip�dia expriment la relation entre l'entreprise et ses entit�s cl�s (fondateurs, si�ge, produits, etc.).

Lors de la g�n�ration, nous utilisons les entr�es RDF � partir des informations de la soci�t� cible remplir le mod�le fente correspondante. rainure d'insertion relation de connexion rempli par une pluralit� d'entit�s. Poursuivant notre exemple, nous pourrions g�n�rer pour la soci�t� cible Palantir phrase "Palantir a �t� fond�e par Peter Thiel, Alex Karp, Joe Lonsdale, Stephen Cohen, et Nathan Gettings". Les r�sultats pr�liminaires montrent que cette m�thode ne suffit pas, les donn�es de l'entreprise cible manquent souvent certaines des entit�s doivent remplir le mod�le. Sans ces entit�s, nous ne pouvons pas g�n�rer cette phrase. Parce que des phrases de Wikipedia ont tendance � avoir de multiples relations (haute densit� d'information) et contient donc un certain nombre de faits importants et pertinents les peines soient abandonn�es, en raison de sa r�f�rence au fait que moins, mais nous ne disposons pas de donn�es � remplacer. Par cons�quent, nous avons ajout� une �tape de post-traitement dans la mesure du possible, �liminer toute expression dans une phrase ne peut pas �tre remplie, sinon, la peine est mis au rebut.

Ce processus produit de nombreuses relations possibles pour chaque phrase, nous voulons choisir la meilleure phrase. Nous regroupons des phrases engendr�es par la nouvelle relation, et chaque phrases de cluster, selon la quantit� d'informations qu'ils contenaient la soci�t� cible (le nombre est remplac� par une relation) de marquer. Les phrases courtes sont �galement pond�r�es plus, car ils sont moins susceptibles de contenir des informations non li�es, et ayant un score de peine plus bas apr�s le traitement. Le score le plus �lev� chaque type de relation de phrase est ajout�e � la description, parce que ces phrases est le plus instructif, pertinent et le plus probable est grammaticalement correct.

4 Le pilote de donn�es g�n�re

DD La m�thode d'utilisation de la peine acquise � partir du Web � g�n�rons d�crit. Comme la m�me mani�re que TD, a atteint son objectif est de g�n�rer des relations d'investissement entre les phrases de l'entreprise et d'autres entit�s. Il utilise la m�thode d'amor�age (Agichtein et Gravano, 2000) pour �tudier la relation entre le mode d'expression. Il est le d�but d'une collection de la soci�t� / entit� pour les semences, repr�sentent un petit sous-ensemble de la relation souhait�e, mais contrairement aux m�thodes pr�c�dentes, ce qui peut cr�er des relations suppl�mentaires.

Mode en lisant un texte � partir du r�seau et l'extraction des graines contenues dans la collection de phrases g�n�r�es. Cette entit� est remplac�e par un type d'entit� d'espace r�serv� repr�sent� des �tiquettes autour d'eux et constituent le mode de mot (un mot et le mot �tiquettes entre les c�t�s gauche et droit de l'�tiquette). Ainsi, chaque mod�le est sous la forme de � LT1MT2R �, o� L, M et R sont l'entit� de mots � gauche, centre et droite. T1 est le premier type d'entit�, T2 est le deuxi�me type d'entit�. Comme algorithme TD, car il est essentiellement une approche bas�e sur un mod�le, mais dans ce cas, le mod�le ne correspond pas � la relation entre l'entreprise et entit�s, seuls types d'entit�s (personnes, lieux, organisations, etc.) �tiquet�e capture.

Pour g�n�rer une nouvelle entit� � travers le mode d'apprentissage et le texte Web pour correspondre. Si une phrase ayant le m�me type d'entit�, et son L, mot anglais M et R et la mise en correspondance de motif correspondant flou, le match est consid�r� comme un mod�le de phrase. Par cons�quent, ces entit�s sont consid�r�es comme pertinentes, car elles sont l'expression de la graine de m�me. Et les m�thodes de TD, la relation r�elle entre les entit�s ne sont pas connus (car les seules donn�es que nous utilisons le texte Web, plut�t que des donn�es de RDF structur�). Nous devons savoir qu'il ya une relation.

Nous le mode d'apprentissage alternatif, et g�n�re un ensemble d'entit�s dans le d�veloppement de notre entreprise de 100. Ensuite, nous prenons tout le mode d'apprentissage, la soci�t� cible dans chaque entreprise de trouver les phrases correspondant � Bing R�sultats de la recherche. phrases s�lectionn�es correspondent � tout motif correspondant au num�ro d'arrangement de presse (plus des relations plus solides moyens d'adaptation), puis ajouter la description.

4.1 la taille et le tri

Apr�s avoir s�lectionn� une phrase pour d�crire, nous avons mis en place une redondance pour �liminer le bruit et les �tapes de post-traitement. Afin de r�soudre le probl�me de redondance, nous utilisons exactement le m�me libell� pour supprimer ceux qui sont d�crits dans la phrase pr�c�dente de transmettre. Par cons�quent, supprimer ou �gal � d'autres peines peines de clause. Nous avons �galement supprim� la phrase de rapports de nouvelles, l'analyse de nos r�sultats dans le d�veloppement de spectacle ensemble, les bulletins de nouvelles contiennent rarement des informations relatives � la description Wikip�dia typique. Pour ce faire, nous utilisons des expressions r�guli�res pour le mode capture de fil de presse commun (par exemple, ). Enfin, nous supprimons le � ... � la fin d'une phrase incompl�te, ces phrases apparaissent parfois sur le site lui-m�me contient un r�sum�.

Comment peut-on s�lectionner une phrase en fonction des soci�t�s cot�es de les trier. Au d�but du nom de la soci�t� de phrase sur le score � partir de 25 ans, le nom de l'entreprise � une peine en partie commence par d�but 15 minutes, et la sentence ne comprend pas le nom de l'entreprise commence � -15 (nom de la soci�t� si elles contiennent entre eux de z�ro). Puis, avec 10 minutes de chaque marque de mots cl�s dans une phrase (mot-cl� du corps principal est le choix le plus peupl� DBPedia soci�t� sous-jacente). L'algorithme de notation a �t� ajust� sur l'ensemble du d�veloppement. Les points finals de sortie dispos�s en ordre d�croissant.

5 Syst�me de Fusion

En plus de ces deux m�thodes, nous avons produit la sortie mixte de la combinaison des deux. Dans cette m�thode, nous partons de la sortie DD, si (coup�) elle est inf�rieure � trois phrases, nous ajoutons la sortie TD et r�organis�s.

Le proc�d� de m�lange compl�te sensiblement plus grande, la sortie bruyante DD contenu des pages Web, qui a une petite, de haute qualit�, mais la production moins diversifi�e TD. Pour pas un consommateur ou une entreprise relativement nouvelle, notre population cible est relativement faible, ce qui pourrait avoir une description d'impact significatif.

exp�rience 6

Afin d'�valuer notre m�thode, nous avons compar� les trois versions produites par TD, sortie DD par le proc�d� de m�lange et r�sum� multi-documents TextRank (Mihalcea et Tarau, 2004) produit (les m�mes r�sultats de nos m�thodes de DD utilis�es) . Pour chaque m�thode et la r�f�rence, nous sommes tous indice S & P500 a termin� la soci�t� en Janvier g�n�ration 2016 est d�crite. Nous avons utilis� la base de l'�valuation du 400 reste ajust� le d�veloppement de 100 mis �.

Nous avons effectu� deux types d'exp�riences. La premi�re est l'�valuation automatis�e, nous utilisons le score METEOR (Lavie et Agarwal, 2007) pour d�crire la premi�re partie de l'article de Wikipedia sur nos m�thodes de r�f�rence. Les articles de Wikipedia, la premi�re partie est habituellement les informations les plus importantes concernant l'introduction ou un aper�u de l'entreprise. METEOR degr� fraction de chevauchement entre les descriptions de contenu de capture et Wikip�dia g�n�r� texte. Pour �viter les biais de diff�rentes tailles de caract�res, nous avons mis la m�me taille dans toutes la comparaison des limites d�crites. Nous avons essay� trois param�tres: 150 mots, 500 mots, sans limite de taille.

De plus, nous avons �valu� crowdsourcing sur la plate-forme Crowdflower. Dans cette �valuation, nous donnons un annotateur humain fournit deux descriptions, on est notre approche, et l'autre est la ligne de base, est al�atoire. Notes a ensuite demand� de choisir lequel est la description de la meilleure vue d'ensemble de l'entreprise (ils sont fournis aux liens de la soci�t� � la page Wikipedia pour r�f�rence), et chaque description score donn� 1-5. Pour assurer la qualit�, chaque paire d�crit par trois membres du processus d'�tiquetage, et nous n'inclus dans tous les cas conformes � trois �tiquettes des r�sultats. Ceux-ci ont repr�sent� 44%. Dans cette �valuation, nous utilisons une version hybride, nous limitons la longueur de la ligne de base et la sortie est de 150 mots, afin de r�duire le biais caus� par des diff�rences dans la longueur et maintenir une description assez courte de commentateurs.

Tableau 1: R�sultats du premier METEOR diverses limite de taille inf�rieure score moyen

Tableau 2 Les r�sultats du deuxi�me exp�rience: m�thode annotateurs humaine de s�lection pourcentage optimal des entreprises et donner un score moyen

7 r�sultats

R�sultats d'�valuation automatique pr�sent�s dans le tableau 1. Notre syst�me DD dans toutes les variations de taille que TextRank METEOR score initial plus �lev�, et TD pire elle-m�me dans la plupart des cas. Dans tous les cas, elle-m�me approche int�gr�e pour de meilleurs r�sultats que le syst�me DD.

Le tableau 2 montre le r�sultat de l'�valuation humaine. Voici les avantages de notre approche devient plus �vidente: Nous battons �videmment la ligne de base, si elle est marqu�e de choisir notre meilleure sortie de fr�quence (pr�s de 75% du temps) ou nous d�crire donner un score moyen (3,81 � 15 minutes syst�me).

Tous les r�sultats sont statistiquement significatifs, mais la diff�rence est le r�sultat de deux exp�riences en chiffres sont renversants: Nous croyons que si les extraits sommaires TextRank associ�s � des phrases partielles, gagnant ainsi pr�s de nous en termes de METEOR les r�sultats pr�sent�s ici m�thode mise au point peuvent �tre extraits pour les �tres humains, il semble �tre plus raisonnable qu'une description g�n�rale du contenu. 1 montre un exemple de la Fig.

D�s le d�but, nous voyons que notre syst�me est meilleur que TextRank. Notre soci�t� a introduit la premi�re phrase, et fournit une histoire critique et TextRank n'a m�me pas lui donner un nom. m�thode hybride pour la structure de production de sortie est plus structur�, de ses origines � la soci�t� issue de la fusion, au conseil d'administration, et enfin le produit. En revanche, TextRank accent de sortie sur l'exp�rience des employ�s, mais � la fin que des produits mentionn�s. Notre syst�me est plus adapt� pour les personnes ignorant leur br�ve description.

La figure 1 Activision Blizzard description information

8. Conclusions

Nous d�crivons deux fa�ons de d�crire la soci�t� de production et une approche hybride. Nous montrons que notre production est terrassant le favori du lecteur, et avec l'introduction Wikip�dia similaire, mais pas le plus algorithme digest sortie avanc�e.

Ces approches compl�mentaires ont leurs avantages et leurs inconv�nients: la m�thode TD assure cette expression typique de description Wikip�dia de la soci�t�, connue comme une expression typique firme de relations de base appara�t dans la sortie g�n�r�e. Cependant, comme il les modifiera, il produira contenir des informations d'une autre soci�t� ou des phrases agrammaticales peine. Ce dernier peut se produire parce que la phrase originale avec un lien unique. Par exemple, les fragments de phrase suivant Wikip�dia � Microsoft est le plus grand fabricant de logiciels du monde par les recettes � est la soci�t� de renseignements utiles, mais notre syst�me ne peut pas correctement modifi� pour accueillir toute autre soci�t�.

En revanche, en s�lectionnant une phrase pour une entreprise donn�e de l'Internet, les m�thodes DD pour assurer que le r�sultat est � la fois la description grammaticalement correcte est �galement pertinente. Cela a �galement conduit � de plus en plus d'expression sous la forme de phrases. Cependant, il peut contenir une vari�t� de faits non essentiels trouv�s dans diff�rents sites. Ainsi, la m�thode hybride de meilleurs r�sultats que seul, il est pas surprenant.

Bien que dans cet article, nous nous concentrons sur la description de la g�n�ration de l'entreprise, le syst�me peut mettre � jour l'ensemble des donn�es de semences par deux m�thodes (pour tenir compte des faits dans la description n�cessaire), pour g�n�rer d'autres entit�s (personnes, produits) description, et r�gler � nouveau la plus grande pr�cision.

Papier Lien de t�l�chargement:

Route de la soie

Apprenez � conna�tre la Chine

ACL2017 | Universit� de Columbia: soci�t� entit� centr�e sur la m�thode de g�n�ration de description