ACL2017 | Université de Columbia: société entité centrée sur la méthode de génération de description

ACL 2017 Court Papers

Entité centrée Procédé de génération de gestion décrit

Une approche axé sur l'entité de générer des descriptions Société

Université de Columbia

Université de Columbia

Résumé recherche d'entreprises émergentes, la description de haute qualité, comme décrit dans l'article de Wikipedia, peut être difficile sur le Web: les moteurs de recherche afficher de nombreuses pages ont différentes pertinence et multi-documents digest algorithme difficile de distinguer entre les faits de base et d'autres informations tels que les rapports d'information. Dans cet article, nous proposons une méthode pour générer une entité centrée sur hybride et peut générer automatiquement pas vu précédemment la description de l'entreprise, et de montrer une forte par rapport à la référence algorithme de hachage avantage.

1 introduction

Avec la formation et la croissance des entreprises émergentes, les investisseurs potentiels, les services d'achat, et des partenaires commerciaux dans une perspective à 360 degrés pour les décrire, il est très important. Un très grand nombre d'entreprises du monde entier, mais la plupart des entreprises n'ont pas beaucoup d'informations sur Wikipedia (Wikipedia) Autres documents. Habituellement, seules les statistiques de la société (telles que la classification de l'industrie, la position, la taille, etc.) sont disponibles. Cela nécessite résumé peut système cognitif, ainsi que des nouvelles, des informations sur les réseaux de bases de données et de filtrage et d'autres sources. La société fournit une description du langage naturel de haute qualité, ce qui permet un accès plus facile aux données, par exemple dans le cas des alertes ou texte aux applications de technologie vocale.

Dans cet article, nous présentons un système centré sur l'entité, l'utilisation de la publicité ciblée (axés sur la connaissance) et une combinaison de génération axée sur les données pour créer une description de style Wikipedia Description de l'entreprise. Système générateur de phrase est décrit pour une entreprise donnée de triplets RDF (par exemple, triples et Freebase DBPedia trouvée), et les phrases et les phrases d'apprentissage réseau de correspondance d'expression relationnelle ensemble. Nous avons évalué notre méthode hybride, et comparer avec la seule approche fondée sur les objectifs et basée uniquement sur l'approche axée sur les données et un objectif de référence puissant résumé multi-documents. Nos résultats montrent que l'approche hybride devrait être beaucoup mieux que les méthodes individuelles et des performances de base.

Description de la société cible (TD) en utilisant la méthode décrite Wikipedia comme un modèle génératif. Il est d'apprendre à mettre en uvre l'entreprise comme le thème de la relation entre RDF: Chaque relation contient une société / entité, qui est axée sur le contenu et la présentation de la société décrite. Pour chaque société / entité, le système trouve l'expression de toutes les façons sociétés / entités similaires dans d'autres sociétés décrites dans Wikipedia, la phrase qui exprime la même relation entreprise / entité regroupement ensemble. Il est généré pour chaque classe dans les phrases de modèle, au lieu des sociétés mentionnées entités par type et des rainures, et génère une nouvelle description dans l'expression donnée par les entreprises et les entités. Toutes les phrases possibles sont générées à partir du regroupement de modèle, la peine est triée, et sélectionne la meilleure phrase pour chaque relation pour générer une finale décrite. Par conséquent, la méthode descendante TD est une méthode couramment utilisée par l'utilisation de la relation dans la société Wikipedia phrase de données RDF.

En revanche, une méthode pilote de données (DD) pour la méthode semi-supervisée description en ligne entreprise donnée pour sélectionner une phrase. Comme méthode TD, il graine entrée DBPedia a également commencé à des relations de quelques entreprises qui apparaissent dans l'ensemble, il apparaît dans la société / entité dans la forme, mais pas voir l'article de Wikipedia correspondant, mais d'apprendre couramment utilisé pour l'expression sur le Web relation. Dans ce processus, il utilise bootstrapping (Agichtein et Gravano, 2000) pour apprendre chaque entreprise / Une expression de nouveau modèle de relation d'entité Méthode correspondant à l'expression, et l'apprentissage alternatif et appris une nouvelle paire assortie. Depuis processus de bootstrapping est entraîné que par les sociétés / entités et le mode vocabulaire, il est donc possible pour chacun d'en apprendre davantage et apprendre de nouvelles expressions de chaque relation qui peut exister. Par conséquent, cette méthode permet une données de description de l'entreprise sur le réseau dans une approche ascendante peut être de déterminer le profil d'expression de ces relations et les relations. Ensuite, utilisez un modèle à partir de l'Internet pour en apprendre davantage sur la phrase choisie pour correspondre à la société cible.

Travaux connexes

TD méthode appartient au paradigme de pipeline de génération (Reiter et Dale, 1997), la sélection du contenu dépend de la relation de la société entrée DBpedia, et micro-planification et la mise en uvre par la génération de modèle. Alors que certains système de production, en particulier au début, en utilisant la syntaxe complexe à réaliser (Matthiessen et Bateman, 1991; Elhadad, 1991; Blanc, 2014), au cours des dernières années, basé sur la génération de modèle a montré des signes de reprise. Dans certains cas, l'auteur met l'accent sur le document de planification, et les peines de terrain suffisant stylisé pour représenter le modèle (Elhadad et McKeown, 2001; Bouayad-Agha et al, 2011;. Gkatzia et al, 2014;. Biran et McKeown, 2015 ). Dans d'autres cas, l'enregistrement de base de données est aligné avec les fragments de texte, et en extrait des champs spécifiques pour former un modèle d'apprentissage du modèle a fait ses preuves pour réussir la génération de différents domaines (Angeli et 2010; Kondadadi et al, 2013.). D'autres, comme nous, les événements atomiques (comme la date de naissance, profession) comme cible inclus dans la biographie (Filatov et Prager, 2005), mais le modèle utilisé dans d'autres travaux sont codés à la main.

Phrase est également utilisé pour sélectionner des questions et réponses et de vérifier pour le centre du profil. Certaines méthodes mettent l'accent sur le choix des phrases pertinentes, les méthodes probabilistes (Daume III et Marcu, 2005, Conroy et al, 2006), l'apprentissage semi-supervisé (Wang et al, 2011.) et les méthodes basées sur le graphique (Erkan et Radev, 2004; Otterbacher et al., 2005). D'autres encore utilisent une langue mixte centrée et l'approche axée sur les données pour compléter un système pur de sélection de phrase (Blair-Goldensohn et al, 2003 ;. Weischedel et al, 2004; .. Schiffman et al, 2001). Dans notre approche, nous nous sommes concentrés sur la pertinence et la diversité d'expression, tirée par la société sélection correspondant / phrases d'entité pour la génération de contenu, et induire une variété d'expressions. Également utilisé pour sélectionner une phrase (Sauper et Barzilay, 2009) dans une précédente génération Wikipédia article travail d'ensemble. Ils se concentrent davantage sur des domaines spécifiques de la structure aperçu du modèle de sujet d'apprentissage, ce modèle est beaucoup plus longue que le texte que nous générons.

3 génération cible

Et leur utilisation pour développer un ensemble d'articles de Wikipedia et les entrées modèle de formulaire DBPedia l'ensemble du système TD par les 100 sociétés du S & P500. Pour chaque entreprise relation de RDF avec le thème, qui identifie l'article contient toutes les phrases dans la relation de l'entité. Remplacez ensuite des entités spécifiques à leurs relations pour créer un modèle. Par exemple, « Microsoft a été fondée par Bill Gates et Paul Allen » est converti en « company a été fondé par founder », la relation entre l'entité connectée dans une fente. Créé un certain nombre de modèles possibles, certains modèles contiennent de multiples relations (par exemple, company, situé dans location, a été fondé par founder). De cette façon, les apprend système comment les articles Wikipédia expriment la relation entre l'entreprise et ses entités clés (fondateurs, siège, produits, etc.).

Lors de la génération, nous utilisons les entrées RDF à partir des informations de la société cible remplir le modèle fente correspondante. rainure d'insertion relation de connexion rempli par une pluralité d'entités. Poursuivant notre exemple, nous pourrions générer pour la société cible Palantir phrase "Palantir a été fondée par Peter Thiel, Alex Karp, Joe Lonsdale, Stephen Cohen, et Nathan Gettings". Les résultats préliminaires montrent que cette méthode ne suffit pas, les données de l'entreprise cible manquent souvent certaines des entités doivent remplir le modèle. Sans ces entités, nous ne pouvons pas générer cette phrase. Parce que des phrases de Wikipedia ont tendance à avoir de multiples relations (haute densité d'information) et contient donc un certain nombre de faits importants et pertinents les peines soient abandonnées, en raison de sa référence au fait que moins, mais nous ne disposons pas de données à remplacer. Par conséquent, nous avons ajouté une étape de post-traitement dans la mesure du possible, éliminer toute expression dans une phrase ne peut pas être remplie, sinon, la peine est mis au rebut.

Ce processus produit de nombreuses relations possibles pour chaque phrase, nous voulons choisir la meilleure phrase. Nous regroupons des phrases engendrées par la nouvelle relation, et chaque phrases de cluster, selon la quantité d'informations qu'ils contenaient la société cible (le nombre est remplacé par une relation) de marquer. Les phrases courtes sont également pondérées plus, car ils sont moins susceptibles de contenir des informations non liées, et ayant un score de peine plus bas après le traitement. Le score le plus élevé chaque type de relation de phrase est ajoutée à la description, parce que ces phrases est le plus instructif, pertinent et le plus probable est grammaticalement correct.

4 Le pilote de données génère

DD La méthode d'utilisation de la peine acquise à partir du Web à générons décrit. Comme la même manière que TD, a atteint son objectif est de générer des relations d'investissement entre les phrases de l'entreprise et d'autres entités. Il utilise la méthode d'amorçage (Agichtein et Gravano, 2000) pour étudier la relation entre le mode d'expression. Il est le début d'une collection de la société / entité pour les semences, représentent un petit sous-ensemble de la relation souhaitée, mais contrairement aux méthodes précédentes, ce qui peut créer des relations supplémentaires.

Mode en lisant un texte à partir du réseau et l'extraction des graines contenues dans la collection de phrases générées. Cette entité est remplacée par un type d'entité d'espace réservé représenté des étiquettes autour d'eux et constituent le mode de mot (un mot et le mot étiquettes entre les côtés gauche et droit de l'étiquette). Ainsi, chaque modèle est sous la forme de « LT1MT2R », où L, M et R sont l'entité de mots à gauche, centre et droite. T1 est le premier type d'entité, T2 est le deuxième type d'entité. Comme algorithme TD, car il est essentiellement une approche basée sur un modèle, mais dans ce cas, le modèle ne correspond pas à la relation entre l'entreprise et entités, seuls types d'entités (personnes, lieux, organisations, etc.) étiquetée capture.

Pour générer une nouvelle entité à travers le mode d'apprentissage et le texte Web pour correspondre. Si une phrase ayant le même type d'entité, et son L, mot anglais M et R et la mise en correspondance de motif correspondant flou, le match est considéré comme un modèle de phrase. Par conséquent, ces entités sont considérées comme pertinentes, car elles sont l'expression de la graine de même. Et les méthodes de TD, la relation réelle entre les entités ne sont pas connus (car les seules données que nous utilisons le texte Web, plutôt que des données de RDF structuré). Nous devons savoir qu'il ya une relation.

Nous le mode d'apprentissage alternatif, et génère un ensemble d'entités dans le développement de notre entreprise de 100. Ensuite, nous prenons tout le mode d'apprentissage, la société cible dans chaque entreprise de trouver les phrases correspondant à Bing Résultats de la recherche. phrases sélectionnées correspondent à tout motif correspondant au numéro d'arrangement de presse (plus des relations plus solides moyens d'adaptation), puis ajouter la description.

4.1 la taille et le tri

Après avoir sélectionné une phrase pour décrire, nous avons mis en place une redondance pour éliminer le bruit et les étapes de post-traitement. Afin de résoudre le problème de redondance, nous utilisons exactement le même libellé pour supprimer ceux qui sont décrits dans la phrase précédente de transmettre. Par conséquent, supprimer ou égal à d'autres peines peines de clause. Nous avons également supprimé la phrase de rapports de nouvelles, l'analyse de nos résultats dans le développement de spectacle ensemble, les bulletins de nouvelles contiennent rarement des informations relatives à la description Wikipédia typique. Pour ce faire, nous utilisons des expressions régulières pour le mode capture de fil de presse commun (par exemple, ). Enfin, nous supprimons le « ... » la fin d'une phrase incomplète, ces phrases apparaissent parfois sur le site lui-même contient un résumé.

Comment peut-on sélectionner une phrase en fonction des sociétés cotées de les trier. Au début du nom de la société de phrase sur le score à partir de 25 ans, le nom de l'entreprise à une peine en partie commence par début 15 minutes, et la sentence ne comprend pas le nom de l'entreprise commence à -15 (nom de la société si elles contiennent entre eux de zéro). Puis, avec 10 minutes de chaque marque de mots clés dans une phrase (mot-clé du corps principal est le choix le plus peuplé DBPedia société sous-jacente). L'algorithme de notation a été ajusté sur l'ensemble du développement. Les points finals de sortie disposés en ordre décroissant.

5 Système de Fusion

En plus de ces deux méthodes, nous avons produit la sortie mixte de la combinaison des deux. Dans cette méthode, nous partons de la sortie DD, si (coupé) elle est inférieure à trois phrases, nous ajoutons la sortie TD et réorganisés.

Le procédé de mélange complète sensiblement plus grande, la sortie bruyante DD contenu des pages Web, qui a une petite, de haute qualité, mais la production moins diversifiée TD. Pour pas un consommateur ou une entreprise relativement nouvelle, notre population cible est relativement faible, ce qui pourrait avoir une description d'impact significatif.

expérience 6

Afin d'évaluer notre méthode, nous avons comparé les trois versions produites par TD, sortie DD par le procédé de mélange et résumé multi-documents TextRank (Mihalcea et Tarau, 2004) produit (les mêmes résultats de nos méthodes de DD utilisées) . Pour chaque méthode et la référence, nous sommes tous indice S & P500 a terminé la société en Janvier génération 2016 est décrite. Nous avons utilisé la base de l'évaluation du 400 reste ajusté le développement de 100 mis à.

Nous avons effectué deux types d'expériences. La première est l'évaluation automatisée, nous utilisons le score METEOR (Lavie et Agarwal, 2007) pour décrire la première partie de l'article de Wikipedia sur nos méthodes de référence. Les articles de Wikipedia, la première partie est habituellement les informations les plus importantes concernant l'introduction ou un aperçu de l'entreprise. METEOR degré fraction de chevauchement entre les descriptions de contenu de capture et Wikipédia généré texte. Pour éviter les biais de différentes tailles de caractères, nous avons mis la même taille dans toutes la comparaison des limites décrites. Nous avons essayé trois paramètres: 150 mots, 500 mots, sans limite de taille.

De plus, nous avons évalué crowdsourcing sur la plate-forme Crowdflower. Dans cette évaluation, nous donnons un annotateur humain fournit deux descriptions, on est notre approche, et l'autre est la ligne de base, est aléatoire. Notes a ensuite demandé de choisir lequel est la description de la meilleure vue d'ensemble de l'entreprise (ils sont fournis aux liens de la société à la page Wikipedia pour référence), et chaque description score donné 1-5. Pour assurer la qualité, chaque paire décrit par trois membres du processus d'étiquetage, et nous n'inclus dans tous les cas conformes à trois étiquettes des résultats. Ceux-ci ont représenté 44%. Dans cette évaluation, nous utilisons une version hybride, nous limitons la longueur de la ligne de base et la sortie est de 150 mots, afin de réduire le biais causé par des différences dans la longueur et maintenir une description assez courte de commentateurs.

Tableau 1: Résultats du premier METEOR diverses limite de taille inférieure score moyen

Tableau 2 Les résultats du deuxième expérience: méthode annotateurs humaine de sélection pourcentage optimal des entreprises et donner un score moyen

7 résultats

Résultats d'évaluation automatique présentés dans le tableau 1. Notre système DD dans toutes les variations de taille que TextRank METEOR score initial plus élevé, et TD pire elle-même dans la plupart des cas. Dans tous les cas, elle-même approche intégrée pour de meilleurs résultats que le système DD.

Le tableau 2 montre le résultat de l'évaluation humaine. Voici les avantages de notre approche devient plus évidente: Nous battons évidemment la ligne de base, si elle est marquée de choisir notre meilleure sortie de fréquence (près de 75% du temps) ou nous décrire donner un score moyen (3,81 à 15 minutes système).

Tous les résultats sont statistiquement significatifs, mais la différence est le résultat de deux expériences en chiffres sont renversants: Nous croyons que si les extraits sommaires TextRank associés à des phrases partielles, gagnant ainsi près de nous en termes de METEOR les résultats présentés ici méthode mise au point peuvent être extraits pour les êtres humains, il semble être plus raisonnable qu'une description générale du contenu. 1 montre un exemple de la Fig.

Dès le début, nous voyons que notre système est meilleur que TextRank. Notre société a introduit la première phrase, et fournit une histoire critique et TextRank n'a même pas lui donner un nom. méthode hybride pour la structure de production de sortie est plus structuré, de ses origines à la société issue de la fusion, au conseil d'administration, et enfin le produit. En revanche, TextRank accent de sortie sur l'expérience des employés, mais à la fin que des produits mentionnés. Notre système est plus adapté pour les personnes ignorant leur brève description.

La figure 1 Activision Blizzard description information

8. Conclusions

Nous décrivons deux façons de décrire la société de production et une approche hybride. Nous montrons que notre production est terrassant le favori du lecteur, et avec l'introduction Wikipédia similaire, mais pas le plus algorithme digest sortie avancée.

Ces approches complémentaires ont leurs avantages et leurs inconvénients: la méthode TD assure cette expression typique de description Wikipédia de la société, connue comme une expression typique firme de relations de base apparaît dans la sortie générée. Cependant, comme il les modifiera, il produira contenir des informations d'une autre société ou des phrases agrammaticales peine. Ce dernier peut se produire parce que la phrase originale avec un lien unique. Par exemple, les fragments de phrase suivant Wikipédia « Microsoft est le plus grand fabricant de logiciels du monde par les recettes » est la société de renseignements utiles, mais notre système ne peut pas correctement modifié pour accueillir toute autre société.

En revanche, en sélectionnant une phrase pour une entreprise donnée de l'Internet, les méthodes DD pour assurer que le résultat est à la fois la description grammaticalement correcte est également pertinente. Cela a également conduit à de plus en plus d'expression sous la forme de phrases. Cependant, il peut contenir une variété de faits non essentiels trouvés dans différents sites. Ainsi, la méthode hybride de meilleurs résultats que seul, il est pas surprenant.

Bien que dans cet article, nous nous concentrons sur la description de la génération de l'entreprise, le système peut mettre à jour l'ensemble des données de semences par deux méthodes (pour tenir compte des faits dans la description nécessaire), pour générer d'autres entités (personnes, produits) description, et régler à nouveau la plus grande précision.

Papier Lien de téléchargement:

de plus sophistiqué nouveau changement populaires Spy Shots S50EV
Précédent
« Obtenir une petite vacances pour trois jours AI identification numérique » environnement IDE pour construire et debug
Prochain
« Dieu U » pour aller avec quelle carte vidéo? Aujourd'hui, je viens de vous dire la vérité!
version de la réalité « Optimus Prime » | Aujourd'hui le son de base? AI une fois de plus le film dans la réalité!
Souvent, devant votre écran d'ordinateur et le téléphone, ne manquez pas ces conseils de soins oculaires
Ali Baba: alime chat: Sur la base de la séquence et la séquence réarrangée bot moteur
Huawei, mil, Apple crash 27 Mars Triwizard qui vous attendez plus?
Landwind X2 vaut la peine d'acheter? 10 mois après l'ouverture, les propriétaires disent que la sensation de voiture
Installez le logiciel Microsoft ont approuvé? Windows 10 push mode "App Store" vous vous promettez
De la Camry à Camry, le propriétaire sans ambages: ont à dire, la voiture a été complètement attiré
Vous n'avez pas acheté pour vous-même! carte TF est pas aussi mauvais que vous le pensez
Kia double tournée de 12 pays des qualifications peut être retiré de la boutique officielle phare merveilleuse surprise,
Aujourd'hui, le son de base | NVIDIA Display AI reconstruction de votre photo, il y a plus avancé que le PS?
Mentionner les voitures Harvard F7, le propriétaire sans ambages: toute consommation de carburant emmêlés, SUV ne sont pas économes en carburant né