Syntaxiques et analyse sémantique pour comprendre spéciale | AIS pré-sécher toute la part parlera

AIS (ACL, IJCAI, SIGIR) 2018

Session 10: syntaxiques et sémantiques

1. rivière bateau Université Soochow

Supervisé Treebank Conversion: Les données et approches

(Le pré-talk remplacera bateau AIS papier par la rivière Li professeur Zhenghua rapport oral)

Notre métier principal est de convertir l'arbre bibliothèque. Pour nous parler de ce qui est la dépendance parsing. L'objectif est de dépendance l'analyse d'une phrase, puis le mettre au-dessus de l'information structurée marqué. Il arc comme une unité, il est de faire correspondre la relation entre les deux mots est l'unité de base. Colocalisation est les relations grammaticales entre eux, et parfois il peut y avoir des informations sémantiques.

Dans la dépendance de ces dernières années analyse syntaxique développé rapidement en 2016, lorsque Google a proposé un modèle pour améliorer les trois points, 2017 Stanford a également proposé un modèle que Google a élevé quatre points. Quels sont les défis de l'analyse de dépendance pouvez-vous faire? Je comprends, tout d'abord est de savoir comment faire face à un petit texte de réseau non standard. De plus, le modèle n'a pas encore mis une certaine connaissance sémantique, la connaissance du monde humain à l'intérieur, c'est un champ entier problème de l'apprentissage machine va être pris en considération. Mais comment utiliser treebank existant mieux certaines des données de formation.

Ensuite, nous devons répondre à deux questions, un problème est de savoir comment mettre des spécifications différentes treebank converties en une bibliothèque avec un arbre standard. Par exemple, cette phrase est des normes HIT, et notre propre définition d'un cahier des charges. Que ces deux spécifications est la définition de l'arc à charge, ou la définition de la dépendance, qui n'est pas la même chose. Comment mettre les autres de convertir des arbres dans leur propre arbre? On appelle cela la transformation de la bibliothèque de l'arbre de problème. Nous pouvons comprendre le problème de la traduction automatique, il doit être converti en une phrase à une autre peine. La question est vraiment la façon dont nous mettons un arbre dans un autre arbre, ce problème est plus compliqué. La deuxième question, si ces différentes spécifications de conversion de données normalisées l'avenir, ne sont pas vraiment mieux que la méthode actuelle utilisée peut améliorer le modèle de spécification de l'aide de la syntaxe sur la cible? Ces deux questions que nous devons travailler une réponse préliminaire est OUI.

Pour toute question Treebank transformé quels défis? Le défi le plus important est que nous ne disposons pas de telles données. Pour une phrase, j'ai marqué les deux arbres, un arbre est une spécification source, et l'autre extrémité d'un arbre est la spécification cible. Nous appelons cette bi-arbre des données alignées. En l'absence de ces données, prédécesseurs qu'ils utilisaient d'autres moyens de le faire, et nous utilisons la façon super sage.

La première chose est de marquer une donnée, il y a deux arbres produisent une phrase de données. Pas une phrase utilisée pour marquer deux arbres, sur les données HIT, nous avons marqué le 10000, a déjà un arbre HIT. Sur cette base, nous, avec notre nouvelle norme, puis marquer à nouveau, presque marqué les dix mille. Le sujet du processus, il y a un choix de points de repère, la peine moyenne a marqué 30% du mot.

Nous avons une plate-forme d'étiquette, près de 15 étudiants engagés, ces données avaient passé près de 500 heures / personne, le taux global de précision était de 78,6%, l'arc de la cohérence entre les personnes 71,5%, la cohérence 43,7 phrases %. Ces données sont strictement double marquage, deux personnes sinon, il y aura des experts pour examiner et ainsi de suite, nous allons avoir des données de marquage de la qualité pour contrôler le processus pour faire en sorte que ses données.

arbre de tâches bibliothèque est d'abord converti en une phrase, puis à la borne de source d'un arbre, l'arbre et l'arbre source de génération de fin de destination. Notre principal défi de la tâche elle-même, ou le plus de difficulté réside important dans la façon de pouvoir utiliser pleinement l'arborescence de source d'information pour diriger la production du côté cible de l'arbre au-dessus du bâtiment.

Nous vous proposons deux méthodes, on appelle plongement modèle, on est treeLSTM. Pour un pointage à l'arc, la notation, pensez à l'arbre comment utiliser la source pour guider l'arc lorsque la fonction de notation de score.

Les résultats expérimentaux montrent que les deux points. Tout d'abord, le résultat de la conversion, qui est très proche des deux méthodes, les résultats sont similaires, sont très efficaces et simples. De plus, nous avons transformé treebank utilisé après, la performance est également Parsing augmentation relativement importante. Ceci est la première fois que notre contribution, les données, les méthodes, et il a proposé cette tâche. Notre avenir sera converti en d'autres treebank nos directives, continuent à marquer d'autres bibliothèques d'arbres, dans l'espoir d'une analyse de la dépendance chinoise fait de très bons résultats.

2. Non-Chen Yu de l'Université de Pékin

Précis SHRG-Based sémantique Parsing

Notre travail se fait montrer la structure d'une représentation sémantique. Quelle est la position de la structure représentation sémantique de celui-ci? Et comparer la AMR SDG, SDG est une configuration relativement simple de la figure, la modélisation est une relation binaire entre le mot et le mot. Le AMR SDG plus complexe que l'idée est d'unifier les différentes manières d'expression, AMR peut être très différentes formes de peine, tant que la même sémantique, peut être unifiée en un montre un schéma de la structure. Par exemple, un mot à la voix active et voix passive, ladite surface est une grande différence, mais la vue de la structure dans l'espoir qu'ils représentent une représentation sémantique dans un graphe sémantique unifiée.

Données impliquées dans notre document, mais aussi une vue de la structure représentation sémantique, il est plus comme avec AMR, diagramme à l'intérieur du nud et phrase, le mot n'est pas un à un. Elle est marquée lorsque le premier résultat de la syntaxe obtenue par le candidat, puis manuellement désambiguïser, il est beaucoup plus élevée que le degré d'étiquettes correspondant à l'avant de la RAM.

La grammaire non contextuelle phrase est décrit comme une forme récursive, hyperarête variante grammaire est la grammaire sans contexte est représenté sur la figure ci-dessus. Il est le concept de base et la grammaire sans contexte est le même, il y a un premier symbole de démarrage S, chaque étape du côté remplacé par un sous la figure. Après une série d'alternatives, il est possible d'obtenir une carte plus complète des symboles S est étendu.

Super-côté grammaire de remplacement synchrone est de construire une relation entre mappage synchrone de la syntaxe et de la sémantique de phrase. Chaque règle a une des règles sémantiques synchronisées CFG, donc après l'obtention de règles syntaxiques, nous pouvons trouver les règles de syntaxe des règles sémantiques de synchronisation correspondant au bord et sur variante, pour obtenir la figure sémantique spécifique. Cependant, dans le corpus est pas de processus de génération de carte sémantique, le processus doit être généré par l'extraction de manière graphique sémantique. Syntaxe processus d'extraction et le processus de déploiement est inversée, figure constamment trouver un fragment de la figure résultant, il réduit à un bord. Enfin, la carte entière est compressée en un symbole de démarrage S, nous pouvons obtenir le processus de génération du diagramme, et plus peut-on tirer que la syntaxe de la figure.

Notre détermination est l'utilisation du réseau de neurones. Il comporte deux étapes principales, la première étape est l'analyse, l'analyse sémantique de la deuxième étape. Mots, la Parsing première d'une chaîne, pour obtenir son arbre de syntaxe. La seconde est la représentation sémantique, chaque noeud de l'arbre syntaxique qui a ses règles de CFG pour trouver des règles SHRG CFG correspondant aux règles.

Comme nous l'avons fait l'analyse syntaxique est principalement basée LSTM-Minus. Après avoir soustrait les deux vecteurs de sortie, sera un vecteur, le vecteur peut être entre une sous-chaîne d'une chaîne.

analyseur sémantique est également une variété de modèles, est le modèle le plus simple de comptage. Nous avons choisi les données de formation apparaissent à l'intérieur la plupart des règles sémantiques. Deux modèles d'homonymie est un vecteur à base de règles, nous dirigerons sous-vecteur et le vecteur correspondant à la chaîne correspondante mis en place, dans lequel un lien de réseau pour obtenir une partition complète, le choix de la règle avec le score le plus élevé.

Le troisième est basé sur un modèle global. J'ai choisi le meilleur score des sous-graphes K dans chaque nud, après les opérations de faisceau-recherche, vous pouvez obtenir un graphe sémantique considérer l'information mondiale. Ce sont nos résultats. Nous pouvons voir notre modèle est beaucoup mieux que l'effet du modèle de comparaison. Nous avons trois modèles, même le modèle le plus à base de contre-simple, vous pouvez obtenir de meilleurs résultats.

3. Non-Chen Yu de l'Université de Pékin

Pré et In-analyse syntaxique des modèles pour Neural vide Catégorie de détection

Si nous avons fait, le sens de ces noeud vide représente alors l'analyse syntaxique trouvera treebank en plus de la peine, la peine a été insérée entre le nombre noeud vide, est l'objet de l'information omise et similaires. Notre travail est de nud vide Détecte que je donne la peine d'une surface, cette phrase, il y aura une omission du sujet, comment la composition de ceux-ci omis balisée, la tâche est de détecter une catégorie vide.

Procédé de détection ECP est divisé en trois: pre-parsing, dans l'analyse et de post-analyse. pré-analyse syntaxique est détectée dans les zones vides de l'analyse syntaxique et indépendante de la situation. dans l'analyse est l'analyse syntaxique et de détection ECP deux ensemble. pour obtenir après l'analyse syntaxique est le résultat de l'analyse syntaxique, puis analysé pour ECP.

Quand vider le champ de l'analyse, quel genre de fonctionnalités que nous voulons? La première caractéristique est les premières séquences de caractéristiques, à côté des zones vides de ce qui pourrait être le mot. Il y a quelques-unes des dépendances les plus éloignées, il peut y avoir quelques mots et catégorie vide éloignés, mais ils peuvent aussi aider à détecter la catégorie vide.

Nous présentons le premier modèle est un étiquetage de séquence basé sur un modèle, parce que nous avons la phrase originale, peut être fixé à une catégorie vide à côté de la phrase. Nous vous proposons trois modèles: le premier consiste à insérer un peu d'espace entre les mots et les phrases, attaché à l'espace vide au-dessus catégorie. La deuxième catégorie est attaché à l'autre mot vide ci-dessus, pre2 représenté au plus, il existe deux zones vides consécutives. Le troisième modèle est que s'il y a une des zones vides en continu, on peut le mettre sur le dessus du mot attaché à l'avant ou à l'arrière du mot.

Le premier modèle est inséré entre le mot et le mot beaucoup d'espace, sera inséré dans l'espace entre tous les deux mots, nous mettons l'étiquette dans l'espace vide au-dessus des catégories. Les modèles suivants ne sont pas insérés dans l'espace, nous avons mis des étiquettes sur des zones vides d'un mot avant ou après un mot là-dessus.

Le deuxième modèle est l'analyse syntaxique dépendante et faire ensemble. Tout d'abord, nous trouvons la plus grande fraction du processus d'arbre de syntaxe. Notre modèle de premier ordre est calqué sur le bord, le bord peut être un bord entre les côtés, ainsi que de véritables noeuds et le noeud vide entre le noeud et il sera réel nud réel, nous sommes entièrement connecté avec une couche construite sur les le mode.

Il y a le modèle de second ordre. Ses éléments de base ne sont pas partie, mais les deux côtés composés, par exemple, IJ et IK ces deux côtés, il peut être exprimé en IJK de ce côté, on peut également se connecter à travers toute une couche de les modeler. Modèle d'ordre, nous proposons un ensemble de l'algorithme de programmation dynamique pour détecter un joint de nud vide et l'analyse syntaxique en 2017.

Les résultats de notre modèle est de comparer le modèle d'étiquetage de séquence LSTM-CRF, ainsi que les résultats d'un modèle d'étiquetage de séquence linéaire, on peut voir le modèle LSTM-CRF a considérablement amélioré le modèle de série.

Le second est le résultat de notre modèle en analyse syntaxique. Parce que notre modèle en analyse syntaxique est la détection de noeud vide et l'analyse syntaxique réalisée ensemble, afin que nous puissions voir le nud vide détecte cette façon, non seulement vider l'effet de détection de noeud a été soulevé, et les résultats devra mettre à jour l'analyse syntaxique, est la détection de noeud vide et l'analyse syntaxique peut améliorer l'autre.

4. Bo ISCAS

Séquence à l'action: End-to-End sémantique graphique pour la génération sémantique Parsing

Tout d'abord, nous expliquons brièvement la tâche d'analyse sémantique. l'analyse sémantique phrase en langage naturel est analysée dans un ordinateur exécutable ou d'identifier une représentation sémantique, comme une sémantique d'expression logique de la phrase. Ceci est une peine d'analyse sémantique de phrase en langage naturel «qui Obama est né dans la ville », elle correspond à une expression logique que l'explication est un côté X, sa catégorie est la ville, il y eut entre elle et l'entité Obama sémantique de la relation. Et puis nous obtenons une phrase de représentation sémantique, nous sommes dans la base de connaissances du support, vous pouvez obtenir une réponse précise à cette phrase, on peut obtenir une phrase de réponse précise, Obama est né dans la ville de Honolulu. L'analyse sémantique est largement utilisé, peut être appliquée automatiquement quizz et plus.

A ce stade, des problèmes de résolution sémantiques rencontrés, nous pensons que l'analyse sémantique traditionnelle trop dépendante des dictionnaires et la grammaire. Par exemple, beaucoup de travail se sont engagés précédemment réalisé dictionnaire comment apprendre, comment développer le dictionnaire, doivent également définir une combinaison de beaucoup de grammaire. Et il y a deux types de ces deux méthodes d'analyse sémantique, ils résolvent les problèmes rencontrés par la méthode d'analyse sémantique traditionnelle: l'une est basée sur la construction de graphe sémantique, ce type de méthode est représentée par graphe sémantique, l'avantage de cette approche n'est plus nécessaire grammaire combinée, le processus d'atterrissage sémantique de la conversion d'une partie de cette relation de correspondance, plus besoin d'un dictionnaire.

En outre une étape de comparaison séquence d'incendie à la séquence du procédé, directement à l'expression logique phrase sémantique sérialisé, converti en une séquence de processus d'analyse sémantique - à - séquence de procédé, qui peut résoudre le problème de l'analyseur sémantique. Cette méthode ne nécessite pas aussi la grammaire, les définitions et les caractéristiques du dictionnaire, le processus de formation est à la fin.

Nous combinons ces deux méthodes proposées séquence à l'action, tout d'abord, nous utilisons des graphiques sémantiques pour représenter la sémantique de la phrase, sans l'utilisation d'expressions logiques. De plus, nous construisons processus figure sémantique considéré comme une séquence d'actions, nous voulons analyser la phrase, la phrase pour obtenir graphe sémantique. graphe sémantique est construit étape par étape terminée, on le met dans le processus de construction comme une séquence d'action, de sorte que vous pouvez mettre toute analyse sémantique d'une phrase considérée comme une séquence d'actions à traiter la série, vous pouvez utiliser le modèle RNN pour modèle. L'avantage de cette méthode est qu'elle représente l'utilisation de la capacité du graphe sémantique sémantique ainsi que le modèle de séquence à la séquence capacité séquence prédite.

De tels procédés et sémantique construit sur la base d'une comparaison de la figure avant, n'a pas besoin de construire un tel résultat d'analyse syntaxique à l'aide d'un graphique sémantique ou un modèle spécifique, le procédé de génération d'une extrémité directement à la fin de la Fig. Alors que l'approche comparative par séquence à la séquence, on construit le fonctionnement encodage en utilisant des graphiques sémantiques, construction syntaxique plus la modélisation de l'information, nous avons examiné un certain nombre de liens entre l'opération de génération. Dans le processus de décodage qui peut facilement ajouter des contraintes syntaxiques et sémantiques pour filtrer une mauvaise opération.

Un cadre de notre démarche vous donner un exemple. Lorsque vous entrez dans une phrase, nous utilisons le modèle RNN pour générer une séquence d'actions. Cette séquence d'actions peut être utilisée pour construire le graphe sémantique. Dans le processus de génération de la séquence d'actions peut ajouter des contraintes au fonctionnement limite peut générer filtre en temps opportun à un mauvais fonctionnement. Le cadre tout, d'abord besoin de définir un ensemble d'actions, le jeu d'action est le processus de modélisation sémantique de la figure. Cet ensemble d'actions, il est relativement commun, il y a un certain nombre d'un des noeuds de graphe sémantique, le nombre d'arêtes formées dans, a une certaine universalité. Et spécifique pour chaque jeu de données, de son côté, son entité, ses informations est différent, il peut correspondre à un fonctionnement légèrement différent, mais dans des catégories générales basées bords ajouter, ajouter un nud, ajouter des nuds catégories, etc. et ainsi de suite.

Le modèle de séquence à l'action et le plus largement utilisé à ce stade du modèle de l'encodeur que nous utilisons ne fait aucune différence, la seule différence est nous avons ajouté un contrôleur pour ajouter des contraintes syntaxiques et sémantiques.

Nous ajoutons des contraintes syntaxiques et sémantiques dans le codeur. contrainte syntaxique consiste à veiller à ce que le fait de générer une séquence de construire vue effective correspondant à des contraintes sémantiques garantissent la figure séquence sémantique de mouvement généré construit, sans se départir de la base de connaissances de contrainte. Par exemple, deux noeuds sont reliés à chaque bord, qui doivent être conformes aux contraintes de connaissances. Il y a une autre contrainte est que chaque nud doit être de catégorie ne sont pas contradictoires.

Nous avons effectué des expériences sur trois ensembles de données, à savoir la National Aeronautics États-Unis et géographique GeoQuery ensembles de données ATIS et ensembles de données ont un jour à trois ci-dessus obtenu des résultats relativement bons. Nous avons obtenu les meilleurs résultats dans l'ensemble de COURS DE LA NUIT données et ensembles de données ATIS dans GeoQuery ci-dessus et d'obtenir de bons résultats.

5. Tu Ke-wei Université de Shanghai des sciences et de la technologie

Mélange gaussienne Latent vecteur Grammars

(Le premier auteur est Zhao Yanpeng, AIS pré-parler sera la scène de Zhang Liwen au lieu d'un rapport oral)

Grammaire composant analyseur (circonscription Parsing) est destiné à donner à la structure de la représentation de langage, à savoir, pour obtenir l'arbre de syntaxe de langage correspondant. Comme on le voit à droite, il m'a trouvé cette déclaration, nous voulons trouver sa structure syntaxique. PDGF (probabilistes Contexte libre Grammars) est une approche très classique, mais cette méthode, en supposant que la probabilité de règles de grammaire et il n'a rien à voir dans le contexte de la situation, il y a une limitation très grandes.

Pour remédier à cette limitation, nos prédécesseurs ont fait beaucoup Solution: annotation syntaxique qui marque l'information syntaxique à son nud parent, frère ou sur de la catégorie syntaxique dans l'arbre de syntaxe, vocabulaire marqué, la catégorie syntaxique qui est dans l'arbre de syntaxe marquer les composants de phrase correspondant lemme.

Puis vint la méthode d'apprentissage automatique des catégories syntaxiques grains fins, à savoir les variables cachées grammaire (Latent Grammars variables, LVG). grammaires syntaxiques variables cachées pour chaque catégorie (non terminaux) variables cachées associées à un discret, les valeurs discrètes de variables cachées représentent la sous-classe de syntaxe particulière (sous-type). Mais ce modèle pour chaque catégorie syntaxique original, seul un nombre fini de la modélisation syntaxique de ses sous-catégories.

Résumant les travaux ci-dessus, nous continuons à affiner trouvé catégorie syntaxique, nous pouvons être plus précis des résultats d'analyse de grammaire.

Par conséquent, nous vous proposons la grammaire Vector Implicite (Latent Vector Grammars, LVeG), le but d'un nombre infini de modélisation de chaque sous-type de non-terminaux. Le LVeG non terminal d'associer un espace continu, chaque point de l'espace peut être considéré comme un sous-type. Par exemple, P (0.3, 2.1) génère le sous-type a, et P (0.5, 1.4) est générée me.

LVG faire quelque chose avec la comparaison précédente: dans LVG, chacune des parties multiples non terminales sont devenues limitées, on suppose que seuls les sous-types M NP, P seuls les sous-types M, règle: NP- > P, qui est une règle de sous-type que M², parce que nous serons divisés en un nombre infini de copies de chaque non-terminal, de sorte que nous NP- > P aura un nombre infini de règles de sous-type. En outre, LVG ayant un paramètre qui indique que les règles de grammaire de la probabilité, dans la LVeG, règle de grammaire ayant un paramètre de pondération des règles de grammaire représentée densité.

En fait, LVG LVeG peut être considérée comme un cas particulier. Par valeur de variable discrète LVG est convertie en vecteurs One-chaud, LVG elle peut être projetée sur l'espace continu. grammaire combinaison vecteur (compositionnelle Vector Grammars, CVG) est également donnée aux sous-catégories syntaxiques dit vectorisation continue, nous pouvons prouver que le modèle est un cas particulier de LVeG.

Depuis LVeG peut être considérée comme une extension de LVG, LVG que certains problèmes, LVeG rencontrera. Si nous directement LV (e) G do complexité temporelle est exponentielle Parsing, et finalement obtenu est l'arbre de sous-type, mais est finalement souhaité arbre d'analyse syntaxique avec CRK non raffiné. Il est nécessaire de prendre une méthode d'approximation.

Ici, nous prenons une analyse syntaxique max-règle, cette méthode de calcul de la grammarrule devrait compter chaque à chaque emplacement pour chaque phrase, ou la probabilité postérieure, puis a couru CYK postérieure réutilisation de l'algorithme de probabilité, pour obtenir le résultat final. Après avoir calculé la LVG de probabilité postérieure à cette étape est possible dans l'espace continu est incalculables, afin de résoudre ce problème, nous proposons un LVeGs Mélange gaussiennes (GM-LVeGs). GM-LVeGs grammmar règle de la fonction de poids est défini comme une distribution de mélange gaussien (GaussianMixture), puisque la distribution gaussienne de mélange pour l'addition, la multiplication, des solutions d'intégration sont tous fermés, donc nous cherchons obtenu pointage à l'intérieur, le score à l'extérieur et la posteriorprobability solution analytique ..

fonction objective GM-LVeG est une probabilité conditionnelle de journal classique, nous avons utilisé l'algorithme d'optimisation Adam, et lorsque la distribution gaussienne est gaussienne quand un angle, on peut tirer la solution analytique du calcul du gradient. Dans l'expérience POS-taggng, nous dans les ensembles et UD huit langues données WSJ pour faire le test, et LVG ont été comparés. Nous pouvons obtenir les résultats relativement bons.

Dans la circonscription expérience Parsing, nous LVG avec CVG et d'autres méthodes ont été comparés ensemble de données wsj. Peut être trouvé, quelle que soit la durée de la peine 40 ou moins, ou toute la phrase, nous pouvons obtenir de meilleurs résultats.

En résumé, nous vous proposons un nouveau cadre, Latent Verctor grammaire, chacun étant associé à un non-terminal à un espace continu, et nous avons prouvé avant LVG, CVG ces algorithmes peut être considéré comme un cas particulier LVeG, nous également proposé GaussianMixture LVeGs. Dans lequel la fonction de pondération de chaque règle de grammaire est définie pour les mélanges gaussiens. Et l'apprentissage proposé et le raisonnement algorithme polynomial peut avoir obtenu de bons résultats dans le marquage POS et l'analyse de la circonscription.

6. Jin Hui Ming et de l'Université Hao Zhu Qinghua et l'Université de Beijing de l'aéronautique et de l'astronautique

L'intégration de caractères chinois de mots pour Lexical SÉMÈME Prévision

Jin Hui Ming: SÉMÈME traduction officielle est appelée Yoshimoto, considérer quelques-uns des caractères chinois signifiant prévisions yuans.

Donner à chacun parler de la connaissance derrière la première Yoshimoto faire est de définir une unité sémantique minimale. étiquetage Yoshimoto n'est pas naturelle, mais marquée par des linguistes qui constituent une base de données. Tel est le concept HowNet HowNet Dong Zhendong et M. Dong Qiang utilisé proposèrent, HowNet est base de données bien connue. HowNet qui a presque 2000 Yoshimoto, ces Yoshimoto a marqué avec 100.000 mots et expressions, chaque mot et expression a plusieurs sens, peut être ambiguë, ce qui signifie chacun composé de plusieurs composants Yoshimoto.

Il y a structure arborescente de l'organisation entre Yoshimoto, alors il y a de multiples relations entre Yoshimoto. Par exemple, le concept « pomme », qui a deux significations, l'un est un ordinateur, l'autre est un fruit. Tout d'abord, il est la définition d'un ordinateur, vous pouvez transporter style. Ensuite, il est une marque particulière, vous pouvez transporter l'ordinateur, qui est « pomme ». Une autre est la définition d'un fruit, nous pouvons voir l'importance de certains est d'utiliser Yoshimoto de spécifique pour expliquer le sens du mot.

Notre tâche est de Yoshimoto recommandé. Est désigné par l'apprentissage du vocabulaire de nouveaux mots pour recommander Yoshimoto, vous ne savez pas comment il Yoshimoto cette norme, ce modèle vous lui dire comment la norme Yoshimoto. Xie Ruobing travaux antérieurs, etc. Deux méthodes, et le filtrage collaboratif décomposition de matrice à base. Ces deux méthodes est très efficace, mais leur problème est que seules les informations externes, des informations de contexte qui a appris de texte à grande échelle.

Notre modèle est le premier modèle fait usage d'une information privilégiée, la première est similaire à la technique de filtrage collaboratif. Tout d'abord, la position des mots apparaissent dans le mot est divisé en avant, pendant et après. Parce que le mot dans un endroit différent, peut représenter des significations différentes. Yoshimoto puis faire une recommandation basée sur la similitude de la forme de texte.

De plus, lorsque ces matrice décomposition se décompose deux matrices, recherche la plus représentative d'un mot, en raison de l'ambiguïté du mot est plus fort que les mots, de sorte que chaque mot pour en savoir plus Embedding, la décomposition de choisir un mot parmi les plus représentatifs d'un mot le plus représentatif Embedding, comme le mot et Yoshimoto étaient Embedding comparer le temps.

Zhu Hao: Nous avons établi un modèle pour déduire la signification des caractères chinois composé de yuans des caractères chinois, qui est basé sur une hypothèse fondamentale qui a un lien très fort entre les personnages et les mots qu'il pose. caractères chinois en utilisant seulement un modèle, son effet, bien que non seulement le modèle de contexte, mais il n'y a pas particulièrement grande différence. Plus important encore, nous ferons un deux modèles d'intégration très simple, puis trouvé pour renforcer l'effet est très important. Description deux modèles sont très complémentaires. Nous supposons qu'il est en fait corpus relativement rares, semble mots relativement basse fréquence ci-dessus effet sera meilleur.

Nos expériences ont également prouvé ce point, lorsque notre fréquence de mot est très bas, plus bas même que apparu 50 fois dans le corpus, nous constatons que l'effet entre l'efficacité de notre modèle de mots à haute fréquence avec presque la même, que faible 0,03. Avant d'utiliser le modèle de contexte, leur effet est réduit de 50%. Comme nous joignons modèle, la capacité d'intégrer le modèle est plus robuste.

Nous pouvons aussi analyser de plus près, quels types de mots dans ce qui précède, nos résultats font particulièrement bien. Par exemple horloger, dans le corpus, bien que l'horloger apparaît plus fréquemment qu'un plus haut, mais pas encore en utilisant le modèle de contexte associé à temps prédit Yoshimoto, et notre modèle peut être. Le deuxième exemple est Oscar n'a pas de lien entre translittération un du mot, avec des caractères chinois signifiant, notre modèle sera fait relativement pauvre.

Nous avons proposé un modèle pour prédire Yoshimoto basée sur les caractères chinois, alors il y aura beaucoup de travail peut être prolongé. Notre modèle est vérifié une forte association entre le mot et ses caractères composés, il fournit la base pour une utilisation ultérieure caractère niveau modèle de traitement du langage naturel.

7. Luofu Li Université de Pékin

L'intégration de gloses dans Word Neural Sense Homonymie

Mot SenseDisambiguation (WSD, WSD) est une tâche de la PNL plus traditionnelle. Nous examinons d'abord un exemple de ce jeu de mot multi-sens, dans un contexte différent, peut représenter un sens différent (sens). Par exemple, la première phrase, nous avons joué au football l'après-midi, ce qui signifie exécuter. Dans d'autres phrase, il peut également indiquer un instrument de musique et de jouer un rôle. Sens Pour ces derniers, il est dans le dictionnaire qui correspond à la phrase explicative d'un texte, généralement appelé brillant. Par exemple, le premier brillant d'une pièce de sens est: « participer à des jeux ou le sport ». Pour approche purement fondée sur la connaissance des sans supervision traditionnelle compter uniquement sur le contexte de contexte polysémies et son calculate brillant une similitude, sélectionnez brillant sens où la plus grande similitude est le mot correspondant au contexte actuel de la signification correcte .

Pour façon classique supervisé, il est souvent compter que sur la surface supérieure du contexte que le sens marqué, d'un ou plusieurs classificateurs formés. (Parce que chaque mot a un sens différent, il est généralement plus d'un mot pour chaque formation un classificateur, mais l'approche à base de neurones est habituellement une formation uniforme pour tous classificateur mot). Le travail principal de notre inspiration principale de cet article est: si elle est étiquetée, des données ou des connaissances lexicales, tous les WSD très utile. Nous avons donc pensé, pourrait utiliser un modèle, ces deux données de modélisation en compte, est la principale motivation de notre papier.

Comment modéliser ces deux types de connaissances? En fait, il peut être converti en un problème de compréhension de lecture. Par exemple, la lecture problème de compréhension, il y a une question correspond à un certain de document, il y a une réponse. Pour notre tâche en termes de désambiguïsation document Word, gloses est que tous les sens de l'ambiguïté des mots. Par exemple, il y a N jeu de mot qui signifie dans le dictionnaire, le document correspondant est la phrase brillant explication de sens N. Cette question dans le contexte dont le contexte actuel, jouent un mot qui à la fin est le sens (le sens). Choisissez la bonne réponse est le numéro de phrase brillant correspondant sens correspondant. Lorsque le « Join connaissances supervisé problème de désambiguïsation mot, » le problème dans la lecture de problème de compréhension / QA, vous pouvez utiliser une partie du cadre de l'assurance qualité pour résoudre ce problème. Grâce à la recherche et des expériences, nous avons constaté que le réseau de mémoire est très approprié pour résoudre ce problème.

Voici un regard sur les principaux modèles d'architecture, principalement contient quatre modules. module de contexte de l'information principalement sur le contexte de la phrase est modélisé, il modélisé comme un vecteur. sens du module brillant de chaque phrase est principalement modelé brillant expliqué, la brillance de chaque exprimé comme vecteur. Dans le module mémoire en permanence pour calculer la similitude de chaque contexte avec brillant, et enfin le dernier passage d'une attention du module mémoire retiré, avec le score que le contexte de brillance de similarité finale grâce à plusieurs tours (passe). Enfin Réponse module ce score de similarité et une note de contexte à l'ajout de MLP, puis prendre SoftMax, obtenir un sens différent des distributions de probabilité, et tout le modèle est formé en maximisant la entropie croisée.

Au cours de l'expérience, nous avons constaté que certains brillant parce que la phrase de quelques mots, à son tour, affecte la génération de vecteur brillant inexact. Nous avons donc amélioré le modèle avec un mot brillant du bit supérieur et inférieur de sens pour développer l'information. Amélioration de phrase est un modèle sur la base du module Gloss expansé, avec le BiLSTM de fusion de la brillance du vecteur de mot supérieur et inférieur.

Notre meilleur modèle par rapport à utiliser pleinement que des données d'annotation BiLSTM, a augmenté de 2,2 points de pourcentage. Ajout de la brillance des connaissances pour améliorer les performances est très évident, alors que notre modèle sur tous les ensembles de données SemEval ont atteint les meilleurs résultats. Influence d'un Multi-pass ci-dessous, vous pouvez voir un mécanisme pour rejoindre multi-hop, vous pouvez élargir la valeur de l'attention entre le sens sens bien et le mal.

Enfin, parler de l'avenir de certains des travaux. Nous avons utilisé uniquement les informations texte brillant, il y a encore une foule d'informations structurelles ne sont pas utilisées dans WordNet. Il y a un lustre que nous mettons chaque modèle directement dans un vecteur d'utilisation, plus « à grains fins » dans la Glose si une corrélation plus significative avec la modélisation du contexte, mais aussi digne de notre réflexion profonde et d'expérimentation.

8. Zhaolou juin Université Fudan

Réseaux de Neurones et partiellement Incorporating Unlabeled marqué de données pour Word Chinese Cross-domain Segmentation

Tout d'abord, parlez-nous de la mission du mot chinois, puis présenter notre modèle, et enfin parler de quelques-uns des résultats de l'expérience.

choses mot chinois, une entrée de texte est l'espoir lorsque la sortie est de la mettre en chaque mot. Cette tâche sera généralement modélisé comme une des tâches d'étiquetage de séquence, chaque jeu de mot quatre étiquettes indiquant si le mot est le début, au milieu ou à la fin, ou le mot lui-même est un mot. Nous utilisons principalement deux corpus, le premier est non marqué dada, la seconde est des données partiellement marquées.

Par exemple, ici, « les Etats-Unis | Président » si deux mots, si vous êtes au milieu du mot à couper, par exemple, « US General », vous sont très faciles à prédire le mot suivant, et prédire le mot suivant est « réunification » probabilité est 0,71. Si au milieu de deux mots séparés, par exemple, étant donné « aux Etats-Unis » pour prédire le mot suivant, très difficile de prédire le mot suivant est « total » (probabilité 0,05). Cette probabilité est donnée par le modèle de langage, de sorte que vous pouvez trouver des informations entre la co-occurrence de mots par modèle de langage, mot pour cette information est plus utile. Et modèle de langage peut être utilisé pour former le dada Unlabeled. Afin de modéliser les caractéristiques de la langue afin de mieux intégrer dans le mot à l'intérieur, notre architecture en utilisant un mécanisme de porte est mis en uvre avec le GRU, les trois caractéristiques font une fusion, et enfin faire un mot.

La seconde est l'utilisation des données partiellement marquées, par exemple, « le président américain à la Maison Blanche, » si « Président » est un lien hypertexte, nous pensons que c'est un mot, produit les données suivantes partiellement marquées.

Ensuite, regardez nos expériences, le domaine est ancien corpus Quotidien du Peuple (journalisme), il existe quatre zones cibles, les finances, la médecine, la littérature et les champs informatiques. Un autre groupe est un roman (immortelle) en tant que champ cible, CTB5 que le champ d'origine.

Nos expériences de modèles dans lesquels ces cinq, un seul ne fonctionne pas en 2017 que par le passé, les quatre autres expériences ont obtenu les meilleurs résultats. Après un endroit assez étrange d'être, nous trouvons dans le domaine de la littérature que vous avez ajouté un inscriptibles partiellement, mais pire que cela, sans effet partiellement marqué.

Analysons ajouter modèle de langage avec plus de partiellement marqué à la fin ce qui est la même chose. "Xiao Zhou", "Tian Linger" sont des noms. Nous avons constaté que ces deux noms sont divisés mal BilSTM, ainsi que le modèle de langage, il y avait un nom ( « Tian Linger ») à droite. Notre analyse a révélé que « Tian Linger » est le protagoniste du livre, elle est apparue plus souvent, le nombre de « petites semaines » apparaît relativement faible. Pour les données non marqué est, le plus de fois si ce mot apparaît, il est facile à l'information de capture par mot de données non marquées. Si le nombre est relativement faible, vous venez de mettre partiellement marqué Ceci est une façon meilleure.

Cette expérience est d'analyser l'influence de la taille de la quantité de données sur les résultats expérimentaux, plus vous utilisez sans étiquette, mieux. partiellement marqué n'est pas le même, il peut être la première hausse après la chute. il partiellement inscriptibles sont très, très bruyant, ce qui provoque plus que vous utilisez, le dos diminue lentement, c'est notre analyse, je vous remercie!

Hangzhou 3D2N sol a pris fin en 2050 l'Assemblée générale a donné naissance à une nouvelle puissance de la technologie
Précédent
Pékin Festival international du film « Temple du Ciel Prix » a annoncé 15 films finalistes, en plus de « errant la Terre, » Quoi?
Prochain
Pourquoi la victoire de Red Devils? Black Shark habitent sur les quatre vice rédhibitoire
Les plus belles personnes, la maison de bienvenue!
son coeur aujourd'hui | dernières noir &! Regardez comment UAV comprenez-vous?
Alibaba: Taobao, Alipay, encore faim, Starbucks Membres ouvrir complètement en place!
Cartes d'extraction de l'information et de la connaissance session | AIS pré-sécher toute la part parlera
Relâchez le réservoir de la rivière Fort, le système mondial de l'eau parc « boisson » 21 Lac Kunming
Seulement cinq mois, puis confirmé! La nouvelle exposition présumée BMW Série 1 chiffre officiel
Pékin Xicheng, les cinq projets non-patrimoine aux successeurs de recruter -
Une nouvelle énergie / carburant / haute performance type de viande Mercedes - Benz Shanghai Auto gamme Afficher annoncé
Millet Wang Chuanguan a déclaré: le mil et la coopération IP et la Cité Interdite a annoncé ce soir la magie nouvelle
Doit être très étonnant, plus de 40 sortes de « Fleurs froid » Habillez le World Park de Beijing
En voiture assurez-vous de reconnaître ces quatre caméras! Quels sont illégal de tirer, ce qui ne surveille?