Cartes d'extraction de l'information et de la connaissance session | AIS pré-sécher toute la part parlera

AIS (ACL, IJCAI, SIGIR) 2018

Séance 8: Extraction d'information et des connaissances Graphique

1. Meijia Jie Université de Beijing de l'aéronautique et de l'astronautique

Sur les bases Lien Predictionin Connaissances: Max-K Critère et protocoles de prévision

Regardez d'abord la base de connaissances, base de connaissances est une connaissance très structurée, il est une collection de faits, nous mettons habituellement organisé en chambre triple, < H, R, T > Dans lequel la première entité est H, R est la relation, T est la fin de l'entité. Par exemple, un exemple typique ". < Pékin est la capitale, la Chine > . « Nous avons généralement déjà une base de connaissances, il est loin d'être terminé, il y a beaucoup d'informations sont manquantes. Ici, nous avons deux KB, le premier est déjà détenue par G ,, nous supposons que le second est terminé connaissance G *. Liens cible prédite est basée a une certaine G, pour récupérer la différence entre le jeu G * et G.

tâche de prédiction de liaison, généralement liée au score Fonction, triple est une mesure de la probabilité d'un fait. avec < Pékin est la capitale? > Par exemple, la Chine a atteint 10 points, un point a frappé les Etats-Unis, aux Philippines a atteint 0,1 point. Cette possibilité est pas nécessairement la caractérisation probabiliste. Lorsque nous avons la fonction de notation, compte tenu de H et R comment prédire le T? Le fait est que nous avons besoin de chacun marqué possible T, la possibilité de rendements plus élevés. La différence entre les différents modèles, se reflète dans la conception de la fonction Score. Score fonction implique souvent Embedding KB, les entités et les relations doivent être mis en correspondance avec un certain nombre d'espace vectoriel.

Compte tenu Score Fonction, comment la prévision de lien? KB noyant modèle existant, en utilisant le critère Top-k, a k entités sélectionné probabilité la plus élevée de la queue. Tout d'abord sélectionner un k, par exemple, les trois premiers, les 10 premiers, pour chaque tâche de prédiction de lien, toutes sortes d'entités de la queue, en fonction de leur score, sont revenus le plus haut score k entités de la queue.

Ce critère a ses limites. On peut considérer deux exemples, par exemple, supposons que K est égal à 3. Tout d'abord, le premier exemple, Pékin est la capitale qui nous voulons prédire les trois, mais dans ce cas, vous trouverez ce un problème aussi longtemps que la réponse est assez, on n'a pas besoin de trois, de sorte que le problème est causé par taux de précision sera faible.

La deuxième tâche, Pékin qui est né, la réponse à cette question est qu'il ya beaucoup, beaucoup. Vous ne prévoir trois, le taux de rappel est très faible. Top-K est difficile à réaliser toutes les tâches avec précision, rappeler une très bonne performance.

Pourquoi notre max-K est raisonnable? Tout d'abord, top-k sont largement utilisés dans KB domaine Embedding, si je peux prouver un très bon modèle, il apparaît dans le Max-K suivant, et pas pire qu'un haut k suivant la performance, dans ce cas, Max- K est une utilisation raisonnable.

Ici, le modèle implique un « prophète », il connaît toutes les bonnes réponses pour chaque problème de prédiction de lien. Nous considérons comment choisir la réponse. On peut dire que le modèle de rappel Prophète, l'exactitude et la valeur F1 à la valeur max-K est au moins égal au top-k critère de critères.

Avec les directives Max-K, apprendre un modèle, il y a une fonction de pointage, je voudrais utiliser les lignes directrices Max-K pour effectuer des tâches réelles. Le premier est le plus banal Top-k, puisque la plupart du K a demandé de revenir, je vais revenir à la première de K. Le deuxième protocole est l'échantillonnage, la réponse correcte à partir d'une distribution d'échantillonnage de réponses K, le retour de ces différentes réponses. Le troisième est le protocole Greedy, chaque fois que répondre à des questions devaient faire l'échantillonnage, en réalité ralentissement. La réponse peut être donnée immédiatement par le protocole Greedy.

Cela implique une question d'évaluation nous sur quatre modèles et quatre ensembles de données ont fait une expérience très riche prouvé que le critère Max-K mieux que les lignes directrices Top-K.

Nous faisons un modèle de travail est spécifiquement conçu pour le rendre bien performer dans les lignes directrices Max-K.

 2. Logiciel Lin Hongyu CAS

Pépite Proposition pour les réseaux chinois de détection d'événements

Mon premier emploi était pour le do de détection d'événements chinois. l'extraction de l'événement est une des tâches de base très importantes. objectifs de détection d'événements pour identifier certaines catégories spécifiques d'événements déclenchent mot du texte. Par exemple, un journaliste à Bagdad a ouvert le feu sur un char d'entre eux est mort, nous avons identifié de la peine de mort qui est déclenchée par le mot Fired. La détection d'événements est une étape d'extraction d'événement très important. Existant modèle de réseau de neurones basé sur la détection d'événements, la détection d'événements est généralement traduit en tâches de classification au niveau des mots. Tout d'abord, nous avons besoin est mort et mis le feu sur la filière sont classés en deux catégories et d'attaque. Dans la langue anglaise ci-dessus ces mots ont une frontière naturelle, et ses résultats sont très bons.

Pour les Chinois, ce type de modèle au niveau des mots souffrira du problème de la non-concordance entre déclenchement Word. Plus précisément, un mot de déclenchement soit peut faire partie d'un mot, il peut y avoir plus d'un mot. Près de 25% du mot de déclenchement, pas un mot sur les données ERE. Les données sur l'ACE2005 également 15% des données ne sont pas un mot. Le problème ne peut pas résoudre en trouvant un critère de segmentation optimale.

Cet article propose un nouveau cadre de marquage au niveau des mots. l'apprentissage mixte de chaque mot de la première séquence de mots et de phrases qui indiquent, pour enrichir ses informations sémantiques. Après cela, nous utilisons un schéma pour prédire directement à travers les blocs de mots de déclenchement complets sur chaque mot, non seulement dans l'étiquette de mot de déclenchement du bloc de prédiction de mot BIO. Nous avons prédit l'expression de déclenchement, sur le système de classification, décider de la catégorie spécifique.

Nous utilisons une combinaison de la structure sémantique des mots de déclenchement de l'événement chinois. La caractéristique la plus importante, il existe un mot central, comme « blessé », est le mot central blessé centre. Il peut détecter les « blessés » par bloc complet mots « blessure ». Notre modèle de tolérance d'erreur plus élevée.

Tout d'abord, nous utilisons un modèle de base de CNN, et a utilisé le niveau des mots et de la formation au niveau des mots, le niveau de parole de chaque représentation de mot et le niveau mot de chaque mot représente. Utilisé trois approche hybride, la première consiste à relier les deux vecteurs, et le second est d'utiliser la porte importance relative du vecteur au niveau des mots et le niveau de mot de vecteur de détermination. Le troisième est l'utilisation d'une grille pour chaque module, chaque modèle représente mixte, respectivement. Elle exige que nous sur chaque mot, prédisons directement un bloc de déclenchement de mot complet.

Nous avons fait un test sur ACE2005 et KVP2017. En comparant plusieurs niveaux basés sur le mot, le niveau de référence du mot, au moins nous avons d'améliorer la valeur des points de pourcentage F 1.5, notre base est très forte. En même temps, nos modèles traditionnels au niveau des mots ont été comparés, le modèle se trouve dans notre avantage est très évident.

Pour résumer, nous vous proposons Nugget cadre de réseaux Proposition utilisé dans la détection d'événements chinois, il peut effectivement résoudre le problème de l'inadéquation mot-déclencheur.

Notre travail futur, non seulement peut être utilisé dans le problème de la détection d'événements, peut être appliquée à d'autres langues, plus de tâches, y compris NER cette question est très claire.

3. Lin logiciels Hongyu CAS

Adaptive Scalingfor Sparse Détection en extraction d'information

tâche de détection dans l'extraction de l'information parmi les omniprésentes, cette tâche de détection d'événements comme nous venons, reconnaissance d'entités nommées, il semble que le cas est détecté dans l'entité document, l'extraction de relation est la relation entre les entités dans la détection de documents situation.

Existant réseau de neurones, habituellement les tâches de classification des tâches de détection de transition. K a des catégories positives, ce qui représente la nécessité de détecter une catégories cibles et négatives, représente la connaissance indépendante ou arrière-plan. Mais nous avons constaté que l'aide d'une simple classification du modèle utilisé dans la mission conduira à une baisse des résultats.

Cet article est de proposer un moyen de mesurer l'importance de l'échantillon, une mesure de l'importance de la voie de la catégorie positive et négative catégorie dans l'échantillon de formation, basé sur le cadre de l'utilité marginale. Dans le même temps proposé algorithme de mise à l'échelle adaptative, il peut être utilisé directement dans le cadre de la formation de l'algorithme de réseau de neurones pour résoudre le problème de l'inégalité de classe entre le problème de détection.

Tout d'abord, parlez-nous de cadre de l'utilité marginale, nous avons emprunté la notion d'effet marginal sur l'économie, elle représente une augmentation de plus que la consommation par unité d'un produit apporte des effets. Dans notre tâche d'apprentissage de la machine qui est notre évaluation de ses effets sur la nature. Nous pouvons l'effet marginal de la dérivée partielle de l'intérêt négatif des échantillons calculés par celle-ci pour le nombre correct d'échantillons et la prédiction correcte.

Nous vous proposons l'approche de mise à l'échelle adaptative, l'importance de ce qui précède calculée en utilisant l'effet marginal des catégories positives et négatives catégories basées sur l'échantillon pondéré à l'importance du processus de formation de catégorie CKS et par catégorie négative. Dans chaque itération le gradient de laquelle une demande pour mettre à jour le modèle est passe ensuite dans la direction du gradient après pondération. Nous pouvons prouver que notre approche est basée sur une analyse empirique et les résultats des méthodes précédentes sont très cohérentes. Y compris quelques expériences avant de le faire, notre approche a prouvé qu'ils sont liés très cohérente.

Nos résultats, vous pouvez voir les premiers problèmes d'inégalité de classe, il est très important pour la tâche de détection. Par rapport à d'autres systèmes, toutes les questions abordées pour le système sont en mesure d'obtenir de meilleures performances.

Nous offrons un cadre très solide pour mesurer l'importance de l'échantillon. Par conséquent, l'approche adaptative de mise à l'échelle de toute la ligne de base, quelle que soit la moyenne ou la variance, notre algorithme est non seulement mieux, mais aussi plus stable.

De plus, nous faisons également l'analyse de la stabilité d'une 10 expérience. Nous avons tiré terrain boîte expérimentale 10, les résultats sont très robustes algorithme.

Pour résumer notre rapport. Nous vous proposons une mesure basée sur l'importance de la catégorie de l'utilité marginale, Adaptive mise à l'échelle des algorithmes proposé, l'optimisation des réseaux de neurones directement sous forme de plug-ins. Notre algorithme peut très facilement porté sur les différentes méthodes.

Nous espérons explorer plus en profondeur sur le problème du déséquilibre des données à la fin quel est le problème. Les données La distribution est pas le plus important, nous voulons explorer est de savoir si ce problème est pas tout à fait l'écart entre la fonction de perte et de mesures d'évaluation déclenchée. En second lieu, notre méthode peut être appliquée sur plus de tâches et plus métriques d'évaluation.

4. Wang Baoxin IFLYTEK

Disconnected récurrentes Neural Networks pour Catégorisation Text

A propos de la tâche de classification texte, les méthodes sont maintenant couramment utilisés sont basés sur la RNN de base CNN ou d'un modèle. A propos de RNN et le modèle CNN, il y a des caractéristiques de chacun. Par exemple modèle RNN pour l'ensemble de la phrase peut être codée directement, peut bien prendre des informations de dépendance à longue distance, mais l'information RNN peut négliger quelques phrases clés. Pour le modèle CNN est tout le contraire, le modèle CNN peut mieux placé pour extraire les mêmes caractéristiques, mais plus difficile à l'information de capture sur de longues distances dépendantes.

Dans l'exemple de classification par sujet, en baisse de deux phrases idéographique fondamentalement les mêmes, pour déterminer leur classement sont des phrases clés en gras, les mystères mathématiques. Il est une position différente en deux phrases, pour la taille de la fenêtre d'un CNN unidimensionnelle 4, peu importe où la représentation de phrase correspondant doit être le même. Pour RNN pas la même, la sortie de chaque caché tout le temps et toutes les entrées précédentes sont liées. Lors du changement de sa position, car en face de l'entrée a changé, de sorte que la sortie cachée sera une grande différence, qui est classé lors de la modélisation derrière le texte, pour apporter plus de pression.

Pour cette classification de sentiment des exemples suivants, RNN mieux en mesure de traiter ces dépendances à longue distance, le traitement CNN est pas très bon. Comment deux modèles caractéristiques RNN et CNN ensemble, donc nous avons fait Disconnected récurrentes Neural Networks, principalement le modèle invariance de position est introduit dans le modèle à l'intérieur RNN. Le cycle traditionnel des réseaux de neurones, cachés et devant chaque instant de toutes les contributions pertinentes, nous l'avons fait ici équivaut à une limite, de sorte que chaque fois que l'Etat est seulement les mots pertinents et K. Donc, pour tous les mêmes phrases K-mot, peu importe comment déplacer l'emplacement, où la représentation correspondante est la même. Telle est la position que nous sommes présentés à DRNN modèle invariance.

Dépendance à l'égard longue distance. modèle DRNN peut être ajustée très grande fenêtre, lorsque la fenêtre est tourné à droite quand il peut capturer une information de dépendance plus longue distance, mais sans ajouter les paramètres correspondants. DRNN ce modèle peut être considéré comme un modèle spécial CNN. modèle CNN généralement ouvrir une fenêtre avec une taille de fenêtre, fenêtre Si vous augmentez, vous pouvez également capturer des informations de dépendance à longue distance. Mais avec la fenêtre augmente, les paramètres augmentent également, il est facile de surajustement. modèles DRNN n'ont pas ce problème, essentiellement fenêtre a été augmenté, mais les paramètres ne seront pas augmentés. Nous DRNN est le bon modèle pour modéliser la structure du classement ensemble du texte.

Nous avons effectué des expériences sur plusieurs ensemble de données de classification de texte à grande échelle, les résultats expérimentaux ont montré que, dans la base précédente, ou il y avait une nette amélioration.

Dans la pratique, nous avons trouvé modèle DRNN entre longue distance et la dépendance à l'invariance de position ont un compromis. En particulier, lorsque la longueur de la fenêtre, et un modèle DIAGONALE RÉCURRENTE NEURONES RNN modèles plus étroitement, relativement forte dépendance à longue distance, mais invariance de position perdue. Relativement petite fenêtre de temps, et le modèle CNN est plus proche d'une perte de la capacité à compter sur longue distance. Donc, régler la fenêtre optimale est plus important, nous avons fait quelques expériences et avons constaté que les meilleures catégories de fenêtres et de tâches DRNN modèle sont liés, mais la taille de l'ensemble des données de formation ne sont pas pertinents. Par conséquent, dans la fenêtre de sélection, il peut également être considéré pour trouver la meilleure fenêtre sur un petit ensemble de données, puis expérimenter.

DRNN peut bien saisir les informations en fonction de la longue distance et de l'information peut extraire des phrases clés tout au long de l'expérience est également très bon, donc, je vous remercie!

5. Cengxiang Rong CASIA

Faits Relational par extraction d'un bout en bout Modèle Neural avec mécanisme de copie

Nous avons l'habitude exprimé en termes du fait que la relation triple. Un triplet comprenant trois éléments: une relation entre la tête et la queue des entités physiques. Une phrase ne peut pas comprendre le fait qu'une relation peut également contenir plusieurs fait relationnelle. Lorsque la relation comprenant une pluralité de faits, il peut y avoir un cas où une relation de chevauchement entre triples. Par données d'observation, le chevauchement est divisée en trois catégories. Tout d'abord, le type ordinaire, il n'y a pas de chevauchement de. D'autre part, toute l'entité chevauche. En troisième lieu, une seule entité qui se chevauchent. La plupart des travaux existants suscite des inquiétudes dans le type ordinaire de la situation, nous voulons faire est de concevoir un modèle, alors que pour les trois catégories de peines d'extraction de relation sont effectuées.

Voici quelques-unes de nos modèles. Notre modèle est ajouté au codeur un modèle de décodeur, le mécanisme du codeur est de copier la phrase originale représentée comme un vecteur sémantique. Reads vecteur sémantique décodeur de décodage commence, lorsque le décodage d'un triple, une première relation de prédiction, la première copie des entités de la phrase d'origine, la fin de la dernière copie de la phrase originale de l'entité. Quand une copie de la seconde entité, il y a une contrainte, un triple légitime, deux entités ne seraient pas les mêmes, donc quand une copie de la seconde entité, il est de culbute entité n'est pas la même chose. décodage spécifique, quand ils ont utilisé deux stratégies: La première consiste à utiliser un décodeur pour décoder tous les triplets, le second est appelé multi-décodeur, respectivement, chaque triplet un décodeur pour décoder.

Nos expériences sont les suivantes. Sélectionnez d'abord l'expérience de référence est ACL2017, nous avons mis ce modèle est appelé modèle NovelTagging, sa principale méthode consiste à utiliser la méthode de marquage pour extraire des phrases triplets. Certaines données deux ensembles, un ensemble de données est le New York Times, une faible surveillance et la collecte de données, son étiquette est automatiquement sur le sujet, les données elles-mêmes est mis en présence de bruit. La deuxième série de choix est ensembles de données WebNLG de données, afin de renforcer la tâche de génération de langage naturel, nous le prenons à son tour utiliser la tâche d'extraction de relation, il est un ensemble de données supervisé.

Ceci est le résultat global de nos expériences. Nous rapportons deux ensembles de données, respectivement, des trois valeurs PRF modèle de données trouvé notre modèle multi-décodeur, vous pouvez obtenir la meilleure valeur F1. modèle de décodeur unique peut être mieux que certains de notre modèle expérimental standard. De nouvelles expériences de marquage avec notre modèle de base, il est possible d'obtenir la meilleure précision dans les deux ensembles de données, mais son taux de rappel est relativement faible. Multi-décodeur et le modèle de décodeur d'une seule entité à travers le chevauchement forment une seule entité et sont superposés sur le modèle expérimental est meilleure que la référence. Référence dans le type de modèles expérimentaux ne se chevauchent pas mieux que notre modèle. Une phrase ne contient qu'un seul fait triplet, lorsque l'expérience de référence peut être obtenu de très bons résultats. De plus en plus le nombre de la peine de triplets inclus le temps, notre modèle est beaucoup mieux que le modèle expérimental standard.

Enfin, nous avons comparé la différence entre unique et le modèle de décodeur multi-décodeur. On peut voir qu'un seul décodeur et un modèle multi-décodeur en relation avec les performances d'extraction est à peu près le même, mais le modèle de décodeur dans un environnement multi-entité génère de meilleures performances dans le seul modèle de décodeur.

6. Wang Shaolei Harbin Institute of Technology

Extraction conjointe des entités et des relations basées sur un schéma graphique Novel

Notre travail consiste à l'adresse d'une méthode d'extraction d'entités et de relations commune montrant la structure de la tâche. Définition d'une tâche donnée mot extrait en même temps et la relation correspondante entre les entités. La méthode traditionnelle consiste à faire comme une série, la première entité identifiée, la relation identifiée. La méthode est lacunes évidentes de la série, cela conduira à la propagation d'erreur, et ne peuvent pas faire bon usage des liens entre les entités et les relations. Il existe une forte corrélation entre les entités et les relations, il existe une forte corrélation entre la relation. Il y a aussi quelques méthodes, essayez de faire une approche commune, modélisée comme une tâche commune, tout en générant des entités et des relations. Nous concevons des modèles Examinés sous deux aspects, on est ainsi bon usage de la corrélation entre les entités et les relations, il existe une certaine corrélation entre relation et contiennent la relation.

manière plus classique consiste à remplir une méthode de forme, à un mot, cette table est pleine, et le processus de remplissage, il y a quelques astuces pour résoudre les défis vient de dire.

Il y a une autre façon, ces deux sous-tâche comme une tâche à accomplir, pour atteindre l'objectif de l'étude conjointe de la manière de partage des paramètres. L'inconvénient est qu'il est que par le partage des paramètres manière tacite d'exprimer le contact. Gérer la tâche transformé en une tâche en concevant une partie du système d'étiquetage, la Joint Task transformé en problème d'étiquetage de séquence, cette méthode présente un inconvénient majeur, si une entité en même temps et les deux autres entités ont une relation, il ne peut pas appliquer . Un autre problème est que l'utilisation de la relation de dépendance entre, ou implicitement exprimé en comparant le système de Tag, le contact ne peut être explicitement construit.

Inspiré par certains de ce qui précède, nous pensons mettre ce problème en un problème de génération de graphique. Nous définissons un diagramme de structure, la définition du schéma, proposé en fonction de la voie de transfert à générer directement Il figure. En 2014, il a été suggéré qu'une approche basée sur les tâches conjointe pour faire le transfert. Nos méthodes et son approche sur l'approche de modélisation ne sont pas les mêmes. Nous voulons modéliser et convertir directement à la méthode d'analyse similaire pour générer directement une carte.

Nous l'avons mis dans un tableau comme le problème. Est basé sur un diagramme est basé sur un transfert. Nous avons conçu une série de mesures de transfert, il y a deux types, l'un est consacré à la relation entre l'arc généré, et l'autre est de créer un arc solide.

Afin d'assurer le caractère raisonnable de la figure générée, a ajouté certaines limites, ce qui est une séquence de transfert. Est configuration plus spécifique, une série d'opérations, il est possible de générer une bonne vue peut regarder ce processus de changement.

Il y a une combinaison de fonction, la corrélation entre la relation de modélisation est le raisonnement, changer une nouvelle récursif, la méthode de réseau de neurones.

Vue d'ensemble se trouvent dans le numéro public chinois concerné de notre laboratoire:

https://mp.weixin.qq.com/s/6viSk0Ts_7eTfYrWYi_HDQ

7. Li Zhongyang Harbin Institute of Technology

La construction narrative de l'événement évolutionnaire graphique pour le script de prévision de l'événement

Notre travail consiste à la construction d'une des cartes affair narratives pour aider à prédire les événements de tâche de script. Tout d'abord, parlez-nous de ce qui est des événements scriptés prédit. Nous avons une chaîne d'événements, triple ou quadruple chaque événement est une structure, nous donne après un contexte d'événements, de prédire ce que oui le dernier événement. La chaîne d'événements tirés sont basés sur des travaux antérieurs, par exemple, pour donner un paragraphe, la première résolution d'anaphores chose, obtenir entité de noms. D'après le texte de l'ordre avec une entité apparentée au verbe extrait, décimé dans l'ordre décrit dans le texte, vous obtenez une chaîne d'événements.

La méthode précédente sur la tâche de prédiction des événements scriptés peut être divisé en deux catégories, l'une est la méthode basée sur des événements, tels que ceux basés sur l'information mutuelle, bigramme et la méthode basée sur les événements du réseau de neurones, l'autre est la chaîne d'approche basée sur les événements tels que bilinéaire, modèle de langage de LSTM et d'autres méthodes, telles méthodes prenant en compte la séquence d'informations d'événements. Ces prédécesseurs méthodes, en raison de la rareté des événements est plus grave, entraîner une certaine déviation dans les prévisions, pas en mesure de tirer pleinement parti des riches connexions denses d'information entre les événements. Peut obtenir beaucoup de la chaîne d'événements par extraction de texte sur une grande échelle, la plupart des candidats ne sont pas derrière l'étiquette, seul le contexte, de sorte que ce document construit l'affaire narrative basée sur des cartes à grande échelle ne pas la chaîne d'étiquettes d'événements tâche scénarisée de prédiction des événements idées.

Notre approche est divisée en deux étapes, la première étape consiste à construire un atlas Affair narratives, la deuxième étape est l'apprentissage représentation du réseau et l'inférence sur la carte. Plus précisément, la première étape dans la chaîne d'extraction d'événements, personnes en face de la méthode est la même, l'utilisation d'une représentation raisonnable de l'événement. Si l'utilisation directe de triplés ou quadruplés serait trop clairsemée, ce chiffre serait infini. Nous avons adopté une représentation plus abstraite de la relation entre les entités associées à la dépendance sémantique verbale avec un infinitif. Il est plus abstraite, la généralisation est beaucoup d'événements spécifiques, l'échelle de la carte sera réduite en conséquence. Enfin, on peut calculer la transition de probabilité entre les événements par formule simple. Prédécesseurs fait beaucoup de méthode d'apprentissage du réseau, ladite échelle de carte parce que nous construisons très grandes, les méthodes précédentes ne peuvent être naturellement appliqués à notre tâche. Nous vous proposons une méthode de représentation du réseau d'apprentissage supervisé, appelé Scaled Graph Neural Network (SGNN), afin de résoudre les problèmes de l'affaire à grande échelle carte déduisent.

expériences à l'échelle des données en utilisant le papier est relativement grande, on extrait du corpus New York Times d'un million d'articles en anglais qui donnent la chaîne d'événements d'environ 6 millions. affaire narrative Atlas constitué d'environ 100000 noeuds dernier événement, ainsi que plus de 600 millions bord dirigé. Il y a des balises ensemble de formation 140.000, le développement et les tests sont 10000. Comparaison des méthodes devant des gens, notre modèle bientôt atteindre un taux élevé et stable de précision, et a obtenu les meilleurs résultats.

8. canal CAS navire Ding océan, travailleur

L'amélioration des connaissances plongement du graphe Utilisation de contraintes simples

La connaissance est une carte à grande échelle des faits ensemble de triplets, chaque triple contient la tête et la queue entité entité de relation. Apprend l'idée de base est d'apprendre à quantifier la relation entre l'entité et dit que d'une part de simplifier le fonctionnement de la carte, tout en permettant de maintenir schéma de structure interne, offre la possibilité de raisonnement précise la cartographie à grande échelle des connaissances. Une partie du modèle de base au début, même si son efficacité est relativement élevé, mais la précision de l'inférence est très limitée. Dans certains des derniers travaux, il existe deux méthodes principales pour améliorer encore les performances de l'apprentissage de raisonnement de représentation. La première méthode est le modèle de base, l'utilisation des données externes, telles que du texte ou des règles logiques. La deuxième méthode consiste à concevoir un modèle plus complexe qui contient le modèle en utilisant des réseaux de neurones de profondeur. Cependant, la première méthode repose sur des données spécifiques, manque de polyvalence. La deuxième méthode permettra de réduire le calcul de l'efficacité.

Notre idée principale est d'ajouter quelques contraintes simples sur la cartographie vectorielle des connaissances, à la fois pour maintenir un rendement relativement élevé, tout raisonnement améliorer les performances.

Nous vous proposons deux contraintes, le premier est pour l'entité d'ajouter une contrainte non-négatives, il est que nous avons besoin d'une non-entité dans un espace vectoriel dans le négatif. Pour la contrainte non-négativité, une compréhension intuitive de tous les encodages sémantique négative n'est pas nécessaire. Nous considérons que la deuxième contrainte est le vecteur de relation contient environ contraintes, parce que l'implication est pas nécessairement dans tous les cas est strictement uniforme, donc ici, nous aurons un degré de confiance.

Nous utilisons le modèle de base CompIEx, les entités et les relations représentées comme vecteur complexe, comprenant une partie réelle et une partie imaginaire. Chaque dimension des parties réelles et imaginaires de la contrainte de non-négativité exige que chaque entité est supérieur à 0 et inférieur à 1. Il contient la contrainte approximative comporte deux parties, la première partie est nécessaire pour répondre à la partie réelle et imaginaire contient la relation modèle de l'ordre. La deuxième partie est introduite dans les variables d'écart à la variable d'approximation du modèle.

Vous avez déjà une représentation dans l'entité et les entités et les relations pour après des vecteurs de contrainte, puis définir la fonction d'optimisation, nous pouvons enfin résoudre sous les contraintes du vecteur. Enfin, nous faisons une analyse de la complexité de la complexité de la contrainte non-négativité dépend du nombre d'entités dans un lot, il contient environ la complexité dépend du nombre de contraintes inhérentes, ce qui est beaucoup plus petit qu'un lot de tuples nombre, et est donc contraint la complexité du modèle et le modèle original du même ordre, est un algorithme très efficace.

La première expérience que nous faisons est la prédiction de lien, WN18, ensembles de données à grande échelle FB15K sur la tâche fréquemment utilisée, il y a un DB100K est basé sur un vaste ensemble de données construit sur DBPedia. Il existe trois méthodes principales de comparaison, sont une représentation plus classique d'une partie du modèle de base de l'apprentissage, les derniers résultats utilisent mieux des règles logiques de certains des modèles plus complexes et certains modèles récemment publiés, qui contient également un réseau de neurones en fonction de la profondeur modèle. Notre méthode avec des contraintes sur les trois ensembles de données principaux indicateurs sont mieux que la méthode comparative.

Là encore, j'ai appris cette méthode d'intégration de l'analyse interprétabilité. La première partie est le vecteur d'entité d'analyse visuelle, le vecteur peut être pour l'entité explicative, l'entité qui est de dire que nous espérons chaque vecteur de dimension sont capables de coder la sémantique spécifique. Le deuxième vecteur d'entité d'analyse visuelle est la pureté sémantique. Nous espérons que plus la valeur d'une des entités de dimension appartiennent à la même catégorie que possible. Nous mesurons l'entropie pureté sémantique. Pour l'analyse visuelle, nous considérons la relation entre le vecteur contient trois types, équivalents, inverse, contient en général, ces trois types de relations nécessite l'intégration contient les parties réelles et imaginaires d'un certain ordre de se rencontrer. Vecteur avec leurs cartes de chaleur pour le visualiser, nous pouvons voir notre vecteur de relation ne réunissez pas ces conditions.

Alibaba: Taobao, Alipay, encore faim, Starbucks Membres ouvrir complètement en place!
Précédent
Relâchez le réservoir de la rivière Fort, le système mondial de l'eau parc « boisson » 21 Lac Kunming
Prochain
Seulement cinq mois, puis confirmé! La nouvelle exposition présumée BMW Série 1 chiffre officiel
Pékin Xicheng, les cinq projets non-patrimoine aux successeurs de recruter -
Une nouvelle énergie / carburant / haute performance type de viande Mercedes - Benz Shanghai Auto gamme Afficher annoncé
Millet Wang Chuanguan a déclaré: le mil et la coopération IP et la Cité Interdite a annoncé ce soir la magie nouvelle
Doit être très étonnant, plus de 40 sortes de « Fleurs froid » Habillez le World Park de Beijing
En voiture assurez-vous de reconnaître ces quatre caméras! Quels sont illégal de tirer, ce qui ne surveille?
Vous n'allez pas changer de téléphone? ! machines de fonction à venir bientôt faire face à un combat!
2019 District Yanqing Bed and Breakfast Butler Talent Competition a organisé avec succès
Comment ne pas illégal demi-tour, quelques photos pour comprendre, a recommandé que la collecte des propriétaires!
La moitié - Villarreal 1-0 Espanyol, Yi Wola pause
Aujourd'hui, le son de base | otaku robot maison de l'actrice hollywoodienne, qui pense comme?
l'équipe de hockey sur glace féminin chinois tournoi amical victoire 1-0 sélectionneur de la Pologne: C'est un bon début