AAAI 2020 | Université nationale Chiao Tung & modèle cloud proposé DCMN + de la science et de la technologie, à se fissurer « compréhension à la lecture » des problèmes, a remporté d'obtenir les perf

Auteur | nuage de technologie Modifier | Camel

Cet article est l'Université de Shanghai Jiaotong et le nuage ensemble pour compléter la technologie d'avoir un emploi papier AAAI2020 « DCMN +: Dual Co-assortis réseau pour multi-choix Compréhension » interprétation.

Documents lien: https: //arxiv.org/abs/1908.11511

Un étudiant qui étudie dur, vous se déroulera dans la compréhension en lecture, il a besoin de digérer les déclarations subjectives et réponse, fait l'objet de tant de maux de tête candidats. A la suite au-delà des systèmes de l'intelligence humaine dans le domaine de go, échecs et autres jeux, « compréhension de la lecture » est devenu une machine de « détresse ».

À cet égard, le modèle de nuage est proposé pour une meilleure DCMN + technologie RACE de questions à choix multiples et Université Jiaotong de Shanghai.

DCMN + est DCMN améliorer notre projet l'année modèle, la compréhension en lecture à choix multiples pour le type de machine, le modèle pré-formation à grande échelle (comme BERT, etc.) en tant que codeur frontal, la lecture des tâches de compréhension dans plus de machine de type à choix multiples (comme la prune Carnegie RACE Mellon University a le niveau le plus avancé), en plus DCMN applique également à d'autres tâches de classification simple.

Par rapport à d'autres technologies, ses caractéristiques saillantes sont une stratégie de correspondance dans les deux sens, d'autres modèles existants stratégie correspondant sont à sens unique, comme dans l'article - lors de la modélisation (PQ), l'art antérieur seul problème (Q) dans l'article ( la carte correspondante sur P), il n'y a pas de problème dans le mappage de correspondance (Q) de l'article (P), tandis que les informations de mise en correspondance, les DCMN intégrés deux directions. De plus, l'article intègre également la peine de dépistage - Le dépistage de l'article (P) associé au problème dans une phrase pour le raisonnement, les options de réponse interaction - l'introduction de l'information sur les deux stratégies de lecture comparaison entre les options, afin d'améliorer encore les performances du modèle.

description de la tâche

Cet article se concentre principalement à choix multiples type de machine de compréhension de lecture, sa forme est similaire au test d'anglais dans la compréhension en lecture (choix multiple), étant donné un article en lisant et la compréhension de l'article (passage), pour la question (Question) soulevée de options, sélectionnez la bonne réponse (de réponses). Lorsque l'ensemble de données typique est Carnegie - Mellon University a lancé un vaste ensemble de données de la tâche de compréhension de lecture profonde RACE (la compréhension de textes ensemble de données collectedfrom Anglais examens), qui vient de la haute questions d'examen de la compréhension en lecture scolaire de grands ensembles de données, dont environ 28000 articles et près de 100000 questions. En plus de RACE, nous avons également testé notre modèle sur SemEval-2018 Task11, ROCStories, MCTest et COIN Task1 et ensemble de données de type similaire à choix multiples.

Un exemple typique d'un type à choix multiples de compréhension de lecture de la machine

modèle cadre + DCMN proposé comprenant trois modules principaux:

1) le dépistage de l'article de la phrase, le dépistage de l'article (Passage) associé au problème dans une phrase pour le raisonnement;

2) options de réponse interaction, l'introduction de l'information comparative entre les options;

3) la politique de mise en correspondance dans les deux sens, utiliser pleinement l'information mutuelle entre le passage, Questions et réponses, comme un match à deux voies symétriques.

cadre de modèle global, trois modules: Sélection phrase, OptionInteraction et Bidirectionnelle Matching

2.1 Encoder

Dans cet article, le modèle langage direct pré-formation terminée comme un codeur frontal, par exemple BERT et XLNet, encode Passage, Questions et réponses.

2.2 phrases par la sélection (Passage de sélection de phrase)

La sélection de questions les plus pertinentes avec une phrase de l'article est, nous avons calculé les articles dans chaque phrase et question - la similitude des options, choisir la plus appropriée phrase K (hyper-paramètres), après l'entrée des parties du modèle comme base de raisonnement. similarité de phrase détaillée entre les calculées de deux façons: la distance à distance cosinus bilinéaire.

distance Cosinus: article par calcul de la peine et problème - Options pour la distance entre le mot et la valeur moyenne que le score de similarité:

la distance bilinéaire: Les phrases avec le problème des options de calcul bilinéaire score du match, puis pour obtenir le score final de dimension linéaire baisse:

2.3 Options de réponse interaction (OptionInteraction Réponse)

En introduisant les informations de comparaison entre les options de réponse, de sorte que chaque réponse dans l'information par rapport à l'autre réponse à chaque option de réponse n'a pas été isolé, et est calculée spécifiquement incorporé bilinéaire informations de comparaison entre chaque paire d'options Enfin, utiliser le mécanisme de déclenchement de l'intégration de l'information d'option originale.

2,4 stratégie de mise en correspondance bidirectionnelle (BidirectionalMatching)

Correspondant à l'information pour calculer tous deux bidirectionnel cent vingt-deux yuan groupe passage de questions-réponses triplet, à savoir, P-Q, P-A, Q-A. A côté de match entre la voie Q-A de l'illustration: les options de questions et réponses sont codées ainsi, le match dans les deux sens entre le Q-A calculée peut être représentée par les moyens suivants:

2.5 La fonction objective

Après avoir obtenu le match dans les deux sens entre les articles de représentation, des questions, des choix de réponses, nous les mettons en série à travers une entièrement couche de connexion linéaire pour prédire la réponse finale, si elle est l'option de réponse correcte, la perte peut être calculée comme suit:

Les résultats expérimentaux

Nous sur chaque ensembles de données à choix multiples ont atteint les réalisations les plus avancées, y compris RACE, SemEval-2018 Task11, ROCStories, MCTest et COIN Task1.

(Les résultats de la course sur la comparaison, nous avons obtenu le meilleur score)

(En SemEval-2018 Task11, ROCStories, résultats MCTest et COIN Task1, nous avons obtenu le score le plus élevé)

modèle DCMN + sur la race, SemEval-2018 Task11, ROCStories, MCTest et COIN Task1 différents ensembles de données ont atteint le score le plus élevé.

(Résultats de la course en comparaison, pour atteindre le meilleur score)

(En SemEval-2018 Task11, ROCStories, sur MCTest et COIN Task1, ont également reçu le score le plus élevé)

Dans la nouvelle lutte de l'année pour saisir le jour
Précédent
AAAI 2020 | texte de la limite à - un procédé de détection d'un texte de forme arbitraire
Prochain
Pourquoi est fonction de réseau de neurones inactif est pas disponible?
capacité de généralisation de combinaison est pauvre? Essayez d'apprendre la profondeur du solveur combiné d'intégration
AAAI2020 | prochain roman épidémie de coronavirus, a également à la réunion?
Il est temps d'abandonner le réseau de neurones récurrents
projets publics WuHan.support officiellement recrutés amis
évolution nerveuse: une étude non approfondie
De Mahjong à « pesticides », a capturé la répartition de jeu AI
Le plus complet ! Quels sont les grands événements dans le domaine de la PNL en 2019 ?
couplets Fête du Printemps qui AI forte de se fâcher
AAAI 2020 | Université Zhongshan HCP laboratoire: basé sur l'arbre des stratégies d'apprentissage de renforcement progressif, le code open source a été
attaque sous-marque, la musique de nuage Netease fonction « conservateur »
« 2020 Technology Trend »: AI et la Chine, le monde futur de la technologie Mots-clés