Q & Système d'algorithme spécial | AIS pré-sécher toute la part parlera

AIS (ACL, IJCAI, SIGIR) 2018

Session 6: Question Answering

1. Lin Yankai Université Tsinghua

DenoisingDistantly domaine ouvert sous surveillance Question Answering

Compréhension à la lecture (Reading Comprehension) Nous sommes maintenant un sujet très chaud, il peut refléter la capacité du traitement et de la compréhension machine actuelle du langage naturel. D'abord, nous regardons ce que la machine de tâche de compréhension de lecture est une définition spécifique? La lecture est la compréhension machine un problème et vous donne les paragraphes pertinents extraits de la réponse au problème d'un paragraphe donné.

À l'heure actuelle, nous avons lu dans la tâche de compréhension de la machine a obtenu de très bons résultats. Actuellement, les chercheurs ont proposé de nombreux modèles de compréhension de la lecture de la machine et obtenu de bons résultats dans l'évaluation de sa mission publique. Cependant, il y a un problème de compréhension de la lecture de la machine: il nous oblige à donner à l'avance et émettre un texte connexe, puis extraire la réponse à la question dans un texte donné. problème de compréhension de lecture de la machine qui l'empêche bien appliquée dans la pratique. En général, dans notre vie quotidienne Q & Une scène ne peuvent être obtenus à l'avance et les documents relatifs à la question de.

Par conséquent, les chercheurs ont proposé une tâche plus pratique: question ouverte de domaine (Question ouverte Domaine répondeur téléphonique) et essayer de combiner la recherche d'information et de technologie de compréhension à la lecture pour résoudre cette tâche. Par exemple, nous avons un problème « la population de Beijing est combien » D'abord, nous utilisons un moteur de recherche (ou d'autres systèmes de recherche d'information) et récupérer les paragraphes pertinents de cette question de la bibliothèque de texte, puis récupérer ces paragraphes compréhension de la lecture , extrait la réponse ultime à cette question est la population de Pékin.

répondeur de question ouverte domaine existant simplement utiliser la recherche d'information et de compréhension de lecture, aucune utilisation récupérée paragraphe, l'autre ne peut pas être identifié au paragraphe récupéré est vrai et quels sont les problèmes associés.

Pour résoudre ce problème, nous pouvons apprendre de l'homme aux questions de réponse soulevées dans le cadre d'un système de répondeur question ouverte domaine efficace et pratique. Quand les humains pour répondre aux questions, nous allons d'abord utiliser un moteur de recherche permet de récupérer un certain nombre de questions liées au paragraphe et lire rapidement ces documents, déterminer quels sont les problèmes de paragraphe et connexes, et auquel le paragraphe et les questions connexes en détail lire le dernier paragraphe de l'information sommaire pour toutes la question de réponse.

Face à un problème et récupérer le paragraphe associé, notre premier système à faire avec un sélecteur de paragraphe de probabilité lecture rapide chaque paragraphe peut contenir la réponse, la compréhension en lecture ne peut contenir les paragraphes de réponse, chaque extrait le segment réponse paragraphe, résumé final de tous les paragraphes de l'information pour obtenir une réponse.

Nos expériences en utilisant les trois cours Question domaine ouvert populaire Répondre ensemble de données Quasar-T, SearchQA et TrivialQA. Notre système sur trois ensembles de données ont fait augmentation relativement importante, mais nous voyons aussi que notre système peut atteindre et ils ont toujours un effet dans le cas d'un petit nombre des paragraphes les plus pertinents. En outre, par rapport top1 de notre effet TOP5 du système car il y a encore place à l'amélioration d'une douzaine de points, alors la réponse peut adopter de nouvelles façons de réordonnancement pour améliorer son efficacité.

Enfin, le partage d'une étude de cas. Le problème est qu'il est ce qu'un artiste peut utiliser ses mains gauche et droit au travail en même temps, la réponse est Leonardo da Vinci. Clue à cette question est contenue dans trois paragraphes différents, le premier alinéa fait référence à la Leonardo da Vinci était un artiste, Leonardo da Vinci mentionné au deuxième alinéa utilise la main gauche au travail, mentionné au troisième alinéa de Leonardo da Vinci travaillera avec la main droite . Nous avons besoin de toutes les informations sur l'utilisation des paragraphes pour déterminer la réponse à Leonardo da Vinci.

Pour résumer notre travail. Les travaux de façon que nous sur l'homme lecture modélisation de compréhension, peut obtenir de bons résultats dans le cas de seulement quelques paragraphes. Merci!

2. Wang Zhen Baidu PNL

Extraction du candidat commun Trainingof et réponse de sélection pour la lecture Comprehension

Tout d'abord parler de la tâche. Nous considérons que ce côté est également ouvert champ de compréhension de la lecture, dans cette scène ci-dessous, un fragment de problèmes ont tendance à être des documents plus connexes générées par le formulaire de recherche, selon les fragments de ces documents, en donnant la réponse finale. Mais il y a deux façons le courant dominant ne peut pas prendre correctement en compte, j'ai beaucoup de réponses.

Nous voyons un exemple de compréhension en lecture. Le problème est que le rhum, la chaux et le cola constitue une sorte de cocktail, la réponse est un Cuba libre. On peut voir par cet exemple comporte trois zones ouvertes de compréhension à la lecture, d'abord la redondance, la réponse correcte peut apparaître dans plusieurs fragments de texte à l'intérieur. Suivi par fragment de prêter à confusion, de mauvaises réponses, il est également possible de faire correspondre la partie de l'information du problème. Le troisième est complémentaire, il faut parfois plus d'informations au texte d'aide pour pouvoir répondre correctement à cette question.

Nous considérons que ces trois caractéristiques, les solutions proposées, la modélisation des réponses de candidats. Tout d'abord, un ensemble de réponses de candidats produira, en tenant compte de la corrélation entre les réponses des candidats, pour donner la réponse finale.

Tout d'abord construit en deux étapes du candidat d'extraction d'aller, aller pour sélectionner le mode de réponse, à l'étape de réponse sélectionné, nous présentant les mécanismes d'attention basés matrice de corrélation, la modélisation de la relation entre le candidat et le candidat. Peut-on les modèles de formation commune en deux étapes par la méthode d'apprentissage de renforcement. Notre approche est en réalité plus efficace dans la compréhension de lecture de plusieurs ensembles de données qui ont obtenu de bons résultats.

Regardez d'abord la première étape de notre modèle, l'extraction des candidats, ainsi que dans le cas du texte à un ensemble de problèmes, nous modélisons la probabilité de l'ensemble des candidats.

La deuxième étape de notre modèle est le choix de réponse d'étapes, dans le but d'un problème donné, ainsi qu'une collection de jeu candidat de texte sur le cas pour chaque modélisation des candidats, la probabilité a finalement été choisi comme la réponse finale. Car ici des réponses des candidats d'information, de sorte que nous considérons à ce stade est principalement des réponses de candidats aux questions de modélisation.

D'abord, nous allons aller à générer des réponses de candidats que d'après les réponses de chaque candidat a indiqué que basée sur la construction du mécanisme de l'attention de la matrice de corrélation par le coefficient de corrélation, générant une quantité de référence pour chaque candidat de l'article peut utiliser tous les autres candidats à répondre informations.

Par ce message, nous avons conçu un certain nombre d'autres caractéristiques sur les réponses de candidats, après l'intégration de ces caractéristiques, une fois encore quelques fragments du texte, et enfin obtenir le score final des réponses de candidats. Par forme normalisée, nous pouvons produire la réponse finale que la probabilité de réponse finale de chaque candidat.

Nous sommes dans les trois premiers ensembles de données pour faire l'expérience, les deux premières sont deux ensembles de données en anglais ce type de problème est le casse-tête de problème.

Nos résultats, la formation conjointe que soit seule méthode de formation ou de travaux antérieurs, les résultats sont bien meilleurs.

Dans Du-Ranker ci-dessus, nous avons également testé notre modèle a un considérablement amélioré. Caractéristiques nous avons introduit dans les choix de réponse à l'intérieur du module, nos modèles sont utiles, en particulier l'association entre nos réponses candidats proposées aux réponses candidats, aide notre modèle est le plus grand.

Enfin, regardez un cas. Par l'attention de la matrice, il ne saisit la corrélation relativement forte entre les réponses des candidats, une meilleure intégration des fonctionnalités grâce à cette association, qui donnent enfin la bonne réponse est utile.

3. Wang de l'Université de Pékin

Multi-PassageMachine lecture de texte avec vérification de réponse croisée Passage

Aujourd'hui, nous parlons de certains aspects du travail ACL long article dans cette année, nous voulons surtout résoudre le problème de plusieurs chapitres comprendre le problème, nous pouvons mettre en avant pour résoudre ce problème en réponse validation croisée chaque chapitre, ce travail est ce que je fais quand Baidu stage travail.

Tout d'abord, parlez-nous de ce qui est une compréhension de lecture multi-chapitre. Avec seulement deux haut-parleurs compréhension de la lecture présentés ne sont pas les mêmes. Nous faisons plus chapitre dans la compréhension en lecture, ils sont généralement donnés plusieurs paragraphes, ces paragraphes sont généralement récupérés par les moteurs de recherche en arrière. Nous voulons trouver la réponse finale dans les paragraphes multiples.

Il a plusieurs caractéristiques: Lorsque nous avons mis sur un problème de compréhension de lecture lorsqu'elle est appliquée à des données réelles Web doit faire face, parce que les moteurs de recherche retour à l'article, le plus souvent avec des problèmes liés articles indépendants les uns des autres article , de sorte que ces articles, parmi eux, certains articles ont la bonne réponse, il y a quelques articles en rapport avec le problème, mais ce n'est pas la bonne réponse, ou pas de réponse. Hou et ces options sont généralement est très confusément. Sur la base de ces caractéristiques, nous pouvons explorer une façon de résoudre ce problème. Notre expérience est faite pour les deux ensembles de données, qui sont ensemble de données de MS-MARCO proposé de Microsoft, il y a une Baidu propre ensemble de données DuReader, qui est dans la requête chinoise, les deux ensembles de données sont des moteurs de recherche le démarrage réel de l'utilisateur à lire pour comprendre la véritable retour pour récupérer des documents.

D'abord, nous regardons un exemple de cela est hors de l'échantillon de données MS-MARCO, il est la question quelle est la différence entre une culture mixte et culture pure? La bonne réponse est le sixième passage de la sortir de l'intérieur, revenir pour récupérer des articles qui, avec la bonne réponse 3,4,5 ont des réponses relativement similaires. Il peut trouver des preuves des six premières bonnes réponses à 3,4,5 grâce à notre validation.

Sur la base de cette fonction, nous vous présentons notre modèle. Tout d'abord, nous voulons prédire la réponse limite, ce qui est la même que la compréhension de la lecture traditionnelle, qui est, de trouver les positions de début et de fin. La seconde est de prédire les réponses de contenu, c'est-à-dire, en plus de dire que nous regardons au-delà de la position de départ et de fin, nous devons prévoir le contenu de la réponse est pas très bon, donc vous pouvez former plus de notre signal de modèle . La troisième réponse est la validation croisée document, qui est l'objet de notre article, qui est réalisé par le mécanisme de l'attention, il faut d'abord se base uniquement sur le score contenu est calculé pour calculer la réponse, il a dit que est la somme pondérée, puis nous prêtons, pour une réponse à un autre passage de courant à recueillir des informations. De cette façon, la réponse à la représentation actuelle, ainsi que la vérification des éléments de preuve recueillis, peuvent être représentés par un vecteur, nous accolez à travers une alimentation couche avant, vous pouvez obtenir un score de vérification finale.

Notre architecture du modèle entier est que, pour un passage d'articles individuels donné à effectuer le codage, le codage fait, nous correspondant Q-P, c'est le même que le traditionnel. La couche inférieure est partagée, la couche externe fera trois prédictions, la prévision est une frontière, et le second est la teneur prédite, et la troisième réponse est la validation croisée document.

Les trois modèles peut être effectué une formation commune. Il y a trois buts, trois buts de perte correspondant aux trois fonctions, 1 et 2 par un simple contrôle de son poids. Enfin prédire quand les trois modèles se combinent pour prendre place. Prenez la voie ici un peu simple, mais se sent un peu règle heuristique, cela peut être encore améliorée après le travail. Voici juste multiplier les ensemble, il est également efficace.

Ceci est notre modèle sur deux ensembles des données de performance, y compris MS-MARCO et DuReader. Dans les deux ensembles de données que nous avons obtenu les meilleurs résultats à l'époque, mais il y a une amélioration plus évidente. Nous faisons des données MS-MARCO recueillies étude Ablation, vous pouvez voir le contenu modèle et modèle de vérification a une grande contribution, et une formation commune est également très important.

Nous avons joué trois modules prédit scores regardions, nous pouvons voir une relation plus cohérente entre la taille du modèle et des limites ContentModel, après avoir ajouté le modèle de vérification, tout l'ordre a évidemment changé. C'est, nous pouvons capturer la vérification du modèle et des limites de contenu avec des informations différentes, ce qui est document de diffusion de l'information.

Il y a aussi un problème, c'est pourquoi le modèle de contenu efficace? Par cette image, nous avons mis le modèle pour prédire les probabilités limites et contenu Probabilités jouer look. Tout d'abord, nous pouvons voir que vraiment apprendre des limites bien, il a vraiment appris une position de départ et de fin, mais cette information interne pour la réponse, il n'apprend pas, quel est le mot dans la réponse est bonne, ce qui est le mot mauvais, mais nous pouvons juste quelques mots dans la réponse à l'apprentissage de poids par modèle de contenu. Nous avons donc le droit d'apprendre par le contenu du poids du modèle, ces mots représentent ensemble, vous pouvez obtenir des réponses représentation plus appropriée.

4. Wu Wei Université de Pékin

Multi-PassageMachine lecture de texte avec vérification de réponse croisée Passage

Aujourd'hui, à part que nous dans la LCA, les questions de la communauté des réponses et des réponses aux questions sous-tâches maintenant réseau de compression, le titre est long, nous devions présenter ces quiz trois communautés et les choix de réponse, et les questions sont réseau a comprimés Qu'est-ce que cela veut dire.

première communauté Q & A, dans le site Web du réseau une communauté Q & A, nous sommes libres de poser des questions à ce qui précède, il y a beaucoup de répondants différents peuvent répondre pour lui. Questions et réponses communauté, Baidu domestiques, Baidu Post Bar, ou savoir presque, appartiennent à la communauté sous forme de questions et réponses. Communauté Q & A Q & A avec la forme ordinaire de deux caractéristiques importantes différentes.

Les premières, questions et réponses est une question, répondre à une phrase, les questions communautaires et des questions de réponses peuvent être réparties en deux formes différentes. La première est la partie principale de la question, la partie principale donne principalement des informations sur les éléments clés des questions incluses dans probablement exprimé en quelques mots. La deuxième partie est le corps des questions, les informations mentionnées dans le nouveau retraiter le titre de section, ajouter quelques informations. Par exemple, quand le savoir presque poser des questions, comment évaluer Cui, tel est le titre du problème. Sa partie principale pourrait dire cui utilisé pour être un hôte de télévision en circuit fermé, une partie du travail des anti-OGM ce qu'il a fait derrière, et maintenant faire un travail supplémentaire. Ainsi, nous pouvons voir clairement que les questions et réponses dans la Communauté peuvent être divisés en deux parties.

La deuxième caractéristique, parce que la communauté est sous la forme de questions et réponses texte web, par rapport aux questions et réponses ordinaires, et il est le problème de bruit répétitif être plus grave.

Les réponses aux questions et réponses choisies dans la communauté, quels sont les aspects de celui-ci tentent de résoudre? Dans la communauté Q & A peut avoir de nombreuses réponses différentes à une question, pour l'utilisateur, si vous pouvez développer un outil automatisé pour toutes sortes de réponses, les réponses sont venus devant les bonnes et mauvaises réponses, vous pouvez parcourir ces questions et réponses aide du site.

Parlez-nous de notre modèle proposé, les questions réseau compression. Selon les deux caractéristiques existantes, selon la partie principale du problème pour compresser les informations indiquées questions. Notre réseau est divisé en trois zones: une question est comprimé, il peut être la partie principale de la question, selon décomposer les informations d'en-tête de question en deux parties. La première question est la partie parallèle et la seconde partie et est perpendiculaire aux questions. section parallèle contient le titre principal avec des questions plus des informations pertinentes, la section verticale contient des informations à l'extérieur de la partie principale de la question, des informations supplémentaires fait partie des principales questions à poser des questions.

La deuxième partie est l'alignement entre les questions et les réponses, des réponses à des questions de extraites représentation, les parties les plus pertinentes.

La troisième partie, ces éléments d'alignement sont recueillis et éventuellement obtenir deux réponses à quelques-unes des caractéristiques du type d'information.

Parlez-nous de ces deux ensembles de données, une pratique les résultats des 2017 SemEval2015 et contraster ces deux ensembles de données. Notre basée sur le Web que quelques-unes des caractéristiques traditionnelles de la méthode manuelle, et au-dessous certains des résultats du réseau de neurones modernes plus complexes se sont améliorées.

Enfin, faire un peu sommaire. Nous vous proposons une question quiz communautaire dans la compression du réseau, sur la base de purs mécanismes de l'attention, il peut être formé très rapidement. Il utilise les informations à la communauté est la question des questions et des réponses doivent distinguer entre le sujet et le corps, en utilisant la relation des communautés distinctes des questions et des questions de réponses peuvent être compressées, le contenu est tout ce que je veux présenter aujourd'hui, je vous remercie!

5. Liu opération CASIA

CurriculumLearning pour la génération de réponse naturelle

Notre modèle de travail principal pour les données actuelles de formation de qualité variable du phénomène et du design.

D'abord présenté le cours, il est une stratégie d'apprentissage de la machine de formation en termes simples, il est simple à apprendre les données de formation, des données complexes formation réapprentissage.

La deuxième tâche est introduite: Natural réponse Génération (NAG, la génération de réponse naturelle), vous pouvez comparer les connaissances Q & A (KBQA) et le robot dans le chat (Chatbot). retour KBQA est la réponse exacte, Chatbot get est compatible avec les questions et les réponses couramment. NAG réponse exacte, cohérente, fluide, peut être considéré comme la tâche et Chatbot KBQA Unissez.

Maintenant, la méthode, principalement générés artificiellement des données sur Internet, tels que Baidu connaître d'autres données Q & A communauté. Questions et réponses Une communauté dans un environnement réel, il y aura toujours une partie de la baisse de la qualité des réponses, en filtrant, sélectionnez les données contient l'entité réponses correctes, les données brutes seraient en mesure de filtrer 10% des données de formation. Bien que les entités corriger, mais la qualité globale est encore relativement faible.

Sous les données de la formation actuelle, deux défis. La première consiste à sélectionner des données de formation de haute qualité est particulièrement difficile. Deuxièmement, même si nous pouvons choisir des données de formation de haute qualité, la taille des données de formation aussi baisse a été particulièrement marquée.

Les données existantes générées directement à partir d'une réponse précise, cohérente, fluide est difficile, nous l'avons mis désintégré. Tout d'abord, de la faible qualité, haute des données de formation de l'école contient une brève réponse à un modèle de base, par exemple, d'apprendre à interagir avec la base de connaissances, le prochain de haute qualité, longue, les données de formation complexes, un meilleur apprentissage modèle, espérons que ce modèle peut revenir précis, cohérent, réponse fluide.

L'idée a ce qui précède deux questions, on est de déterminer la complexité des questions et des réponses (paire), il a besoin de formation et des données de qualité ensemble. L'autre est de déterminer les progrès d'apprentissage lors de l'apprentissage des données de formation simples, lors de l'apprentissage complexe à partir des données de formation.

À cette fin, nous avons conçu le modèle suivant: d'abord sélectionner une réponse commune par exemple par un sélecteur (Q & A sur) et les objectifs des instances, l'objectif des exemples est de haute qualité, les données d'apprentissage complexes. Nous avons deux choix de stratégies, un choix basé sur la fréquence des mots, et le second est la sélection de syntaxe. Après une formation avec l'exemple classique et les données d'instance cible, ce qui suit est un exemple de planification (c.-à-cours). Selon un exemple qui est entrée au modèle de planification pour générer une réponse naturelle, la réponse à la conclusion que générée.

Notre cours d'exemple ordinaire diminue, l'instance cible est incrémenté.

Les résultats de notre modèle Quel que soit le choix ou sélectionnez la grammaire de vocabulaire, mieux que l'effet précédent modèle. La nécessité de multiples triplets aux questions de réponse, pour améliorer la performance de notre modèle est plus évident. De plus, nous avons également évalué la précision artificielle, la fluidité et la cohérence des trois indicateurs, le modèle correspondant aussi est mieux que la méthode précédente.

6. Xiao Wei Chi Beijing Institute of Technology

Questions de qualité: Évaluation de la qualité de l'AQC paire par transductive Multi-View Learning

Nos travaux de recherche de fond est la communauté Q & A. Q & A Q & Une communauté est un moyen avec le développement de Wbe2.0 né sur ce Q & Une plate-forme, les utilisateurs peuvent poser des questions, alors que d'autres utilisateurs peuvent répondre aux questions ci-dessus. Avec le développement de questions communautaires et réponses, ces questions et réponses aux questions et les réponses données ci-dessus de la plate-forme également de façon cumulative de plus en plus, après ces questions et les réponses peuvent encore être récupérés pour un moteur de recherche, utilisé pour répondre à de nouvelles questions à d'autres utilisateurs. Parce que certaines des questions et réponses ci-dessus, habituellement écrites à la main, donc il y a beaucoup de problèmes de qualité.

Grâce à une étude utilisateur a révélé que plus de 45% des questions et des réponses sur la qualité est pas particulièrement élevé. Un grand nombre de questions de faible qualité et des réponses, d'une part aura une incidence sur l'expérience utilisateur des utilisateurs des moteurs de recherche, d'autre part va perdre beaucoup de ressources informatiques et de stockage, entraînera aussi une baisse de la Communauté Questions et réponses utilisateur de la plateforme adhésivité. Par conséquent, de nombreux chercheurs ont commencé à étudier comment juger de la qualité de la communauté Q & A. Certaines méthodes conventionnelles, est généralement réalisé en extrayant certaines caractéristiques, dans le modèle de régression ou de classification.

Ces méthodes, il y a les deux questions suivantes:

Tout d'abord, l'intégration de fonctionnalité multi-angle. Une qualité Q & A est généralement causée par beaucoup d'aspects à décider. Et tous les aspects détermine la nature du Q & qualité complémentaire. Grâce à une seule connexion, vous pouvez obtenir des résultats différents. Par exemple, sur cet exemple, nous regardons la réponse, pourrait penser que c'est une très bonne paire de questions et réponses, mais si vous avez regardé le problème, vous trouverez décrit dans cette question est assez vague, il y a beaucoup d'erreurs grammaticales, dans son ensemble, questions et réponses la qualité est pas particulièrement élevé.

En second lieu, l'absence de données d'annotation. De nombreuses méthodes d'apprentissage existants doivent pouvoir compter sur un grand nombre de données d'annotation et d'acquisition de données d'annotation est très complexe et nécessite de main-d'uvre. En présence d'un grand nombre de données en ligne contient également sans étiquette beaucoup d'informations utiles, mais dans de nombreux processus existants, ils ne sont pas pleinement utilisées.

Par conséquent, nous proposons d'utiliser une approche transductive vues multiples tout en répondant à la fusion de fonction multi-angle, ainsi que la question de l'utilisation des données non marquées. Dans l'apprentissage multi-vues, nous avons appris à travers un espace public, dans l'espace public, alors que la cohérence des informations sur les différentes perspectives en compte. Dans l'espace public, mais nous sommes également en mesure de maintenir les caractéristiques intrinsèques des caractéristiques en perspective individuelles. Nous utilisons également des données marquées et les données non marquées ensemble pour apprendre l'espace public, réalisé l'évaluation de la qualité des réponses dans l'espace public.

Lorsque perspective de modélisation spatiale, l'utilisation de la matrice de Laplace espace pour chaque angle de vue exprimé. Utilisez la relation entre chacune des questions et réponses et les questions et réponses, droit d'être représenté dans ce jeu-questionnaire.

Dans l'étude de l'espace public, nous apprenons en minimisant le désaccord individuel espace en perspective et de l'espace public. Après le public a appris sur la représentation spatiale, nous utilisons un modèle de régression pour évaluer la qualité des réponses dans l'espace public. Les deux pertes d'optimisation conjointe, vous pouvez obtenir les résultats de l'évaluation de la qualité des questions et des réponses.

Nos expériences ont été données extraites StackExchange monter, respectivement, en utilisant les deux ensembles anglais et le jeu. Nous utilisons des questions des utilisateurs et des réponses moyennes RAPPORTÉE du nombre de voix que la qualité des questions et des réponses sur l'étiquette, cette méthode pour certaines questions populaires, l'effet est relativement bonne, mais l'effet n'est pas question très populaire des pauvres. Par conséquent, nous utilisons uniquement les données pour construire une étiquette questions populaires dans les expériences à l'intérieur.

Nous avons utilisé deux méthodes d'évaluation et d'évaluation Manuel d'auto-évaluation. En comparaison OverallPerformance de notre méthode peut obtenir de bons résultats à la fois l'évaluation de l'évaluation manuelle et automatique. Après l'augmentation du nombre d'angle de vision, dans lequel chaque vue du modèle d'impact tout ont été observés. Nous avons constaté que les caractéristiques de chaque angle de vision supplémentaires, les performances du modèle sont changé pour le mieux. Dans l'espace public de la matrice de similarité nous visualisé dans l'espace public et est capable de questions de haute qualité et des réponses aux questions et réponses de la faible qualité efficace distingués.

7. Zhao Zhou, Université du Zhejiang

Ouvrez-EndedLong-forme vidéo Question Réponse via Adaptive hiérarchique ReinforcedNetworks

Q & Une vidéo que nous avons mis en avant en 2017, basée sur l'interaction du langage naturel et des tâches vidéo. Pour champ ouvert vidéo Q & A, basées sur des questions et des réponses ont été générées vidéo. Interview vidéo avec d'autres questions et réponses ne sont pas les mêmes. Vidéo Q & A, la longueur de la vidéo est très, très longue, une à deux minutes il y a beaucoup de cadres, LSTM ordinaire très difficile à gérer une telle longue vidéo. Nous enfermés dans deux zones très petites, on est à composition non limitée, l'une est la réponse aux questions de longue durée.

Vidéo est généralement très longue, et le problème est seulement un petit segment de la vidéo, et la plupart du contenu vidéo n'a rien à voir avec le problème. Q Comment faire la vidéo à partir d'un travail de longue vidéo. Notre travail a la contribution suivante, d'abord proposé un codage - apprentissage du réseau de décodage. En second lieu, l'utilisation du codeur hiérarchique adaptatif, l'apprentissage basé sur les problèmes d'une représentation vidéo. Apprenons à partir du niveau du segment, selon le problème et quelques vidéos, des clips vidéo automatiquement coupés, certains fragments correspondant au problème, nous avons donc appris un niveau de représentation du segment. Enfin, nous avons conçu un décodeur amélioré pour générer la réponse. De plus, nous avons construit un jeu de données très importantes ..

Nous allons d'abord faire face à un certain niveau d'images vidéo, chaque image vidéo de N, avec la tâche de compréhension en lecture est très similaire. génère ensuite la réponse, A1 à AN, il est la couche variable de réponse, 1 à N mots sont possibles. C'est la représentation sémantique pour chaque image vidéo, nous exprimons la sémantique, nous utilisons pour exprimer A1 à AN.

Ici, nous apprenons deux réseaux, le réseau de codage est d'abord exprimée par F, F a deux entrées, on est V, est la vidéo, est un Q, est la question. En second lieu, nous apprenons que décode le réseau, nous supposons qu'il ya des cadres N est entrée aux adaptations du décodeur. LSTM très délicat tant qu'une vidéo, nous proposons une LSTM étapes à base de problèmes, ce qui est la façon de travailler? Il y a une entrée de problème à LSTM, si vous pensez que l'état actuel a été un point tournant, nous allons utiliser un LSTM séparé, encore une fois de mettre à jour l'état de son initialisation.

Ce n'est pas la même chose que la compréhension en lecture. compréhension de la lecture est une phrase et de la peine, et le cadre de la vidéo est très difficile à segmenter, nous réduisons automatiquement les points. Si elle est supérieure à un seuil et ses deux sémantiques différentes, nous réinitialisera un LSTM pour la formation.

Nous utilisons encore le mécanisme d'attention, pour les sessions vidéo. Nous jugeons dans le cadre de la vidéo et la sémantique prochaine cadre de ce qui est pertinent. Selon certaines questions à poser, et une vidéo dans l'état maintenant, pour déterminer si elle est une sémantique sémantique deux vidéo ou une sémantique différente. Si une sémantique différente, nous utilisons un LSTM séparé.

En plus d'introduire l'apprentissage amélioré le décodage. Nous niveau de cadre Habilitation, générant un niveau de segment, dit le générateur de réponse finale à l'approche améliorée pour générer la réponse.

Nous avons fait un ensemble de données étiquetées manuellement. Utilisez WUPS = 0,0 et WUPS = 0,9 ont été testés et comparés certaines des méthodes avancées.

8. Zhao Zhou, Université du Zhejiang

MULTITOUR Répondre via VideoQuestion multi-flux hiérarchique réseau Attention Contexte

Notre recherche et le dialogue dans la vidéo, la vidéo continue de poser des questions, obtenir des réponses en permanence. Nous croyons que la vidéo est un contexte, nous continuons à poser et répondre à la vidéo, il est un dialogue. Par conséquent, nous vous proposons un mécanisme de contexte de réseau d'attention de niveau multi-flux pour répondre à plusieurs séries de quiz vidéo.

Nous avons beaucoup de vidéo, marquage manuel, vous pouvez obtenir beaucoup de dialogue. Nous avons non seulement une entrée vidéo et des questions, il y a aussi le contexte, ainsi que quelques-uns des cas avant le dialogue. Le problème actuel est qu'il peut émettre l'information est pas très large, nous devons répondre en se référant au contexte du dialogue, de sorte que la question en plus de la vidéo et des problèmes, mais considèrent également le contexte du dialogue, ce qui est le problème dans un endroit très difficile.

Nous avons fait un certain contexte de mécanisme d'attention au niveau du réseau multi-flux, compte non seulement le flux vidéo, mais aussi tenir compte du flux du contexte de la conversation, l'intégration des deux cours d'eau, et faire davantage pour améliorer l'optimisation.

Vidéo montrant deux niveaux, les représentations au niveau du cadre et des niveaux de représentation fragmentaire. contexte de conversation comporte deux parties, la première partie de la question est, est la deuxième partie de la réponse précédente. Les informations données trois, la première est l'information de la vidéo, la seconde est l'information de contexte de conversation, et le troisième est la question de l'information.

Après prise en compte du multi-flux, le premier de chaque contexte de conversation des questions et des réponses ont été fusionnées pour produire une représentation du contexte. Après avoir ajouté tout le mécanisme d'attention pour le contexte du dialogue. Comment extraire certaines pertinentes et défausse hors de propos, nous avons emprunté le mécanisme de mise au point, une partie de la fusion finale liée, non fusion hors de propos.

Après nous générons un modèle basé sur nos informations contextuelles liées à l'extraction et l'importante extraction d'information vidéo, et enfin l'intégration. Le processus en deux étapes, la première étape pour comprendre la question. La deuxième étape, nous nous concentrons sur la réponse vidéo, tenez compte deux fonctionnalités pour la vidéo, la première est caractéristique de l'état, le second est les caractéristiques de mouvement. Quelques questions sont posées à l'état, il est de poser quelques questions de mouvement, si caractéristique des deux côtés ont été extraites pour produire une réponse définitive.

Nous avons inventé l'ensemble de données. Il existe deux ensembles de données vidéo, chaque ensemble de données est probablement plus de 1000 questions. La première série de données que nous avons marqué plus de 30000 vidéo Q & A sur la deuxième série de données marquées plus de 60000 quiz vidéo à droite. Notre modèle utilise l'apprentissage artificiel basé sur les annotations.

Les résultats peuvent avoir sur les données détaillées dans le document.

l'équipe de hockey sur glace féminin chinois tournoi amical victoire 1-0 sélectionneur de la Pologne: C'est un bon début
Précédent
Apprentissage et Applications Session | AIS pré-sécher toute la part parlera
Prochain
Iran équipe nationale de football attendent en Asie, le terrain d'entraînement pourquoi le rire?
Robot pour la mairie Japon: IA gérer les ressources humaines
dirigeants de Facebook êtes-vous à distance jusqu'à quel point?
Aujourd'hui, le son de base | recouvrement de créances violent déjà dehors! AI pour voir comment l'obtenir ~
Vous pouvez devenir un micro-off un nouveau cheval sombre? Chang Rui ligne réelle exposition de voiture M60
Il est temps d'économiser de l'argent pour un téléphone mobile: le plus fort sera publié trois téléphone en plein écran
"La technologie Black" SSD sorti! Mais vous ne pouvez pas avoir accès!
Voies de la lumière maintenant orange! Fuzhou Printemps culturel Mois Tourisme heureux d'envoyer fête!
« Ching Ming mots Poetic Yi a d'abord pensé à l'ennemi » Qingming créer une nouvelle à l'ouest de la ville civilisée de Tongzhou
Trop naïf! Pensez-vous un autre bon routeur peut résoudre le laitier de carte réseau lent?
Baidu a piégé la tempête de l'opinion publique? Pour répondre aux faux événements Nadu - ils ont fourni de faux documents
Fan jouent également sans frontières! Les joueurs tempête évaluation MF120S: moitié prix trempettes