Dynamique | Sogou travaux d'automatisation ainsi que de proposer de nouveaux domaines de l'algorithme de la machine quiz de lecture ouvert

Technologie AI Revue de presse : Au cours des derni�res ann�es, avec le d�veloppement de la technologie de lecture de la machine de compr�hension, de plus en plus ouverte Question de domaine R�pondeur utilise une m�thode de lecture des techniques de compr�hension pour g�n�rer la r�ponse. Cependant, le domaine compr�hension en lecture machine � base traditionnelle Question ouverte R�ponse technologie il y a beaucoup de bruit dans les donn�es, le biais de la probabilit� de r�ponse et d'autres questions, ce qui rend la r�ponse finale � l'effet produit par les pauvres.

Sogou & Automation, Acad�mie chinoise o� l'information top conf�rence de r�cup�ration SIGIR 2019 (CCF Une r�union de classe) propos�e conjointement un m�canisme document bas� sur l'algorithme de lecture de gating, et l'utiliser dans une des questions sur le terrain ouvert et des r�ponses, dans de nombreux domaines Question ouverte R�ponse applications nous avons obtenu les meilleurs r�sultats. Sogou papier soci�t� � Document Gated Reader Question ouverte de domaine R�pondre � a �crit l'interpr�tation chinoise de l'article ci-dessous.

Sur la base de domaine ouvert la compr�hension de la lecture de la machine Question Answering

Question ouverte domaine r�pondeur t�l�phonique (question ouverte domaine r�ponse) technologie donn�e apr�s tout type de questions, obtenir des r�ponses de toute ressource est destin�e �. domaine traditionnel ouvert moyen Question Answering qu'ils utilisent un pipeline, qui est de trouver des documents avec des questions connexes par le biais d'un syst�me de recherche documentaire, la r�ponse du document produit par une technologie de questions et r�ponses. Ces derni�res ann�es, le d�veloppement de la compr�hension de la lecture de la machine de la technologie, de plus en plus ouverte Question de domaine R�pondre � des m�thodes de compr�hension � la lecture de la machine � introduire la technologie pour extraire la r�ponse. Par exemple, Stanford ACL2017 propose un domaine de trame Q ouvert neuronal, comme le montre ci-dessous:

Figure 1: Cadre � base de machine lecture ouvert pour le champ compr�hension de la technologie Q

Sur la base des techniques de compr�hension pr�c�dentes de lecture de la machine souvent, il y a deux probl�mes: d'abord, les m�thodes conventionnelles sont la plupart du temps faible surveillance et la documentation connexe selon trouver le probl�me, et contient ensuite les documents de r�ponse correcte en tant que documents authentiques � la formation, et ce faible surveillance des donn�es acquises contiennent souvent des documents erron�s (faux positifs) de, comme l'exemple suivant:

Figure 2: surveillance faible bruit contenu dans obtenir le document

Un document qui contient la bonne r�ponse (Lebron James), mais le probl�me et ne sont pas li�s. Bien que le document contient plus de deux bonnes r�ponses, mais beaucoup d'entre eux ne peuvent pas �tre utilis�s pour r�pondre � des questions.

D'autre part, de nombreuses m�thodes pr�c�dentes ne prennent pas en compte la probabilit� de r�ponse normalis�e: � r�pondre, et la probabilit� de r�ponse de chaque document s�par�ment, chaque article en r�ponse � la derni�re comparaison directe de la probabilit� d'obtenir la r�ponse finale, cependant, ce processus r�pondra � la probabilit� de probl�me de polarisation grave, comme dans l'exemple suivant:

Figure 3: document r�pond aux questions probabilit� de partialit�

Ces deux articles, bien que le document 1 est vraiment en mesure de r�pondre � des questions. De plus, le mod�le de document donne la probabilit� de s�lection des documents est �galement sup�rieure � la probabilit� de 1 Document 2 (0,7 > 0,3). Toutefois, le document 1 est relativement longue, de sorte que la probabilit� de devenir l'une des meilleures r�ponses apr�s une normalisation de documents est relativement faible, mais en raison du 2, et dans le document relativement court que les r�ponses candidats rarement, de sorte que la probabilit� de la r�ponse 2 relativement �lev�e apr�s la normalisation. De cette fa�on, apr�s une recherche de documents et de compr�hension de lecture en deux �tapes, la probabilit� de la r�ponse sera sup�rieure � la probabilit� de 21 r�ponse. Ce ph�nom�ne est appel� la probabilit� de r�ponses biais�es.

m�canisme gating bas� sur le lecteur de documents

Tout d'abord, le probl�me de polarisation de probabilit� de r�ponse, nous avons con�u un m�canisme de d�clenchement de document de lecteur sp�cial pour Answering domaine open question. Ce mod�le est bas� sur le mod�le traditionnel de la compr�hension de la lecture de la machine, a pr�sent� un contr�leur de document pour contr�ler la sortie de la r�ponse finale, le mod�le tout comme indiqu� ci-dessous:

Figure 4: m�canisme sequencers lecteur de documents

Parmi eux, la mod�lisation et les probl�mes de documentation et de compr�hension de lecture machine conventionnelle mod�le similaire est bas� sur deux voies m�canismes d'attention de LSTM. La couche de pr�sentation contient un mot, une couche de pr�sentation couche inf�rieure de pr�occupation, couche de pr�sentation avanc�e, et la couche de sortie de r�ponse.

Et les mod�les pr�c�dents de diff�rents, au cours de la repr�sentation, nous avons ajout� une porte de contr�le des documents (document porte), pour l'information de s�lection de documents est incorpor� dans le r�sultat final aller. La porte document de contr�le �met un score de 0-1 pour influencer la probabilit� de g�n�rer la r�ponse finale.

L'un des documents sur le r�le de contr�leur principal est une repr�sentation inf�rieure et des probl�mes de documentation, comme indiqu� ci-dessous:

Figure 5: Document Controller

K est le nombre de documents candidats. On peut voir � travers le sommet d'une LSTM dans les deux sens, l'information entre les diff�rents documents aussi le lien vers le haut. Le document final contient une fraction g est le contexte du score du document, qui repr�sente les capacit�s de corr�lation plus forte.

Enfin, dans la formation, afin d'�viter des r�ponses biais�es aux questions probabilit�, nous utilisons une fonction objectif global normalis�:

Vous pouvez voir les scores et toutes les r�ponses scores de r�ponse correcte ont �t� compar�s, donc le but de cette optimisation fera le score final de r�ponse est le plus �lev� au monde.

g�n�ration de donn�es de faible surveillance bas�e sur bootstrapping

Afin de r�soudre le probl�me plus vaste de faible surveillance du bruit classique dans les donn�es, nous utilisons la m�thode de g�n�ration de donn�es de bootstrapping (bootstrapping) sur la base. Plus pr�cis�ment, nous avons d'abord comme certains du degr� de confiance plus �lev� selon les donn�es de semences de donn�es, par exemple, dans les donn�es de semences SQUAD peut �tre la meilleure r�ponse fournie dans d'autres types de donn�es peuvent �tre r�cup�r�es par le mod�le le plus haut score. Ensuite, dans le mod�le de pr�-amor�age, nous formons notre mod�le, puis s�lectionnez un score plus �lev� du document repose sur une faible surveillance du document de pointage de contr�leur de donn�es ne peuvent jamais marqu� et ajout� � l'ensemble de la formation pour poursuivre la formation l�-bas. Le processus est le suivant:

exp�rience

Dans cet article, les quatre donn�es fr�quemment utilis�es pour �valuer le mod�le propos�, respectivement SQUAD, SearchQA, WebQuestions, WikiMovies. Quelques informations sur ces ensembles de donn�es dans le tableau suivant:

Certains mod�les classiques et l'effet de la comparaison du mod�le propos� ci-dessous:

Peut �tre vu, le mod�le propos� dans l'ensemble du mod�le de donn�es que dans le pass� ont fait une am�lioration significative.

Pour �valuer l'effet de l'introduction de la porte de contr�le des documents du document s�lectionn�, nous �valuons l'efficacit� des donn�es dans SQUAD notre mod�le. L'analyse du document s�lectionn� peut �tre l'effet des deux param�tres: P @ N: � savoir les documents de N sup�rieur dans le document contient le meilleur document s�lectionn�. AR: La position moyenne de la meilleure documentation dans le document retourn�. Documenter les r�sultats s�lectionn�s de diff�rents mod�les dans la figure ci-dessous:

On peut voir la s�lection de documents, nous avons propos� contr�leur de document peut effectivement choisir le bon document, s�lectionnez l'effet est beaucoup mieux que la m�thode classique.

Une contribution de cet article est d'utiliser le facteur de normalisation mondial des objectifs de la formation, et par cons�quent, nous mesurons ce facteur global de normalisation, nous �valuons les performances des diff�rents mod�les apr�s avoir ajout� un nombre diff�rent de bruit, les r�sultats pr�sent�s ci-dessous:

Peut voir diff�rents mod�les dans le document apr�s avoir ajout� du bruit, n'a pas r�duit de mani�re significative l'utilisation globale effet mod�le normalis�, ce ph�nom�ne est confirm� par beaucoup plus que la question pr�c�dente et r�ponses travail de document. Et parce que nous utilisons la formation de la normalisation mondiale, de sorte que le mod�le est moins de bruit.

Enfin, afin d'�valuer l'effet des donn�es pr�sent�es ici m�thode bootstrap, nous avons �valu� la performance du mod�le au cours de la bootstrapping men�e en continu, les r�sultats pr�sent�s ci-dessous:

On peut voir apr�s de nouvelles donn�es est ajout�, l'effet du mod�le d'am�lioration continue, ce qui est un autre exemple d'un moment o� un bon effet de mod�le, bas� sur le mod�le de donn�es s�lectionn� contient un mod�le plus riche, sur lequel la une meilleure formation de la performance du mod�le.

r�sum�

Cet article pr�sente un mod�le bas� sur le domaine ouvert Question Answering document de choix ferm�. Les questions de r�ponse pour cet article pr�sente de biais dans la m�thode classique pr�sente un document s�lecteurs sont gated utilis�s pour d�terminer si une partition de documents et d'utiliser la cible de normalisation mondiale pour l'optimisation. Trop de bruit pour la faible surveillance des probl�mes de donn�es existent dans la m�thode traditionnelle, nous avons utilis� la m�thode d'amor�age bas�e sur les m�thodes d'am�lioration des donn�es utilis�es pour am�liorer l'extension des donn�es de formation, dans des exp�riences, nous avons constat� que la m�thode propos�e peut effectivement choisir le document correspondant et la capacit� des documents anti-bruit plus forts dans de nombreux domaine ouvert question donn�es dans la m�thode Answering propos�e ont obtenu les meilleurs r�sultats.

Cliquez sur Lire l'original Consultez les groupes de discussion PNL haut discuteront des r�alisations acad�miques plus de pointe

Route de la soie

Apprenez � conna�tre la Chine

Dynamique | Sogou travaux d'automatisation ainsi que de proposer de nouveaux domaines de l'algorithme de la machine quiz de lecture ouvert

exp�rience

r�sum�