ACL 2018 papiers longs Pour une puissante m�thode d'auto-apprentissage mot inter-linguistique sans aucune supervision carte int�gr� Une m�thode d'auto-apprentissage robuste pour applications translinguistique enti�rement sans supervision de mot embeddings Universit� du Pays Basque Universit� du Pays basque

Cet article est de l'Universit� de l'article Pays Basque publi� dans la LCA conf�rence 2018, la cartographie interlangage pour mot sans supervision int�gr�e dans l'absence de phase d'initialisation de la t�che, la m�thode propos�e pour l'initialisation d'un non supervis�, combin�e � un algorithme d'auto-apprentissage puissant progressivement des exp�riences de cartographie optimis�e dans de nombreux sc�narios de test bien connu, et au-del� du syst�me de contr�le pr�c�dent, d�montrer l'efficacit� de la m�thode.

1 introduction

la cartographie int�gr�e interlangage est av�r�e �tre une m�thode efficace pour mot bilingue int�gr�. L'id�e de base est de s�parer les diff�rentes langues de formation int�gr�es corpus monolingues, puis par transformation lin�aire pour les associer � l'espace partag�. La grande majorit� de la m�thode de cartographie int�gr�e repose sur le dictionnaire de petites graines, mais produit de meilleurs r�sultats dans un environnement sans aucune supervision dans la formation r�cente conflictuel, mais les �tudes pr�c�dentes ont souvent dans une langue plus �troitement li�e meilleur r�sultat, aucun r�sultat significatif lors de la saisie d'un sc�nario plus r�aliste Shique. Ensuite, il y a des �tudes montrent que la m�thode d'apprentissage it�ratif est capable de diriger une des cartes de haute qualit� tr�s petites graines dictionnaire, mais quand la solution initiale est pas assez bon, les m�thodes d'auto-apprentissage tombent dans les r�sultats locaux pauvres, ce qui conduit � un �chec de la formation.

Cet article propose une nouvelle m�thode non supervis�e n'a pas besoin de construire un dictionnaire de solutions d'initialisation de semences. chaque mot a une r�partition diff�rente des valeurs de similarit� Selon les r�sultats d'observation, le vocabulaire de la matrice de similitude de tous les mots,. Deux mots �quivalents dans diff�rentes langues devraient avoir une distribution similaire de papier � base de ce fait pour induire une premi�re s�rie de paires de mots. La combinaison de la m�thode d'initialisation ci-dessus et puissante m�thode d'auto-apprentissage, la solution peut d�marrer � partir d'une cartographie initiale faible et une am�lioration it�rative continue. Finalement, gr�ce � une combinaison des deux, nous offrons une sans aucune supervision dans la sc�ne r�elle des m�thodes efficaces de cartographie crois�e des langues, dans tous les cas de test convergent vers une bonne solution, et mis en place dans un des dictionnaires bilingues d'extraction une nouvelle technologie de pointe, au-del� de la supervision des m�thodes pr�c�dentes.

2 Mod�le

Cet article propose une nouvelle m�thode non supervis�e n'a pas besoin de construire un dictionnaire de solution de semences initiale. Sur la base de l'observation, �tant donn� le vocabulaire de la matrice de similitude de tous les mots, chaque mot ayant une distribution de valeur de similarit� diff�rente. Dans les m�mes mots de langues diff�rentes, il devrait avoir un profil similaire, peut �tre jumel� pour mot d'initialisation de d�marrage comme base, comme le montre la figure.

L'article mentionn� ci-dessus m�thode d'initialisation et des proc�d�s d'auto-apprentissage combin� avec un solide, peut commencer � partir d'une solution initiale faible, pas � pas la carte d'am�lioration it�rative.

� Le param�tre indique

Z et X repr�sentent les deux langues une bonne formation s�par�e mot int�gr� dans la matrice. Ligne repr�sente un vecteur de mot colonnes mot repr�sentent le premier de plusieurs vecteur de mot dimensions. Ici, entre le Xj et ZJ, et il n'y a pas de correspondance entre Xi et Zi. C'est l� une matrice de transformation Wx, Wz et ZWZ XWX faire dans le m�me espace vectoriel. Bien que la matrice D d�crit, Dij = 1 au nom de la langue cible dans le j-i�me mot dans la langue source est le i-i�me traductions de mots.

� Description du probl�me

Pour le concept ci-dessus, compl�te: la i-i�me ligne j-i�me ligne j-i�me ligne dans la i-i�me ligne X et Z, X et Z, la correspondance. Comment initialiser D et comment d�finir la strat�gie de mise � jour, comment l'utilisation de la fonction objective, comment trouver la fonction objective Wx et Wz.

� Processus de mise en uvre

A. Pr�traitement

Tout d'abord, faire mot pour vecteur de mot pour chaque normalis�, chaque vecteur colonne de mot � moyenne, et enfin proc�der � un processus de normalisation.

B. Initialisation

Premi�re hypoth�se, bien que la langue source et le mot de la langue cible vecteur est ind�pendant, mais forment leur r�partition est tr�s similaire. Les hypoth�ses compatibles avec la langue source et la langue cible taille du dictionnaire, les dimensions, ont �t� contradictoires. Par Mx = XXT, Mz = ZZT trouver matrice de similarit�, Mx langue cible de similarit� repr�sente chaque ordre de colonne Mx et Mz devient de classement du i-i�me et j-i�me mot, respectivement, (Mx) et de classement (Mz), cela r�soudre la relation entre les colonnes, pour tri�e (Mx) i de chaque rang�e, peut �tre re-tri�s (Mz) pour trouver le plus haut point j-i�me ligne avec leur similitude, ce qui indique qu'il est possible que la m�me s�mantique est relativement grande, il est traduction mutuelle, probl�me d'initialisation de D il a �t� r�solu.

C. Auto-apprentissage:

1. La fonction objectif

D�termin� Wx = U, Wz = V, et U et V = USVT XTDZ obtenu par d�composition en valeurs singuli�res.

2. La carte de calcul int�gr�

Le meilleur dictionnaire sur la matrice de similarit�, un processus qui habituellement r�cup�r� de la langue la plus proche de la source voisine de la langue cible, donc si j = argmaxk (Xi * Wx) (ZK * Wz), le Dij = 1 et 0 sinon.

Une fois l'initialisation effectu�e, l'�tape 1.2 cycles ou plus, jusqu'� la convergence.

� Al�atoire dictionnaire Sommaire des

Afin d'encourager l'exploration plus large de l'espace de recherche, nous avons r�sum� Retain al�atoire dictionnaire des �l�ments dans la matrice de similarit� p al�atoire a une probabilit�, et le reste est r�gl� sur 0.

� Vocabulaire � base de fr�quence de coupure

Similarit� taille de la matrice par rapport � la taille du vocabulaire est la croissance du second degr�. Cela augmente non seulement son co�t calcul, mais rend �galement le nombre de solutions possibles augmente de fa�on exponentielle, peut rendre les probl�mes d'optimisation plus difficiles. Nous proposons de limiter le processus de dictionnaire d'induction pour chaque langue k mots les plus couramment utilis�s, on constate que k = 20000 qui fonctionne bien dans la pratique.

� R�cup�ration de CSLS

Dinu, qui a montr� que le plus proche voisin en proie � des probl�mes de hubness. Conneau et al article utilise le zoom de similarit� inter-domaines (CSLS) pour r�soudre ce probl�me.

Bi-directionnel dictionnaire Sommaire des

Lorsque le dictionnaire est introduit dans la langue cible de la langue source, toutes les langues cibles dans lesquels le mot appara�t, et certains appara�tra plus d'une fois. Les auteurs estiment que cela pourrait exacerber optimum local, afin de rem�dier � ce probl�me et d'encourager la diversit�, les auteurs ont introduit le dictionnaire. dictionnaire � induction � partir de deux directions, et la connexion correspondante, D = DX Z + DZ X.

3 Analyse exp�rimentale

Dans cet article, une comparaison exhaustive des r�sultats obtenus de tr�s bonnes donn�es sur le rendement.

Le tableau suivant pr�sente les r�sultats de son utilisation, ainsi que Zhang et al Coneau et al deux ensembles de donn�es.

Le tableau suivant en utilisant un ensemble de donn�es Artetxe plus difficile de Dinu et al et le et al.

Le tableau suivant compare l'utilisation de la m�thode d'apprentissage supervis� avec d'autres travaux menant des chercheurs.

4 Conclusion

Les r�sultats montrent que notre m�thode dans tous les cas ont �t� couronn�es de succ�s, il donne les meilleurs r�sultats pour tous les travaux ant�rieurs dirig�es et non dirig�es sur la carte.

l'analyse a montr� que Ablation la solution initiale facilite l'auto-�tude dans cet article sans corpus de supervision. Afin de rendre une capacit� d'auto-apprentissage robuste, nous avons �galement ajout� au dictionnaire r�sum� al�atoire, plut�t que d'utiliser CSLS voisins les plus proches, et de g�n�rer un dictionnaire dans les deux sens. Interm�diaire en utilisant un plus petit vocabulaire et re-pond�ration de la solution finale, le r�sultat a �t� am�lior�.

� l'avenir, nous voulons �tendre la m�thode de bilingue aux programmes multilingues et d'aller au-del� du niveau de mot en int�grant la fusion des phrases plus longues.

Route de la soie

Apprenez � conna�tre la Chine

Pour une puissante m�thode d'auto-apprentissage mot inter-linguistique sans aucune supervision carte int�gr�

1 introduction