Cet article est de l'Université de l'article Pays Basque publié dans la LCA conférence 2018, la cartographie interlangage pour mot sans supervision intégrée dans l'absence de phase d'initialisation de la tâche, la méthode proposée pour l'initialisation d'un non supervisé, combinée à un algorithme d'auto-apprentissage puissant progressivement des expériences de cartographie optimisée dans de nombreux scénarios de test bien connu, et au-delà du système de contrôle précédent, démontrer l'efficacité de la méthode.
1 introduction
la cartographie intégrée interlangage est avérée être une méthode efficace pour mot bilingue intégré. L'idée de base est de séparer les différentes langues de formation intégrées corpus monolingues, puis par transformation linéaire pour les associer à l'espace partagé. La grande majorité de la méthode de cartographie intégrée repose sur le dictionnaire de petites graines, mais produit de meilleurs résultats dans un environnement sans aucune supervision dans la formation récente conflictuel, mais les études précédentes ont souvent dans une langue plus étroitement liée meilleur résultat, aucun résultat significatif lors de la saisie d'un scénario plus réaliste Shique. Ensuite, il y a des études montrent que la méthode d'apprentissage itératif est capable de diriger une des cartes de haute qualité très petites graines dictionnaire, mais quand la solution initiale est pas assez bon, les méthodes d'auto-apprentissage tombent dans les résultats locaux pauvres, ce qui conduit à un échec de la formation.
Cet article propose une nouvelle méthode non supervisée n'a pas besoin de construire un dictionnaire de solutions d'initialisation de semences. chaque mot a une répartition différente des valeurs de similarité Selon les résultats d'observation, le vocabulaire de la matrice de similitude de tous les mots,. Deux mots équivalents dans différentes langues devraient avoir une distribution similaire de papier à base de ce fait pour induire une première série de paires de mots. La combinaison de la méthode d'initialisation ci-dessus et puissante méthode d'auto-apprentissage, la solution peut démarrer à partir d'une cartographie initiale faible et une amélioration itérative continue. Finalement, grâce à une combinaison des deux, nous offrons une sans aucune supervision dans la scène réelle des méthodes efficaces de cartographie croisée des langues, dans tous les cas de test convergent vers une bonne solution, et mis en place dans un des dictionnaires bilingues d'extraction une nouvelle technologie de pointe, au-delà de la supervision des méthodes précédentes.
2 ModèleCet article propose une nouvelle méthode non supervisée n'a pas besoin de construire un dictionnaire de solution de semences initiale. Sur la base de l'observation, étant donné le vocabulaire de la matrice de similitude de tous les mots, chaque mot ayant une distribution de valeur de similarité différente. Dans les mêmes mots de langues différentes, il devrait avoir un profil similaire, peut être jumelé pour mot d'initialisation de démarrage comme base, comme le montre la figure.
L'article mentionné ci-dessus méthode d'initialisation et des procédés d'auto-apprentissage combiné avec un solide, peut commencer à partir d'une solution initiale faible, pas à pas la carte d'amélioration itérative.
· Le paramètre indique
Z et X représentent les deux langues une bonne formation séparée mot intégré dans la matrice. Ligne représente un vecteur de mot colonnes mot représentent le premier de plusieurs vecteur de mot dimensions. Ici, entre le Xj et ZJ, et il n'y a pas de correspondance entre Xi et Zi. C'est là une matrice de transformation Wx, Wz et ZWZ XWX faire dans le même espace vectoriel. Bien que la matrice D décrit, Dij = 1 au nom de la langue cible dans le j-ième mot dans la langue source est le i-ième traductions de mots.
· Description du problème
Pour le concept ci-dessus, complète: la i-ième ligne j-ième ligne j-ième ligne dans la i-ième ligne X et Z, X et Z, la correspondance. Comment initialiser D et comment définir la stratégie de mise à jour, comment l'utilisation de la fonction objective, comment trouver la fonction objective Wx et Wz.
· Processus de mise en uvre
A. Prétraitement
Tout d'abord, faire mot pour vecteur de mot pour chaque normalisé, chaque vecteur colonne de mot à moyenne, et enfin procéder à un processus de normalisation.
B. Initialisation
Première hypothèse, bien que la langue source et le mot de la langue cible vecteur est indépendant, mais forment leur répartition est très similaire. Les hypothèses compatibles avec la langue source et la langue cible taille du dictionnaire, les dimensions, ont été contradictoires. Par Mx = XXT, Mz = ZZT trouver matrice de similarité, Mx langue cible de similarité représente chaque ordre de colonne Mx et Mz devient de classement du i-ième et j-ième mot, respectivement, (Mx) et de classement (Mz), cela résoudre la relation entre les colonnes, pour triée (Mx) i de chaque rangée, peut être re-triés (Mz) pour trouver le plus haut point j-ième ligne avec leur similitude, ce qui indique qu'il est possible que la même sémantique est relativement grande, il est traduction mutuelle, problème d'initialisation de D il a été résolu.
C. Auto-apprentissage:
1. La fonction objectif
Déterminé Wx = U, Wz = V, et U et V = USVT XTDZ obtenu par décomposition en valeurs singulières.
2. La carte de calcul intégré
Le meilleur dictionnaire sur la matrice de similarité, un processus qui habituellement récupéré de la langue la plus proche de la source voisine de la langue cible, donc si j = argmaxk (Xi * Wx) (ZK * Wz), le Dij = 1 et 0 sinon.
Une fois l'initialisation effectuée, l'étape 1.2 cycles ou plus, jusqu'à la convergence.
· Aléatoire dictionnaire Sommaire des
Afin d'encourager l'exploration plus large de l'espace de recherche, nous avons résumé Retain aléatoire dictionnaire des éléments dans la matrice de similarité p aléatoire a une probabilité, et le reste est réglé sur 0.
· Vocabulaire à base de fréquence de coupure
Similarité taille de la matrice par rapport à la taille du vocabulaire est la croissance du second degré. Cela augmente non seulement son coût calcul, mais rend également le nombre de solutions possibles augmente de façon exponentielle, peut rendre les problèmes d'optimisation plus difficiles. Nous proposons de limiter le processus de dictionnaire d'induction pour chaque langue k mots les plus couramment utilisés, on constate que k = 20000 qui fonctionne bien dans la pratique.
· Récupération de CSLS
Dinu, qui a montré que le plus proche voisin en proie à des problèmes de hubness. Conneau et al article utilise le zoom de similarité inter-domaines (CSLS) pour résoudre ce problème.
Bi-directionnel dictionnaire Sommaire des
Lorsque le dictionnaire est introduit dans la langue cible de la langue source, toutes les langues cibles dans lesquels le mot apparaît, et certains apparaîtra plus d'une fois. Les auteurs estiment que cela pourrait exacerber optimum local, afin de remédier à ce problème et d'encourager la diversité, les auteurs ont introduit le dictionnaire. dictionnaire à induction à partir de deux directions, et la connexion correspondante, D = DX Z + DZ X.
3 Analyse expérimentaleDans cet article, une comparaison exhaustive des résultats obtenus de très bonnes données sur le rendement.
Le tableau suivant présente les résultats de son utilisation, ainsi que Zhang et al Coneau et al deux ensembles de données.
Le tableau suivant en utilisant un ensemble de données Artetxe plus difficile de Dinu et al et le et al.
Le tableau suivant compare l'utilisation de la méthode d'apprentissage supervisé avec d'autres travaux menant des chercheurs.
4 ConclusionLes résultats montrent que notre méthode dans tous les cas ont été couronnées de succès, il donne les meilleurs résultats pour tous les travaux antérieurs dirigées et non dirigées sur la carte.
l'analyse a montré que Ablation la solution initiale facilite l'auto-étude dans cet article sans corpus de supervision. Afin de rendre une capacité d'auto-apprentissage robuste, nous avons également ajouté au dictionnaire résumé aléatoire, plutôt que d'utiliser CSLS voisins les plus proches, et de générer un dictionnaire dans les deux sens. Intermédiaire en utilisant un plus petit vocabulaire et re-pondération de la solution finale, le résultat a été amélioré.
À l'avenir, nous voulons étendre la méthode de bilingue aux programmes multilingues et d'aller au-delà du niveau de mot en intégrant la fusion des phrases plus longues.