Pour une puissante méthode d'auto-apprentissage mot inter-linguistique sans aucune supervision carte intégré

ACL 2018 papiers longs Pour une puissante méthode d'auto-apprentissage mot inter-linguistique sans aucune supervision carte intégré Une méthode d'auto-apprentissage robuste pour applications translinguistique entièrement sans supervision de mot embeddings Université du Pays Basque Université du Pays basque

Cet article est de l'Université de l'article Pays Basque publié dans la LCA conférence 2018, la cartographie interlangage pour mot sans supervision intégrée dans l'absence de phase d'initialisation de la tâche, la méthode proposée pour l'initialisation d'un non supervisé, combinée à un algorithme d'auto-apprentissage puissant progressivement des expériences de cartographie optimisée dans de nombreux scénarios de test bien connu, et au-delà du système de contrôle précédent, démontrer l'efficacité de la méthode.

1 introduction

la cartographie intégrée interlangage est avérée être une méthode efficace pour mot bilingue intégré. L'idée de base est de séparer les différentes langues de formation intégrées corpus monolingues, puis par transformation linéaire pour les associer à l'espace partagé. La grande majorité de la méthode de cartographie intégrée repose sur le dictionnaire de petites graines, mais produit de meilleurs résultats dans un environnement sans aucune supervision dans la formation récente conflictuel, mais les études précédentes ont souvent dans une langue plus étroitement liée meilleur résultat, aucun résultat significatif lors de la saisie d'un scénario plus réaliste Shique. Ensuite, il y a des études montrent que la méthode d'apprentissage itératif est capable de diriger une des cartes de haute qualité très petites graines dictionnaire, mais quand la solution initiale est pas assez bon, les méthodes d'auto-apprentissage tombent dans les résultats locaux pauvres, ce qui conduit à un échec de la formation.

Cet article propose une nouvelle méthode non supervisée n'a pas besoin de construire un dictionnaire de solutions d'initialisation de semences. chaque mot a une répartition différente des valeurs de similarité Selon les résultats d'observation, le vocabulaire de la matrice de similitude de tous les mots,. Deux mots équivalents dans différentes langues devraient avoir une distribution similaire de papier à base de ce fait pour induire une première série de paires de mots. La combinaison de la méthode d'initialisation ci-dessus et puissante méthode d'auto-apprentissage, la solution peut démarrer à partir d'une cartographie initiale faible et une amélioration itérative continue. Finalement, grâce à une combinaison des deux, nous offrons une sans aucune supervision dans la scène réelle des méthodes efficaces de cartographie croisée des langues, dans tous les cas de test convergent vers une bonne solution, et mis en place dans un des dictionnaires bilingues d'extraction une nouvelle technologie de pointe, au-delà de la supervision des méthodes précédentes.

2 Modèle

Cet article propose une nouvelle méthode non supervisée n'a pas besoin de construire un dictionnaire de solution de semences initiale. Sur la base de l'observation, étant donné le vocabulaire de la matrice de similitude de tous les mots, chaque mot ayant une distribution de valeur de similarité différente. Dans les mêmes mots de langues différentes, il devrait avoir un profil similaire, peut être jumelé pour mot d'initialisation de démarrage comme base, comme le montre la figure.

L'article mentionné ci-dessus méthode d'initialisation et des procédés d'auto-apprentissage combiné avec un solide, peut commencer à partir d'une solution initiale faible, pas à pas la carte d'amélioration itérative.

· Le paramètre indique

Z et X représentent les deux langues une bonne formation séparée mot intégré dans la matrice. Ligne représente un vecteur de mot colonnes mot représentent le premier de plusieurs vecteur de mot dimensions. Ici, entre le Xj et ZJ, et il n'y a pas de correspondance entre Xi et Zi. C'est là une matrice de transformation Wx, Wz et ZWZ XWX faire dans le même espace vectoriel. Bien que la matrice D décrit, Dij = 1 au nom de la langue cible dans le j-ième mot dans la langue source est le i-ième traductions de mots.

· Description du problème

Pour le concept ci-dessus, complète: la i-ième ligne j-ième ligne j-ième ligne dans la i-ième ligne X et Z, X et Z, la correspondance. Comment initialiser D et comment définir la stratégie de mise à jour, comment l'utilisation de la fonction objective, comment trouver la fonction objective Wx et Wz.

· Processus de mise en uvre

A. Prétraitement

Tout d'abord, faire mot pour vecteur de mot pour chaque normalisé, chaque vecteur colonne de mot à moyenne, et enfin procéder à un processus de normalisation.

B. Initialisation

Première hypothèse, bien que la langue source et le mot de la langue cible vecteur est indépendant, mais forment leur répartition est très similaire. Les hypothèses compatibles avec la langue source et la langue cible taille du dictionnaire, les dimensions, ont été contradictoires. Par Mx = XXT, Mz = ZZT trouver matrice de similarité, Mx langue cible de similarité représente chaque ordre de colonne Mx et Mz devient de classement du i-ième et j-ième mot, respectivement, (Mx) et de classement (Mz), cela résoudre la relation entre les colonnes, pour triée (Mx) i de chaque rangée, peut être re-triés (Mz) pour trouver le plus haut point j-ième ligne avec leur similitude, ce qui indique qu'il est possible que la même sémantique est relativement grande, il est traduction mutuelle, problème d'initialisation de D il a été résolu.

C. Auto-apprentissage:

1. La fonction objectif

Déterminé Wx = U, Wz = V, et U et V = USVT XTDZ obtenu par décomposition en valeurs singulières.

2. La carte de calcul intégré

Le meilleur dictionnaire sur la matrice de similarité, un processus qui habituellement récupéré de la langue la plus proche de la source voisine de la langue cible, donc si j = argmaxk (Xi * Wx) (ZK * Wz), le Dij = 1 et 0 sinon.

Une fois l'initialisation effectuée, l'étape 1.2 cycles ou plus, jusqu'à la convergence.

· Aléatoire dictionnaire Sommaire des

Afin d'encourager l'exploration plus large de l'espace de recherche, nous avons résumé Retain aléatoire dictionnaire des éléments dans la matrice de similarité p aléatoire a une probabilité, et le reste est réglé sur 0.

· Vocabulaire à base de fréquence de coupure

Similarité taille de la matrice par rapport à la taille du vocabulaire est la croissance du second degré. Cela augmente non seulement son coût calcul, mais rend également le nombre de solutions possibles augmente de façon exponentielle, peut rendre les problèmes d'optimisation plus difficiles. Nous proposons de limiter le processus de dictionnaire d'induction pour chaque langue k mots les plus couramment utilisés, on constate que k = 20000 qui fonctionne bien dans la pratique.

· Récupération de CSLS

Dinu, qui a montré que le plus proche voisin en proie à des problèmes de hubness. Conneau et al article utilise le zoom de similarité inter-domaines (CSLS) pour résoudre ce problème.

Bi-directionnel dictionnaire Sommaire des

Lorsque le dictionnaire est introduit dans la langue cible de la langue source, toutes les langues cibles dans lesquels le mot apparaît, et certains apparaîtra plus d'une fois. Les auteurs estiment que cela pourrait exacerber optimum local, afin de remédier à ce problème et d'encourager la diversité, les auteurs ont introduit le dictionnaire. dictionnaire à induction à partir de deux directions, et la connexion correspondante, D = DX Z + DZ X.

3 Analyse expérimentale

Dans cet article, une comparaison exhaustive des résultats obtenus de très bonnes données sur le rendement.

Le tableau suivant présente les résultats de son utilisation, ainsi que Zhang et al Coneau et al deux ensembles de données.

Le tableau suivant en utilisant un ensemble de données Artetxe plus difficile de Dinu et al et le et al.

Le tableau suivant compare l'utilisation de la méthode d'apprentissage supervisé avec d'autres travaux menant des chercheurs.

4 Conclusion

Les résultats montrent que notre méthode dans tous les cas ont été couronnées de succès, il donne les meilleurs résultats pour tous les travaux antérieurs dirigées et non dirigées sur la carte.

l'analyse a montré que Ablation la solution initiale facilite l'auto-étude dans cet article sans corpus de supervision. Afin de rendre une capacité d'auto-apprentissage robuste, nous avons également ajouté au dictionnaire résumé aléatoire, plutôt que d'utiliser CSLS voisins les plus proches, et de générer un dictionnaire dans les deux sens. Intermédiaire en utilisant un plus petit vocabulaire et re-pondération de la solution finale, le résultat a été amélioré.

À l'avenir, nous voulons étendre la méthode de bilingue aux programmes multilingues et d'aller au-delà du niveau de mot en intégrant la fusion des phrases plus longues.

Peut-être la meilleure forme de montres intelligentes, Nokia a commencé une année d'expérience ressenti en acier
Précédent
ZTE plier écran double face + 6 + 128G, moins d'un an le prix minimum à de nouveaux plus bas que 2388
Prochain
Andrews 9.0 Brush partage des méthodes indigènes et des ressources, en théorie, tous les modèles sont applicables
Avant-garde de l'industrie: comment utiliser les enseignants IA et les étudiants à grandir ensemble?
Contre ceux cancer APP magie mortelle, la mémoire QQ micro lettre que seulement 23M 110M sur
histoire de la Coupe Crest: caractère et durable des obligations à moins d'pieds du football adolescent Taipei
Glory Jouer conférence 7X en cours: le nouveau téléphone plein écran officiellement dévoilé
Manchester United gagne 3-0 Fulham clients, Boge Ba double bang, tir de masse Marshall
foire du temple Ditan combattre Yan! Cent coup civilisé hors ouverture « rue Belle » « belle campagne » Exposition de photos
Apple version à faible coût du nouveau MacBook dans la production de volume, avec Touch ID, a manqué la conférence
Aujourd'hui, le son de base | Early Big Secret: le volume des plaintes de fraude et d'autres Alipay payante de micro-canal est 5 fois
OK! Le nouvel iPhone est vraiment un deux cartes! Caton a été exposé, et vers le bas sous forme de carte
Avant-garde de l'industrie: Grimpez soif, comment atteindre rapidement l'eau?
recommandation « acheter 6,18 acheter acheter » avec les besoins de la semaine, voici un peu ~