Ali soeur REVIEW: mot chinois pour le probl�me de g�n�ration de vecteurs non supervis�, le minist�re des fourmis artificielles robe d'or a con�u un nouvel algorithme: cw2vec. L'algorithme tire pleinement parti des caract�ristiques linguistiques des Chinois, de comprendre les myst�res de la machine entre les personnages d'un tableau. Sur les ensembles de donn�es publiques, la pr�cision de l'algorithme que la word2vec de Google, l'industrie meilleur algorithme de Stanford Glove, Tsinghua CWE, etc., et ont obtenu de bons r�sultats dans de nombreux sc�narios d'Ali, les documents pertinents sont AAAI 2018 haut les points engag�s.

Auteur: Cao Wei Zhou Jun Lu Shao-litre Bruce Lee

fond

Conna�tre l'intelligence plus humaine du client � la traduction automatique, texte � dig�rer g�n�r� � partir de l'analyse des commentaires des utilisateurs, le contr�le de s�curit� de la description textuelle des marchandises � la mod�lisation du vent, toute utilisation de la technologie de langage naturel, comme une branche importante de l'intelligence artificielle, comment obtenir la machine la langue, en particulier les kanjis id�ogrammes cette forte, est un grand d�fi pour le faire.

vecteur Word, est une utilisation de l'apprentissage non supervis� (pas de marquage manuelle des donn�es), les mots de cartographie � la technologie s�mantique espace vectoriel. Par exemple: Dans le pass�, l'indice de l'ordinateur indique les mots, comme � Cat: 2123 �, � Chien: 142 �, parce que l'indice est pas la m�me, la machine sera consid�r�e comme des mots diff�rents, mais pas comme les gens per�oivent les mots relation s�mantique entre les deux. La technologie vecteur mot juste pour faire ce point afin que la machine peut comprendre le potentiel de l'information s�mantique. En fait, de nombreux algorithmes de traitement du langage naturel qui sont utilis�s comme entr�e, puis construire le mod�le de bout en algorithme. Par cons�quent, la conception de l'algorithme de vecteur de mot de haute qualit� g�n�ration m�rite d'�tre examin�e la question.

Chinois Apr�s des milliers d'ann�es de d�veloppement et de l'�volution, est une forte id�ogramme, pour nous, m�me si je ne sais pas un mot, vous pourrez peut-�tre deviner le sens, la machine est tr�s difficile de les comprendre. Par exemple, � Qiu � est le mot que nous ne savons probablement pas, mais il y a pr�fixe � Lv � et � Wo � � c�t� du bois, alors il est probablement une plante qui ressemble � un mot la partie en bas � droite de celui-ci. A titre de vecteurs de mots, nous esp�rons �tre en mesure de comprendre les myst�res de la machine entre les personnages d'un tableau. Cependant, l'algorithme classique ne peut pas faire un bon usage des caract�ristiques de la linguistique chinoise, cet article, nous allons proposer une m�thode pour utiliser les informations de course pour am�liorer le vecteur de mot chinois.

Mot algorithme de vecteur est la base de l'algorithme dans le domaine du traitement du langage naturel, dans l'�tiquetage de la s�quence, la r�ponse aux questions et � la traduction de la machine, et bien d'autres t�ches ont jou� un r�le important. algorithme de vecteur de mot Word2vec a d'abord �t� propos� par Google en 2013, dans les prochaines ann�es, gr�ce � l'am�lioration continue, mais la plupart du temps disponible uniquement en anglais (comme l'anglais) compos� de caract�res latins, mots combinaison vectorielle �tude des caract�ristiques de la langue chinoise relativement faible.

Travaux connexes:

D�s 1954, linguiste Harris a propos� � distributive Hypothesis (hypoth�se distribu�e) �: mots s�mantiquement similaires apparaissent souvent dans un contexte similaire. Cette hypoth�se a jet� un suivi � une vari�t� linguistique de vecteur de base de mot, qui utilise un mod�le math�matique pour d�crire la similitude s�mantique des mots et de leur contexte. . Bengio et al, 2003 propos� NNLM (mod�le de langage � base de r�seau de neurones), �tant donn� qu'une grande quantit� de calcul par softmax (calcul de la complexit� temporelle � long terme du d�nominateur O (| V |), V est une liste compl�te des mots ), il est apparu dans de nombreuses m�thodes de calcul approximatives rapides.

Pour r�soudre ce probl�me, Google a propos� word2vec algorithme , qui contient les deux strat�gies, appel�es n�gatives d'�chantillonnage (�chantillon n�gatif), l'autre est un softmax hi�rarchique (niveau softmax). L'�chantillonnage n�gative l'id�e de base: Chaque mot softmax calculate trop lent, puis choisir au hasard quelques-unes pour calculer Eh bien, bien s�r, plus le nombre de fois le mot appara�t dans les donn�es de formation, plus il sera s�lectionn� et hi�rarchique Softmax , en termes simples, il est de construire une structure arborescente, chacun des calculs de haut en bas de la racine au nud feuille, seule une complexit� temporelle logarithmique! Comment construire un arbre peut faire la hauteur de l'arbre pour le rendre aussi petit que possible? arbre de Huffman.

Le mod�le de base est de construire un mot de vecteur de mot et sa fonction de similitude de contexte, kit word2vec il y a deux impl�mentations, � savoir skipgram et cbow.

Algorithme 1 Les SGNS de la FIG

Supposons que le mot courant w est � chat �, et c est le contexte du mot � assis �, l'objectif de l'algorithme est donn� w c maximisent la probabilit� d'occurrence (skipgram). Dans cet algorithme, chaque mot est trait� dans son ensemble, en utilisant l'ext�rieur de l'information contextuelle de la structure pour apprendre � obtenir le vecteur de mot.

Si elle peut �tre enti�rement int�gr� (sous-mot) des informations sur la structure interne du mot, il divis� en plus de structure � grains fins � am�liorer vecteur de mot? Anglais chaque mot contenu dans le caract�re (lettre) est plus, chaque lettre et sans r�elles comp�tences s�mantiques. Pour les mots chinois, les mots chinois peuvent �tre divis�s en caract�res (kanji).

. Chen et al, 2015 Mod�le CWE propos�, l'id�e est de diviser un mot en un certain nombre de caract�res chinois, et la repr�sentation vectorielle des mots d'origine et les caract�res dans lesquels chaque vecteur repr�sente le do moyen, puis de nouveaux mots comme vecteur.

2 Exemple de mod�le CWE de la Fig.

Dans cet algorithme, � intelligent � est un des mots contextuels, la premi�re divis�e en deux caract�res chinois � sagesse � et � peut �, puis calculer une nouvelle repr�sentation de vecteur de mots, le m�me ordre d'id�es, le contexte du mot � bient�t � a �galement �t� recalcul�s. CWE garder le mot en cours est fendus, ce � �ge � reste inchang�.

Difficile de penser, �tre divis� en radical peut �tre kanjis une bonne fa�on, Sun et al., 2014 et Li et al., 2015 �tude connexes fait. Cependant, seule une partie des personnages radicaux, Yu et al., 2017 pr�sente divis� plus d�taill�e, l'artificiel r�sum� � pi�ce en forme �, un caract�re chinois est divis� en un petit module, les mots, les caract�res et les mots membre en m�me temps d'�tude conjoint:

�L'algorithme de la figure 3 JWE

Dans lequel, w, c et d repr�sentent respectivement des mots, des caract�res et module d'�l�ment mots. taille Mot �l�ment s�par� �galement fait en utilisant uniquement la m�thode radical d�passe information.

En outre, Su et Lee, 2017 GWF mod�les propos�s, les tentatives d'extraire automatiquement une fonction du codeur en utilisant un caract�re d'image convolutifs:

La figure 4 GWE extraction de caract�ristiques de r�seau neuronal convolutif de

Apr�s avoir extrait les caract�ristiques des personnages de l'image, combin�e � des informations contextuelles sur la structure de l'apprentissage vecteur de mot chinois. Je regrette que, selon sa description d'origine, les caract�ristiques de base ainsi obtenues n'am�liore pas, mais il semble tr�s int�ressant un test.

Enjeux et d�fis:

Top Conf�rence sur le traitement du langage naturel ACL 2017, un total de quatre directions de recherche futures propos�es, comment faire un meilleur usage de � sous mot � information est l'un d'entre eux. En chinois, le mot sc�ne de vecteur, seuls les mots chinois en caract�res chinois d�mant�lement taille, am�liorer la qualit� des vecteurs de mots chinois dans une certaine mesure, si la situation est toujours pas Caract�riser des caract�res de taille des particules existent?

�5 d�montage de la taille des caract�res

Comme on peut le voir, � bois � et � for�t � est deux mots sont li�s � la s�mantique, mais quand on la taille du d�mont� caract�re chinois lorsque le � bois � et � bois � comparer le mot � for�t � et � mat�riel � aucun de m�me (g�n�ralement avec un indice pour stocker un mot ou caract�res), pour cet exemple, par cons�quent, la taille des particules de caract�res de d�mant�lement ne suffit pas. Nous voulons est la suivante:

6 sous-mot d�mant�lement de l'information plus granulaire

La m�me chose que � bois � et � bois �, respectivement, peut �tre d�compos� en � bois � et � bois � (d�riv� de � membre � moiti� gauche) la structure, la � somme � et � for�t �, respectivement, pour obtenir une pluralit� de d�montage � bois � en structure. De plus, les personnages peuvent encore �tre d�mont�es en radicaux, �l�ment de caract�re, pour l'exemple ci-dessus peut �tre efficacement extrait les informations de structure s�mantique, mais nous avons analys� �galement:

�7 et le mot structure de pi�ce radical Exemples fendus

Comme on peut le voir, la � sagesse � du radical se trouve �tre � jour � et � jour � ne peut pas exprimer la � sagesse � de l'information s�mantique. En fait, la conception radicale est de faciliter la requ�te mot dans le dictionnaire, donc une structure simple, la fr�quence d'occurrence �lev�e devient un principe fondamental, pas n�cessairement juste pour exprimer les informations s�mantiques des personnages. En outre, la � sagesse � pour diviser les morceaux de taille de mot, sera � perdu �, � bouche � et � jour � trois, tr�s malheureusement, ce membre ne peuvent pas non mots personnages expriment leur s�mantique. Nous devons concevoir une nouvelle m�thode pour red�finir les mots (ou caract�res) ayant la s�mantique de la structure:

La figure 8 sous-mot Exemples de d�mant�lement de l'information plus granulaire

Ici, la � connaissance � qui peut exprimer la s�mantique module � sagesse �, comment obtenir une telle structure sous-mot, combin�e au contexte de la phrase les objectifs d'optimisation de la conception du mod�le, g�n�rer un meilleur vecteur de mot chinois, sera explor� plus tard contenu.

mod�le cw2vec:

Anglais caract�re (caract�re) n'est pas s�mantique disponible, et les caract�res chinois ont souvent une forte information s�mantique. Est-ce diff�rent du travail pr�c�dent, nous avons propos� le concept de � n yuans coups � de. Le soi-disant � course n cha�nons �, � savoir les mots chinois est (ou des caract�res) structure s�mantique n coups cons�cutifs de ceux-ci.

�Exemple de. La figure 9 n coups �l�ment g�n�r�

Comme indiqu� ci-dessus, l'�tape n-g�n�ration d'un total de quatre coups. Par exemple, � adulte � ce mot se d�monte en deux caract�res � grand � et � personne �, puis divis� en deux coups de caract�res chinois, accident vasculaire c�r�bral, puis mis en correspondance avec les chiffres, � son tour, produit en utilisant une fen�tre glissante de n accidents vasculaires c�r�braux. Dans lequel, n est �gal � une gamme, dans l'exemple ci-dessus, la valeur de n sera de 3, 4 et 5.

Dans cet article, nous vous proposons un nouveau type de fonction de perte en fonction de n temps:

Exemple 10 processus algorithmique figure

Comme indiqu� plus haut, la � brume un traitement d'urgence �, qui est, le mot courant est suppos� que le moment est exactement � brume �, un contexte terme � traitement � et � urgent �. D'abord, nous en mots � brume � d�sassembl� en n-coups et cartographi�es en code num�rique, et ensuite obtenir toutes les fen�tres D�SIGN� n-temps, la perte de fonction conform�ment � notre conception, chaque coup d'�l�ment n calcul� et les mots dans le contexte de similitude et encore mis � jour en fonction d'un gradient de la fonction de perte et de trouver le mot vecteurs et le vecteur de contexte de coups de n.

Afin de v�rifier l'effet de cw2vec notre algorithme propos�, nous dans les ensembles de donn�es publics et meilleurs quelques mots de l'industrie des algorithmes vectoriels faire une comparaison:

R�sultats Figure 11

La figure ci-dessus comprend word2vec 2013 Nian Google propose de deux mod�les skipgram et cbow, Glove 2014 algorithme de Stanford a propos� , l'Universit� de Tsinghua en 2015 le mod�le propos� CWE bas� sur les caract�res chinois et algorithme mot vecteur chinois bas� sur les parties 2017 pixels et de mots r�cemment publi�s , on peut voir dans la similarit� des mots cw2vec, analogie mot, et le nom des t�ches de reconnaissance et de classification texte entit� ont obtenu une meilleure coh�rence. Nous montrons �galement les r�sultats exp�rimentaux sous diff�rentes dimensions vecteur mot:

Les r�sultats de la figure 12 mots diff�rents dimension vecteur

Les r�sultats exp�rimentaux sur l'ensemble de test de mot analogie diff�rentes dimensions sur le graphique, la gauche 3cosadd, le c�t� droit est la m�thode d'essai 3cosmul. Notre algorithme peut �tre vu dans les diff�rentes dimensions des param�tres sont bons r�sultats. De plus, nous avons �galement test� sur un petit corpus d'�chelle:

�Les r�sultats de la figure. 13 petites donn�es de formation

Le chiffre est seulement 20% des donn�es de formation Wikip�dia chinois s�lectionn�s, les r�sultats des tests sous la similarit� de mots, skipgram, cbow et Glove algorithme En raison de la nature des informations ne sont pas men�es pour renforcer l'utilisation du chinois, de sorte que le petit corpus de mauvaises performances, tandis que les quatre autres algorithme a obtenu de bons r�sultats, notre algorithme sur lequel les deux ensembles de donn�es ont �t� obtenus des r�sultats optimaux.

14 r�sultats de l'�tude de cas

Afin de mieux explorer l'effet pratique des algorithmes diff�rents, nous avons choisi sp�cifiquement deux mots font des �tudes de cas. La premi�re est li�e � l'environnement, � la pollution de l'eau � et trouver les mots en fonction de leur vecteur de mot le plus proche s�mantique en utilisant l'angle de cosinus vecteur. GWF trouver quelques mots et � sale � mot li�s, tels que � la boue �, � la salet� � et � la salet� �, et JWE davantage l'accent sur le mot � pollution � Glove trouver des mots similaires �tranges, tels que " syst�me circulatoire � � syst�me nerveux ". CWE trouver des mots similaires sont comme � l'eau � et mot � sale �, on devine est due � sa cause directe de l'utilisation du vecteur de mot de caract�res chinois renforc�. En outre, seul cw2vec j'ai trouv� le mot � eau � pertinent, nous avons pens� �tre d� aux n-coups et les r�sultats du contexte d'interaction des informations vecteur de mot. Le deuxi�me exemple, nous avons choisi le � Monkey King � ce mot appara�t dans le r�le du classique chinois � Journey to the West � et bien connu anime japonais � Dragon Ball �, un r�le ou les noms cw2vec li�s au travail se trouvent.

En tant que les r�sultats de la recherche fondamentale, cw2vec sur la sc�ne il y a beaucoup de Ali �tage. Dans le service � la client�le � puce, le contr�le des risques et le texte et recommandent des sc�narios pratiques ont jou� un r�le. En outre, non seulement le vecteur de mot chinois, pour d'autres langues telles que le japonais, le cor�en, etc. Nous r�alisons �galement des tentatives similaires, la demande de brevet d'invention technique pertinente a �t� presque vingt ans.

Nous esp�rons �tre en mesure de rattraper son retard avec le monde universitaire, pour accomplir quelque chose dans la recherche fondamentale, plus important encore, entre le sc�nario pratique sp�cifique, peut la v�ritable technologie d'intelligence artificielle permettant de l'int�rieur du produit, pour offrir aux utilisateurs un meilleur service.

articles

https://github.com/ShelsonCao/cw2vec/blob/master/cw2vec.pdf

Documents de r�f�rence

1. Harris, Zellig S. "structure distributive." Parole 1954.

2. Bengio, Yoshua, et al. "Un mod�le de langage probabiliste de neurones." JMLR 2003.

. 3. Mikolov, Tomas, et al ArXiv pr�publication arXiv "estimation efficace des repr�sentations de mots dans l'espace vectoriel.": 1301,3781 (2013).

4. Mikolov, Tomas, et al. "Repr�sentations distribu�es des mots et des phrases et leur compositionnalit�." 2013 NIPS.

5. Chen, Xinxiong, et al. "Apprentissage mixte de caract�re et Word Plongements." IJCAI 2015.

6. Sun, Yaming, et al. "Plongement chinois radical am�lior�." ICNIP 2014.

. 7. Li, Yanran, et al "composant am�lior� incorporations de caract�res chinois." ArXiv pr�publication arXiv: 1508,06669 (2015).

8. Yu, Hanny, et al. "Plongements commune des mots caract�res chinois, et � grains fins Composants Subcharacter." EMNLP 2017.

9. Su, Tzu-Ray, et Hung-Yi Lee. "Apprendre mot chinois Repr�sentations De Glyphes de caract�res." EMNLP 2017.

10. Pennington, Jeffrey, et al. "Glove: vecteurs globaux pour la repr�sentation de mot." EMNLP 2014.

Route de la soie

Apprenez � conna�tre la Chine

Comment faire des machines � comprendre les myst�res des caract�res chinois une peinture?

fond

Travaux connexes:

Enjeux et d�fis:

mod�le cw2vec:

Documents de r�f�rence