� A propos de word2vec est erron� �: papier et mondes de code � part, est un ph�nom�ne commun?

Marrons du fond de la non-�vid�es Temple

Qubit produit | Num�ro public QbitAI

word2vec Google en 2013 est un outil de langage open source.

r�seau � deux niveaux, sera en mesure de devenir un mot vecteur important dans le domaine de la PNL, il est � la base de nombreuses fonctionnalit�s mises en uvre.

Mais maintenant, il est appel� un bollu (appel� ananas ) Programmeur, dire haut et fort au monde:

� A propos de word2vec, tout ce que vous savez est faux. �

Selon lui, L'explication de th�se, et le code pour obtenir un rapport parle est totalement diff�rent.

N'est pas code open source, les papiers d'�criture ne pas �crire clairement pas d'importance?

Une exposition attention a attir� beaucoup de gens pour discuter et r�sonance, pas de chaleur demi-journ�e pr�s de 300 points Hacker Nouvelles:

Alors, comment est la vision du monde d'ananas effondr�, ses vrais yeux word2vec est comme?

Pas le m�me ciel

genre word2vec interpr�tation classique �(Skip-Gram, le type d'�chantillons n�gatifs), les papiers et le blog d'innombrables est �crit comme ceci:

Il ne peut y voir deux vecteurs.

Les programmeurs peuvent dire, je regardais le plus original word2vec langue Code de mise en uvre C , Vous trouverez compl�tement diff�rent.

(La plupart avec des mots humains int�gr�s word2vec, soit appeler directement la mise en uvre C, soit l'appel gensim obtenir .gensim est une traduction de C pour obtenir plus, m�me les noms des variables sont les m�mes.)

C obtenir un long chemin

Chaque mot a deux vecteurs, chacun ayant un r�le diff�rent:

En tant que repr�sentation du mot mot-cl� �Regardez (Word Focus) quand.

Un centre exprim� comme un autre mot contexte �Look (contexte Word) quand.

Ananas dit: il familier, Glove est emprunt� des id�es ici Il suffit de ne savez pas qui le dire.

Dans le code source en langage C, le r�glage a �t� tr�s bien, ces deux vecteurs tableau �(Array) sont responsables de:

syn0 Array, comme responsable d'un mot mot-cl� Lorsque le vecteur. il est initialisation al�atoire A.

syn1neg Array, comme responsable du mot contexte Lorsque le vecteur. il est Z�ro initialis� A.

https://github.com/tmikolov/word2vec/blob/20c129af10659f7c50e86e3be406df663beff438/word2vec.c#L369 pour (a = 0; un < �vocab_size; a ++) pour (b = 0; b < �layer1_size; b ++) { next_random = next_random * (unsigned long long) 25214903917 + 11; syn0 �= (((Next_random & 0xFFFF) / (r�el) 65536) - 0,5) / layer1_size; }

La formation, vous devez d'abord �lire un mot-cl� . Dans les �chantillons positifs et n�gatifs du temps de formation, le centre du mot reste inchang� (Constant) a.

Le mot de gradient de centre de vecteur (Gradients), est accumul�e dans le tampon (buffer) dans. Apr�s l'effet positif et n�gatif de l'�chantillon, ces gradients sont appliqu�s au centre du mot:

1 Si (n�gatif > �0) pour (d = 0; d < �n�gatif + 1; d ++) { 2 // si nous effectuons un �chantillonnage de n�gatif, dans la 1�re it�ration, 3 // choisir un mot du contexte et de d�finir la cible de produit scalaire � 14 si (d == 0) { 5 target = mot; 6 label = 1; 7} else { 8 // pour toutes les autres it�rations, choisir un mot au hasard et mettre le point 9 // cible de produits � 010 next_random = next_random * (unsigned long long) 25214903917 + 11; 11 target = tableau ; 12 if (cible == 0) target = next_random% (vocab_size - 1) + 1; 13 si (cible == mot) continuer; 14 label = 0; 15} 16 L2 = cible * layer1_size; 17 f = 0; 1819 // trouver le produit scalaire du vecteur d'origine avec le vecteur n�gatif de l'�chantillon 20 // magasin � f 21 pour (c = 0; c < �layer1_size; c ++) f + = syn0 �* Syn1neg ; 2223 // g = ensemble sigmo�de (f) (� peu pr�s, la formule r�elle est un peu plus complexe) 24 if (f > �MAX_EXP) = g (label - 1) * alpha; 25 else if (f < �-MAX_EXP) = g (label - 0) * alpha; 26 g = autre (label - expTable ) * alpha; 2728 // 1. Mise � jour le vecteur syn1neg, 29 // 2. NE PAS MISE � JOUR syn030 // 3. MAGASIN Le gradient de neu1e dans un tampon temporaire 31 pour (c = 0; c < �layer1_size; c ++) neu1e �+ = G * syn1neg ; 32 pour (c = 0; c < �layer1_size; c ++) syn1neg �+ = G * syn0 ; 33} 34 // Enfin, apr�s tous les �chantillons, la mise � jour de syn1 neu1e 35https: //github.com/tmikolov/word2vec/blob/20c129af10659f7c50e86e3be406df663beff438/word2vec.c#L54136 // En savoir entr�e de poids - > �cach� 37Pour (c = 0; c < �layer1_size; c ++) syn0 �+ = Neu1e ;

La question est, pourquoi initialisation al�atoire Pourquoi Z�ro initialis� ?

initialisation A propos de

Ces choses n'ont pas vu les journaux et parl� dans le blog, ananas notre seule sp�culer pour un moment:

�tant donn� que des �chantillons n�gatifs (�chantillon n�gatif) du texte vers le haut et vers le bas, de sorte imit�rent la fr�quence de mot pour d�finir les poids, afin de choisir quel mot peut mot habituellement vectoriel encore combien par la formation.

Si ce vecteur a d�j� une valeur, il peut �tre d�plac� (D�placement al�atoire) mot central.

La solution est de mettre tous les �chantillons n�gatifs est fix� � z�ro, de sorte que seuls ceux qui comptent comparer haute fr�quence Vector se produit, il aura une incidence sur la caract�risation d'un autre vecteur.

Il a dit le programmeur, si oui, vraiment intelligent. Il a �galement jamais pens� avoir une telle strat�gie importante pour initialiser, lire le journal ne peut pas voir.

regard direct sur le code, ne crois pas que les papiers

Avant cela, l'ananas a pass� deux mois se reproduisent word2vec, lu de nombreux articles, �choue.

Peu importe combien de fois essay� ou non selon le document scores. Je ne peux pas croire que le score est compil� auteurs.

Enfin, il a d�cid� de lire attentivement le code source. Ouvrez la premi�re lecture, je pensais que mal, parce que, avant et vu l'information ne sont pas les m�mes:

Je ne comprends pas pourquoi les documents originaux et blog en ligne, pour �crire word2vec pas vraiment comment cela fonctionne. Et donc je veux �crire votre propre.

De plus dans ce processus, il �tait comme mentionn� ci-dessus, a trouv� gant Pour le contexte (contexte) un vecteur unique de cette approche, d'o� word2vec.

Le GANT l'auteur ne mentionne pas.

La pens�e de ce fait, le programmeur a une nouvelle question:

Ce n'est pas La malhonn�tet� acad�mique �(Academic Malhonn�tet�) Pourquoi? Je ne sais pas le nombre, mais au moins c'est un probl�me tr�s grave.

En dehors triste, ananas a pris une d�cision pleine d'esprit: ne regardez pas le papier pour expliquer l'algorithme, Lire directement le code source .

Pourquoi cette habitude?

Discussion des documents et des incoh�rences r�alis�es, utilisez un compilateur Lire le journal pendant 40 ans Programmeur senior (DannyBee), occupe le rez-de-haut de la Hacker Nouvelles zone de commentaire.

Il a d�taill� les ann�es, les auteurs changement d'habitude :

Un grand nombre de la r�alisation rapide de l'algorithme, et les principes sont description coh�rente, la performance et match de description. Les documents seront utilis�s seule diff�rence entre pseudo-code (pseudo-code), avec une partie du pseudo-code, et la mise en uvre O� seront d�crits en d�tail. Plus tard, les gens ont commenc� disparu. Certains algorithmes papier, soit des uvres d�crivent pas comme �tant soit inefficace de ne pas utiliser. Regardez le code source va trouver le temps, le papier ne veut pas dire qu'il �tait. SSAPRE Est-ce un classique. Aujourd'hui, je l'ai lu des papiers se sentent encore difficile � comprendre. Le code source du compilateur en Open64 lu et papiers trouv�s tr�s diff�rents (tr�s diff�rentes). Plus tard encore Avec GitHub ces communaut�s, les choses semblaient en bonne sant� direction vers le d�veloppement pr�coce. Dans un tel environnement, word2vec consid�r� comme un contre-exemple, ils peuvent avoir l'impression que le code a �t� ouvert source, papiers � �crire effacer il n'a pas d'importance .

Ensuite, il �tait en bas (nullwasamistake), ledit contre-exemple que celui-ci:

Quand j'ai r�alis� un algorithme de tri table de hachage, nous avons trouv� un article r�cent a un probl�me similaire. Th�se jamais mentionn�, la taille de la table doit �tre 2 ^ n. La pleine signification de cette recherche, il semble que, plus que tout autre algorithmes existants l'efficacit� de la m�moire. Je l'ai fait un 2/3 trouv�, il n'y a pas plus efficace que les m�thodes existantes, mais pire encore, � moins que la taille de la table dans un 2 ^ n. Bien que pas un mensonge carr�ment, Mais cette omission soit tr�s cr�atif .

Toutefois, lorsque le papier a indiqu� que ta tra�ner, des amis qui Tucao aussi solide, il a dit:

Maintenant, il y a le risque de g�ants de la technologie de la critique, l'avenir peut aussi vouloir le travailler.

Dans cette perspective, l'ananas est un gar�on courageux.

portail

commentaires ananas word2vec intacts publi�s sur github, sont int�ress�s peuvent aller voir:

https://github.com/bollu/bollu.github.io

De plus, Hacker Nouvelles section commentaire, plus facile de trouver le m�me sentiment:

https://news.ycombinator.com/item?id=20089515

- FIN -

recrutement sinc�re

Qubits recrutent �diteur / journaliste, bas� � Zhongguancun de Beijing. Nous attendons de talent, des �tudiants enthousiastes de nous rejoindre! D�tails, s'il vous pla�t interface de dialogue qubit num�ro public (QbitAI), r�ponse mot "recrutement".

Qubit QbitAI � manchettes sur la signature de

' � suivre les nouvelles technologies AI dynamiques et de produits

Route de la soie

Apprenez � conna�tre la Chine

� A propos de word2vec est erron� �: papier et mondes de code � part, est un ph�nom�ne commun?