Comment faire des machines à comprendre les mystères des caractères chinois une peinture?

Ali soeur REVIEW: mot chinois pour le problème de génération de vecteurs non supervisé, le ministère des fourmis artificielles robe d'or a conçu un nouvel algorithme: cw2vec. L'algorithme tire pleinement parti des caractéristiques linguistiques des Chinois, de comprendre les mystères de la machine entre les personnages d'un tableau. Sur les ensembles de données publiques, la précision de l'algorithme que la word2vec de Google, l'industrie meilleur algorithme de Stanford Glove, Tsinghua CWE, etc., et ont obtenu de bons résultats dans de nombreux scénarios d'Ali, les documents pertinents sont AAAI 2018 haut les points engagés.

Auteur: Cao Wei Zhou Jun Lu Shao-litre Bruce Lee

fond

Connaître l'intelligence plus humaine du client à la traduction automatique, texte à digérer généré à partir de l'analyse des commentaires des utilisateurs, le contrôle de sécurité de la description textuelle des marchandises à la modélisation du vent, toute utilisation de la technologie de langage naturel, comme une branche importante de l'intelligence artificielle, comment obtenir la machine la langue, en particulier les kanjis idéogrammes cette forte, est un grand défi pour le faire.

vecteur Word, est une utilisation de l'apprentissage non supervisé (pas de marquage manuelle des données), les mots de cartographie à la technologie sémantique espace vectoriel. Par exemple: Dans le passé, l'indice de l'ordinateur indique les mots, comme « Cat: 2123 », « Chien: 142 », parce que l'indice est pas la même, la machine sera considérée comme des mots différents, mais pas comme les gens perçoivent les mots relation sémantique entre les deux. La technologie vecteur mot juste pour faire ce point afin que la machine peut comprendre le potentiel de l'information sémantique. En fait, de nombreux algorithmes de traitement du langage naturel qui sont utilisés comme entrée, puis construire le modèle de bout en algorithme. Par conséquent, la conception de l'algorithme de vecteur de mot de haute qualité génération mérite d'être examinée la question.

Chinois Après des milliers d'années de développement et de l'évolution, est une forte idéogramme, pour nous, même si je ne sais pas un mot, vous pourrez peut-être deviner le sens, la machine est très difficile de les comprendre. Par exemple, « Qiu » est le mot que nous ne savons probablement pas, mais il y a préfixe « Lv » et « Wo » à côté du bois, alors il est probablement une plante qui ressemble à un mot la partie en bas à droite de celui-ci. A titre de vecteurs de mots, nous espérons être en mesure de comprendre les mystères de la machine entre les personnages d'un tableau. Cependant, l'algorithme classique ne peut pas faire un bon usage des caractéristiques de la linguistique chinoise, cet article, nous allons proposer une méthode pour utiliser les informations de course pour améliorer le vecteur de mot chinois.

Mot algorithme de vecteur est la base de l'algorithme dans le domaine du traitement du langage naturel, dans l'étiquetage de la séquence, la réponse aux questions et à la traduction de la machine, et bien d'autres tâches ont joué un rôle important. algorithme de vecteur de mot Word2vec a d'abord été proposé par Google en 2013, dans les prochaines années, grâce à l'amélioration continue, mais la plupart du temps disponible uniquement en anglais (comme l'anglais) composé de caractères latins, mots combinaison vectorielle étude des caractéristiques de la langue chinoise relativement faible.

Travaux connexes:

Dès 1954, linguiste Harris a proposé « distributive Hypothesis (hypothèse distribuée) »: mots sémantiquement similaires apparaissent souvent dans un contexte similaire. Cette hypothèse a jeté un suivi à une variété linguistique de vecteur de base de mot, qui utilise un modèle mathématique pour décrire la similitude sémantique des mots et de leur contexte. . Bengio et al, 2003 proposé NNLM (modèle de langage à base de réseau de neurones), étant donné qu'une grande quantité de calcul par softmax (calcul de la complexité temporelle à long terme du dénominateur O (| V |), V est une liste complète des mots ), il est apparu dans de nombreuses méthodes de calcul approximatives rapides.

Pour résoudre ce problème, Google a proposé word2vec algorithme , qui contient les deux stratégies, appelées négatives d'échantillonnage (échantillon négatif), l'autre est un softmax hiérarchique (niveau softmax). L'échantillonnage négative l'idée de base: Chaque mot softmax calculate trop lent, puis choisir au hasard quelques-unes pour calculer Eh bien, bien sûr, plus le nombre de fois le mot apparaît dans les données de formation, plus il sera sélectionné et hiérarchique Softmax , en termes simples, il est de construire une structure arborescente, chacun des calculs de haut en bas de la racine au nud feuille, seule une complexité temporelle logarithmique! Comment construire un arbre peut faire la hauteur de l'arbre pour le rendre aussi petit que possible? arbre de Huffman.

Le modèle de base est de construire un mot de vecteur de mot et sa fonction de similitude de contexte, kit word2vec il y a deux implémentations, à savoir skipgram et cbow.

Algorithme 1 Les SGNS de la FIG

Supposons que le mot courant w est « chat », et c est le contexte du mot « assis », l'objectif de l'algorithme est donné w c maximisent la probabilité d'occurrence (skipgram). Dans cet algorithme, chaque mot est traité dans son ensemble, en utilisant l'extérieur de l'information contextuelle de la structure pour apprendre à obtenir le vecteur de mot.

Si elle peut être entièrement intégré (sous-mot) des informations sur la structure interne du mot, il divisé en plus de structure à grains fins à améliorer vecteur de mot? Anglais chaque mot contenu dans le caractère (lettre) est plus, chaque lettre et sans réelles compétences sémantiques. Pour les mots chinois, les mots chinois peuvent être divisés en caractères (kanji).

. Chen et al, 2015 Modèle CWE proposé, l'idée est de diviser un mot en un certain nombre de caractères chinois, et la représentation vectorielle des mots d'origine et les caractères dans lesquels chaque vecteur représente le do moyen, puis de nouveaux mots comme vecteur.

2 Exemple de modèle CWE de la Fig.

Dans cet algorithme, « intelligent » est un des mots contextuels, la première divisée en deux caractères chinois « sagesse » et « peut », puis calculer une nouvelle représentation de vecteur de mots, le même ordre d'idées, le contexte du mot « bientôt » a également été recalculés. CWE garder le mot en cours est fendus, ce « âge » reste inchangé.

Difficile de penser, être divisé en radical peut être kanjis une bonne façon, Sun et al., 2014 et Li et al., 2015 étude connexes fait. Cependant, seule une partie des personnages radicaux, Yu et al., 2017 présente divisé plus détaillée, l'artificiel résumé « pièce en forme », un caractère chinois est divisé en un petit module, les mots, les caractères et les mots membre en même temps d'étude conjoint:

 L'algorithme de la figure 3 JWE

Dans lequel, w, c et d représentent respectivement des mots, des caractères et module d'élément mots. taille Mot élément séparé également fait en utilisant uniquement la méthode radical dépasse information.

En outre, Su et Lee, 2017 GWF modèles proposés, les tentatives d'extraire automatiquement une fonction du codeur en utilisant un caractère d'image convolutifs:

La figure 4 GWE extraction de caractéristiques de réseau neuronal convolutif de

Après avoir extrait les caractéristiques des personnages de l'image, combinée à des informations contextuelles sur la structure de l'apprentissage vecteur de mot chinois. Je regrette que, selon sa description d'origine, les caractéristiques de base ainsi obtenues n'améliore pas, mais il semble très intéressant un test.

Enjeux et défis:

Top Conférence sur le traitement du langage naturel ACL 2017, un total de quatre directions de recherche futures proposées, comment faire un meilleur usage de « sous mot » information est l'un d'entre eux. En chinois, le mot scène de vecteur, seuls les mots chinois en caractères chinois démantèlement taille, améliorer la qualité des vecteurs de mots chinois dans une certaine mesure, si la situation est toujours pas Caractériser des caractères de taille des particules existent?

 5 démontage de la taille des caractères

Comme on peut le voir, « bois » et « forêt » est deux mots sont liés à la sémantique, mais quand on la taille du démonté caractère chinois lorsque le « bois » et « bois » comparer le mot « forêt » et « matériel » aucun de même (généralement avec un indice pour stocker un mot ou caractères), pour cet exemple, par conséquent, la taille des particules de caractères de démantèlement ne suffit pas. Nous voulons est la suivante:

6 sous-mot démantèlement de l'information plus granulaire

La même chose que « bois » et « bois », respectivement, peut être décomposé en « bois » et « bois » (dérivé de « membre » moitié gauche) la structure, la « somme » et « forêt », respectivement, pour obtenir une pluralité de démontage « bois » en structure. De plus, les personnages peuvent encore être démontées en radicaux, élément de caractère, pour l'exemple ci-dessus peut être efficacement extrait les informations de structure sémantique, mais nous avons analysé également:

 7 et le mot structure de pièce radical Exemples fendus

Comme on peut le voir, la « sagesse » du radical se trouve être « jour » et « jour » ne peut pas exprimer la « sagesse » de l'information sémantique. En fait, la conception radicale est de faciliter la requête mot dans le dictionnaire, donc une structure simple, la fréquence d'occurrence élevée devient un principe fondamental, pas nécessairement juste pour exprimer les informations sémantiques des personnages. En outre, la « sagesse » pour diviser les morceaux de taille de mot, sera « perdu », « bouche » et « jour » trois, très malheureusement, ce membre ne peuvent pas non mots personnages expriment leur sémantique. Nous devons concevoir une nouvelle méthode pour redéfinir les mots (ou caractères) ayant la sémantique de la structure:

La figure 8 sous-mot Exemples de démantèlement de l'information plus granulaire

Ici, la « connaissance » qui peut exprimer la sémantique module « sagesse », comment obtenir une telle structure sous-mot, combinée au contexte de la phrase les objectifs d'optimisation de la conception du modèle, générer un meilleur vecteur de mot chinois, sera exploré plus tard contenu.

modèle cw2vec:

Anglais caractère (caractère) n'est pas sémantique disponible, et les caractères chinois ont souvent une forte information sémantique. Est-ce différent du travail précédent, nous avons proposé le concept de « n yuans coups » de. Le soi-disant « course n chaînons », à savoir les mots chinois est (ou des caractères) structure sémantique n coups consécutifs de ceux-ci.

 Exemple de. La figure 9 n coups élément généré

Comme indiqué ci-dessus, l'étape n-génération d'un total de quatre coups. Par exemple, « adulte » ce mot se démonte en deux caractères « grand » et « personne », puis divisé en deux coups de caractères chinois, accident vasculaire cérébral, puis mis en correspondance avec les chiffres, à son tour, produit en utilisant une fenêtre glissante de n accidents vasculaires cérébraux. Dans lequel, n est égal à une gamme, dans l'exemple ci-dessus, la valeur de n sera de 3, 4 et 5.

Dans cet article, nous vous proposons un nouveau type de fonction de perte en fonction de n temps:

Exemple 10 processus algorithmique figure

Comme indiqué plus haut, la « brume un traitement d'urgence », qui est, le mot courant est supposé que le moment est exactement « brume », un contexte terme « traitement » et « urgent ». D'abord, nous en mots « brume » désassemblé en n-coups et cartographiées en code numérique, et ensuite obtenir toutes les fenêtres DÉSIGNÉ n-temps, la perte de fonction conformément à notre conception, chaque coup d'élément n calculé et les mots dans le contexte de similitude et encore mis à jour en fonction d'un gradient de la fonction de perte et de trouver le mot vecteurs et le vecteur de contexte de coups de n.

Afin de vérifier l'effet de cw2vec notre algorithme proposé, nous dans les ensembles de données publics et meilleurs quelques mots de l'industrie des algorithmes vectoriels faire une comparaison:

Résultats Figure 11

La figure ci-dessus comprend word2vec 2013 Nian Google propose de deux modèles skipgram et cbow, Glove 2014 algorithme de Stanford a proposé , l'Université de Tsinghua en 2015 le modèle proposé CWE basé sur les caractères chinois et algorithme mot vecteur chinois basé sur les parties 2017 pixels et de mots récemment publiés , on peut voir dans la similarité des mots cw2vec, analogie mot, et le nom des tâches de reconnaissance et de classification texte entité ont obtenu une meilleure cohérence. Nous montrons également les résultats expérimentaux sous différentes dimensions vecteur mot:

Les résultats de la figure 12 mots différents dimension vecteur

Les résultats expérimentaux sur l'ensemble de test de mot analogie différentes dimensions sur le graphique, la gauche 3cosadd, le côté droit est la méthode d'essai 3cosmul. Notre algorithme peut être vu dans les différentes dimensions des paramètres sont bons résultats. De plus, nous avons également testé sur un petit corpus d'échelle:

 Les résultats de la figure. 13 petites données de formation

Le chiffre est seulement 20% des données de formation Wikipédia chinois sélectionnés, les résultats des tests sous la similarité de mots, skipgram, cbow et Glove algorithme En raison de la nature des informations ne sont pas menées pour renforcer l'utilisation du chinois, de sorte que le petit corpus de mauvaises performances, tandis que les quatre autres algorithme a obtenu de bons résultats, notre algorithme sur lequel les deux ensembles de données ont été obtenus des résultats optimaux.

14 résultats de l'étude de cas

Afin de mieux explorer l'effet pratique des algorithmes différents, nous avons choisi spécifiquement deux mots font des études de cas. La première est liée à l'environnement, « la pollution de l'eau » et trouver les mots en fonction de leur vecteur de mot le plus proche sémantique en utilisant l'angle de cosinus vecteur. GWF trouver quelques mots et « sale » mot liés, tels que « la boue », « la saleté » et « la saleté », et JWE davantage l'accent sur le mot « pollution » Glove trouver des mots similaires étranges, tels que " système circulatoire « » système nerveux ". CWE trouver des mots similaires sont comme « l'eau » et mot « sale », on devine est due à sa cause directe de l'utilisation du vecteur de mot de caractères chinois renforcé. En outre, seul cw2vec j'ai trouvé le mot « eau » pertinent, nous avons pensé être dû aux n-coups et les résultats du contexte d'interaction des informations vecteur de mot. Le deuxième exemple, nous avons choisi le « Monkey King » ce mot apparaît dans le rôle du classique chinois « Journey to the West » et bien connu anime japonais « Dragon Ball », un rôle ou les noms cw2vec liés au travail se trouvent.

En tant que les résultats de la recherche fondamentale, cw2vec sur la scène il y a beaucoup de Ali étage. Dans le service à la clientèle à puce, le contrôle des risques et le texte et recommandent des scénarios pratiques ont joué un rôle. En outre, non seulement le vecteur de mot chinois, pour d'autres langues telles que le japonais, le coréen, etc. Nous réalisons également des tentatives similaires, la demande de brevet d'invention technique pertinente a été presque vingt ans.

Nous espérons être en mesure de rattraper son retard avec le monde universitaire, pour accomplir quelque chose dans la recherche fondamentale, plus important encore, entre le scénario pratique spécifique, peut la véritable technologie d'intelligence artificielle permettant de l'intérieur du produit, pour offrir aux utilisateurs un meilleur service.

articles

https://github.com/ShelsonCao/cw2vec/blob/master/cw2vec.pdf

Documents de référence

1. Harris, Zellig S. "structure distributive." Parole 1954.

2. Bengio, Yoshua, et al. "Un modèle de langage probabiliste de neurones." JMLR 2003.

. 3. Mikolov, Tomas, et al ArXiv prépublication arXiv "estimation efficace des représentations de mots dans l'espace vectoriel.": 1301,3781 (2013).

4. Mikolov, Tomas, et al. "Représentations distribuées des mots et des phrases et leur compositionnalité." 2013 NIPS.

5. Chen, Xinxiong, et al. "Apprentissage mixte de caractère et Word Plongements." IJCAI 2015.

6. Sun, Yaming, et al. "Plongement chinois radical amélioré." ICNIP 2014.

. 7. Li, Yanran, et al "composant amélioré incorporations de caractères chinois." ArXiv prépublication arXiv: 1508,06669 (2015).

8. Yu, Hanny, et al. "Plongements commune des mots caractères chinois, et à grains fins Composants Subcharacter." EMNLP 2017.

9. Su, Tzu-Ray, et Hung-Yi Lee. "Apprendre mot chinois Représentations De Glyphes de caractères." EMNLP 2017.

10. Pennington, Jeffrey, et al. "Glove: vecteurs globaux pour la représentation de mot." EMNLP 2014.

Leading 22 points peuvent être inversés, mais parlent aussi de jouer les Warriors? Les remarques de Tailun Lu après le jeu trop simple!
Précédent
Hengda a gagné huit trick Super zoom consécutifs: 5 indicateurs de données ont forcé les joueurs un sentiment de pression
Prochain
Série mis en scène la nuit trois renversement majeur, menant 2 buts 3 buts ne sont pas assurés!
UAV confession, la confession ...... la nuit Tanabata, ce soir frotté une bonne main « nourriture pour chien »!
retour Madman! Mike Mussina excité Manchester United fait un changement de détails, les fans de Dream Theater chinois sont derrière lui
Fatigué et en colère, la honte! Brutalement 24 inversées, James fait toute la nuit?
Ali a publié 2018 Programme de recherche mondial de l'innovation ainsi que 50 institutions lutte contre la technologie de base
Coupe du monde « de nuit »: forte à l'extérieur de dépassement arrêté tout pas d'arrêt, à des vitesses allant jusqu'à 39,2 kmh
Beatles préférés de la petite soeur cessé, en effet, ces voitures sont très bons!
Le premier de tester WEY VV5! La marque chinoise SUV de luxe Quel est le motif principal?
Star de Manchester United bâton dans le trou noir des premières victimes ne jamais abandonner! Il y a une responsabilité lourde qui lui a donné Mourinho absolue
défaite 34 points! James remarques adressées directement à ses coéquipiers après le match! Tai Lunlu cette fois-ci n'a pas réussi l'argent!
Coupe du Monde Ballon d'Or gagnant est devenu l'ennemi public: retour à la Croatie ou accroupi cinq ans derrière les barreaux
Un taxi est de ne pas économiser de l'argent? Le coût de garder une voiture était en fait deux fois plus!