Vous voulez étudier la PNL, je ne comprends pas les mots et les phrases d'inclusion comment la ligne intégrés?

Lei Note du réseau Feng: Cet article est une compilation de la recherche de Lei blog de groupe Feng, titre original The actuel meilleur de la Parole universelle incorporations et Sentence Plongements, auteur Thomas Wolf.

Traduction | Fu Teng, finition Wang Xingyu | Jiang Fan

Spots une petite annonce: programmes d'études C dans le domaine de la PNL, AI Mu CS224n Stanford sont continuellement mis à jour en cours de niveau collégial, l'affichage gratuit et illimité!

Les mots et phrases modèle intégré est déjà le composant de base d'un système de NLP à une profondeur de l'apprentissage sur la base.

Les mots et phrases sont codées dans la densité du vecteur de longueur fixe, afin d'améliorer considérablement les performances de traitement des données de texte.

À l'heure actuelle une tendance qui est la suivante: Comment construire systèmes embarqués Universal . systèmes embarqués universels qui sont déjà dans beaucoup de littérature sur la base du système de formation, ce système peut être formé pour un certain nombre de modèle de tâche en aval parmi les (analyse des sentiments, la classification, la traduction, etc.), afin de mettre à jour automatiquement les performances de ces modèles de tâches, parce que GM a étudié les systèmes embarqués sur grands ensembles de données pour caractériser certaines des caractéristiques de base d'un mot / phrase et tâches pour ajuster le modèle.

Ceci est une forme d'apprentissage de transfert.

À l'heure actuelle la caractérisation de l'apprentissage non supervisé de la phrase est déjà la norme, et a duré longtemps, mais au cours des derniers mois, en particulier à la fin de 2017 et au début de 2018, il y a eu beaucoup de supervision intéressantes peuvent être migrés l'apprentissage multi-tâches et des programmes d'apprentissage.

Mots Actuellement communs / tendances des phrases dans le modèle intégré. Dans cet article, nous allons introduire l'image ci-dessus modèle dans le logo de la police noire. documentation pertinente spécifique figurant à la fin de cet article.

Cet article est seulement pour les derniers mots génériques / phrase systèmes embarqués probablement mis en place, en plus, un aperçu de quelques-uns des détails du modèle, y compris:

  • Bonne performance / vitesse du modèle de base: Par exemple FastText, sac de mots (BOW)

  • Le dernier modèle: Elmo, Skip-pensées, rapides-pensées, InferSent, Sentence usage général MILA / MSR Représentations et encodeur Phrase universelle de Google

Le début de Let avec le mot modèle intégré il.

Le développement du mot actuel modèle intégré

Au cours des cinq dernières années, beaucoup de mots possibles méthodes ont été d'inclusion proposée. L'un des plus simple inclusion Word2vec et Glove, ils sont utilisés dans les méthodes non supervisées, sont aussi à construire la théorie de la distribution basée sur l'hypothèse distributive (qui est, si le sens de certains mots apparaissent dans le même contexte, ils peuvent avoir la signification identique ou similaire ).

Bien que la même période, il y a certaines études suggèrent une combinaison de connaissances traditionnelles et la méthode sémantique et syntaxique basée sur non surveillée, mais entre 2017-2018 ans, la méthode purement sans supervision encourageant encore des progrès, le plus notable est le  FastText (Modèle étendu de word2vec) et Elmo (le dernier mot en fonction du contexte du modèle vectoriel).

FastText Tomas Mikolov est une équipe de travail remarquable, qui a fait exploser l'enthousiasme pour l'étude des mots intégrés dans le modèle. (Tomas Mikolov est également l'initiateur de l'architecture word2vec proposée en 2013.)

FastText par rapport au vecteur d'origine word2vec améliorations majeures comprennent le caractère de ngrams basé sur un modèle. Ce modèle permet au modèle de calculer le mot intégré caractérisant le vecteur de données de formation ne figure pas parmi les mots (à savoir, autre que le mot du dictionnaire).

vitesse vecteur FastText formation appelé rapide et fournit des modèles pré-formation basée sur Wiki Encyclopédie et ensemble de données Crawl, prend en charge jusqu'à 157 types de langues. Ce sont le modèle de référence très important.

Profondeur modèle de représentation de mot de contexte (ELMO) intégré l'amélioration des performances récentes en termes étonnamment similaires. Elmo est proposé et open source par l'Institut de recherche Allen AI et est NAACL 2018 inclus, sera présentée lors de l'Assemblée générale au début de Juin 2018.

Elmo au contexte d'un mot de savoir beaucoup.

modèle Elmo dans lequel chaque mot est donné une représentation, cette représentation est une fonction, une fonction à laquelle ils appartiennent déclaration au nom de l'ensemble du corpus. Informatique embarquée à partir de deux modèles de langage bidirectionnel (LM) de l'état interne, ainsi nommé du modèle de langage « Elmo »: Plongements de modèles de langue.

Elmo caractéristiques spécifiques de:

  • entrée Elmo est le caractère plutôt que des mots. Cela permet aux avantages du niveau de l'unité de mot Elmo get, de sorte que le modèle peut calculer la caractérisation significative (et FastText similaire) est en dehors des mots du dictionnaire.

  • Elmo est liée combinaison de plusieurs couches de BILM activées. Différents encodent modèle de langue différentes couches d'information du même mot (par exemple, POS identifiant peut être bien prédit modèle biLSTM, tandis que le haut niveau bas peut BILM désambiguïsation sens achevé). La combinaison parallèle de toutes les couches peut recevoir une grande quantité d'informations est ensuite combiné mot de vecteur de caractérisation, afin d'améliorer les performances du modèle de tâche en aval.

Ensuite, regardons les modèles de phrase générale intégrée.

La montée de la phrase générique modèle intégré

Il y a beaucoup de programmes concurrents peine intégrés dans la zone du modèle. modèles de base simples comme méthode moyenne basée sur le mot intégré continue d'avoir un meilleur résultat, de nouvelles méthodes de programmes d'apprentissage non supervisé et supervisé et un certain nombre de multi-tâches, est apparu à la fin de 2017 et au début de 2018, et a mené une performance intéressante mise à niveau.

Jetons rapidement un regard sur les nouvelles actuellement quatre types de méthodes: à partir du modèle simple vecteur de base moyenne de mot à certaines nouvelles méthodes dirigées et non supervisés, et plusieurs programmes d'apprentissage multi-tâches (comme précédemment décrit).

Parlons de consensus dans ce domaine, et qui est le plus simple: mot directe d'un vecteur intégré phrase moyenne (appelée méthode BOW), nous avons été en mesure de fournir des performances assez bonne base, et convient pour la tâche la plus en aval.

Ces méthodes de calcul de base ont un meilleur algorithmes, plus de détails, reportez-vous Arora et al., Publié en 2017 IPSC dans l'article. Le titre est: Un simple mais difficile à battre de base pour la peine Plongements. mode de réalisation particulier consiste à utiliser l'un quelconque des incorporation de texte, puis phrase vecteur de mot qui est une intégration pondérée linéaire. Ensuite, le vecteur résultant est constituants normaux ont été éliminés (par exemple, en éliminant les vecteurs de faibles projetée sur la direction latitudinale du premier composant principal). motivation théorique profonde et puissante derrière cette méthode simple. Cette théorie est basée sur le principe du modèle de génération est l'utilisation de mots pour générer le texte aléatoire vecteur de marche (ici, nous ne discuterons pas les détails de la théorie).

Ceci est une face moulants (un dialogue social AI) mot chaud de dialogue sacs mot graphique. Trier sac de mots (BOW) est relativement lâche, mais très miraculeuse économiser beaucoup de la sémantique de contenu de l'information et de la syntaxe. Ceci est une conclusion intéressante, les résultats ont également Conneau et d'autres, l'article réalisé ACL 2018.

Au-delà de la moyenne simple, la première proposition importante est l'utilisation de la formation sans supervision pour atteindre l'objectif. Ceci est aussi la méthode de Jamie Skip-pensées Kiros et ses collègues en 2015.

schéma d'intégration de l'apprentissage basé sur la peine sans supervision est en fait un sous-produit. L'objectif initial de ce sous-produit dans l'espoir que le modèle peut apprendre à prédire une phrase cohérente, ou tout au moins un résumé de la phrase cohérente. Ces méthodes (en théorie) capables d'utiliser l'une des données texte, tant qu'il y données de phrases sommaires ou texte, et est cohérente et organisée de manière parallèle.

Le modèle de saut-pensées est un modèle intégré de phrase typique basé sur l'apprentissage non supervisé. Il peut être un autre modèle équivalent à ce modèle phrase enchâssée modèle skip-gramme. Ce modèle prototype est basé mot skip-gramme intégré fait. Elle se caractérise par: la prédiction d'un mot spécifique dans le contexte du mot possible, il est préférable de prévoir le contexte d'une phrase phrases données qui peuvent survenir. Le codage basé sur un modèle comprend un RNN - décodeur, le codeur et - le décodeur doit être utilisé pour reconstruire le contexte de la phrase formé, à condition qu'une phrase particulière a été accordée.

Skip-pensée cet article, il est une conclusion très intéressante que le programme d'expansion du vocabulaire. mots de panneau méthode de traitement Kiros ne semble pas, en particulier dans la phase de formation de modèle, le vecteur est appris des mots à partir de mots RNN espace enrobage et noyés dans un grand mot supplémentaire parmi conversion linéaire entre le modèle (comme word2vec).

......

Vous voulez continuer à lire, s'il vous plaît passer à notre communauté AI Yanxishe: https: //club.leiphone.com/page/TextTranslation/708

Plus de contenu passionnant de faire l'IA Yanxishe.

Les différents domaines, y compris la vision par ordinateur, la sémantique de la parole, la chaîne de blocs, pilote automatique, l'exploration de données, le contrôle intelligent, langages de programmation et d'autres mises à jour quotidiennement.

Fin du téléphone peut analyser un accès de code à deux dimensions

Lei Feng Lei Feng net net

China Unicom a pris la popularité nationale avance la carte eSIM, la carte SIM peut renoncer à l'entité ce qui change?
Précédent
Les fans du monde entier ont été carnaval! "Spider-Man: Heroes Crusade" trailer pilote affiché record
Prochain
Nike v.s adidas qui camp mieux encore? ! Sneaker Con Dallas Top 20 les plus populaires
TV box monstre de performance? Cette boîte est bien mérité!
OPPO R11 personnalisé version de Barcelone: Lynx en vente une demi-heure pour gagner
Smartisan n'a jamais quitté l'industrie du téléphone mobile, TNT ou le système deviendra un produit important!
Rêve en réalité, un réseau de résine GodView guide d'onde optique monté lunettes sortie MR, a été activé la profondeur de personnalisation
nouveau « Un Lita » dans les coulisses Daqi Di combat Angel « performance capture » la première exposition de la scène de Cameron
Allez demander TicKasa Voir débuts CES2019 pour l'entreprise
enquête sur scène d'exposition | légumes verts ruine urbaine du côté de l'aéroport de la route! ? La vérité est ......
Modèle de différence interprétabilité? Vous considérez encore les incertitudes?
2019 spectacle audio Guangzhou: Wo Technology & PROBASSCO un partenaire stratégique important contrat sur site!
« Cosméceutiques » « blocage pour » plus d'un mois la mise en uvre de l'article Chongqing des salons de beauté et les ventes en ligne sont encore
nouvelle série Bristol Los Angeles 18SS a été libéré, combinant sport et de l'outillage vous permettent de montrer dans le style d'été!