Revenant sur 2017, l'inventaire de recherche PNL en fonction de la profondeur de l'apprentissage

Note de Lei Feng réseau AI Technology Review: Cet article est publié dans l'article de tryolabs, l'auteur Javier Couto pour 2017 étaient un grand inventaire de l'apprentissage de la profondeur de traitement du langage naturel. Lei Feng réseau AI Technology Review a été compilé conformément au texte original.

Au cours des dernières années, l'architecture apprentissage en profondeur (DL) et des algorithmes progrès ont été réalisés dans le monde entier l'attention, comme la reconnaissance d'image et de traitement de la parole et d'autres domaines. Cependant, le début, l'apprentissage en profondeur dans le traitement du langage naturel (Natural Language Processing, PNL) dans le domaine de l'effet général, mais ont été confirmés par l'apprentissage en profondeur peut encore jouer un rôle important dans le domaine du traitement du langage naturel. Et dans certaines tâches de traitement du langage naturel commun, la profondeur de la méthode basée sur l'apprentissage a obtenu les meilleurs résultats. Tel que le modèle de réseau de neurones NER (reconnaissance d'entités nommées, NER ), marquage vocale (partie de l'étiquetage de la parole) et Analyse Sentiment (analyse de sentiment) Et d'autres tâches dans l'exécution est allé au-delà des méthodes traditionnelles, de plus en traduction automatique Progrès sur peut-être la plus évidente .

Dans cet article, je répartition des progrès en 2017 en langage naturel traitement basé sur la profondeur de l'apprentissage des techniques faites. En outre, comme il est il y a trop de documents pertinents, des cadres et des outils, donc je ne veux pas de procéder à une introduction détaillée. Je veux juste partager avec vous mon uvre préférée de la production de cette année, mais je pense que le 2017 impressionnant réalisé dans le domaine du traitement du langage naturel. Cette année, l'étude approfondie de l'application dans le domaine de la recherche sur le traitement du langage naturel continue à se développer, et a obtenu des résultats étonnants dans certains cas, tous les signes sont que cette application est dans l'ascendant.

Tout d'abord, de la word2vec de formation à l'utilisation modèle pré-formation

Wordclock (Plongement Word) peut être dit de nombreuses tâches de traitement du langage naturel associés à l'apprentissage profond et le plus connu d'une technologie. La technique suit l'hypothèse de distribution Harris (1954) (hypothèse distributive), selon cette hypothèse, ces mots ont des significations semblables apparaissent généralement dans des contextes similaires. A propos du mot une explication plus intégrer en détail, je vous suggère d'aller lire l'article écrit par Gabriel Mordecki.

Répartition de mot échantillon vecteur

Un tel word2vec (Mikolov et al., 2013) et GANT algorithmes (Pennington et al., 2014) sont devenus un pionnier dans le domaine, même si elles ne sont pas comptés comme l'apprentissage en profondeur (réseau de neurones word2vec est très peu profonde, et est atteint Glove une méthode basée comptage), mais formés par ces méthodes, mais dans de nombreux modèles sont utilisés comme données d'entrée basées sur le langage naturel de traitement des algorithmes d'apprentissage en profondeur. En bref, l'utilisation du mot est presque devenu des lignes directrices de l'industrie intégrées dans le domaine du traitement du langage naturel, et vraiment apporter un bon effet pratique.

Dans un premier temps, le traitement du langage naturel pour une question particulière qui doit être intégrée dans le mot, nous avons tendance à partir d'un vaste corpus de formation connexe dans le domaine de leurs propres modèles. Bien sûr, cela ne suffit pas d'utiliser le mot intégré dans la population civile, ce qui donne lieu lentement modèle de pré-formation . Ces modèles sont formés Wikipedia, Twitter, Google nouvelles et d'autres données, vous permettant de facilement intégrer mot dans vos propres algorithmes d'apprentissage en profondeur.

Cette année, a confirmé le modèle de pré-formation mot intégré reste une question clé dans le traitement du langage naturel. Par exemple, FastText de Facebook Intelligence artificielle Laboratoire de recherche (Facebook AI recherche, FAIR) a annoncé un soutien pour 294 sortes de langues dans le vecteur pré-formation (mot), qui est un excellent travail et sa contribution à nos collectivités. En plus de soutenir un grand nombre de langues en plus, FastText aussi Un caractère n-gramme (n-grammes) en fonction . Cela rend FastText pour éviter les problèmes vont au-delà du vocabulaire (Out of vocabulaire, MHV) apparaît, parce que même un mot très rare peut également partager certains caractères n-grammes avec quelques-uns des mots les plus courants. En ce sens, FastText meilleurs résultats que word2vec et Glove, mais aussi pour les petits ensembles de données, la performance est au-delà FastText .

Bien que nous ne voyons les progrès réalisés dans ce domaine, mais nous avons encore beaucoup de besoins de travail à faire. Par exemple, Spacy est un très grand cadre de traitement du langage naturel, qui, dans les mots de Manner natifs intégration et intégration des modèles d'apprentissage en profondeur dans la reconnaissance des entités nommées et l'analyse de dépendance (dépendance liée au traitement) et d'autres tâches, et permet à l'utilisateur de mettre à jour le modèle ou en utilisant un auto modèle de définition.

À mon humble avis, à l'avenir, il y aura beaucoup de modèle de pré-formation (par exemple, biologie, littérature, économie, etc.) pour un domaine particulier, ces modèles peuvent facilement être utilisés sur le cadre de traitement du langage naturel. Dans notre utilisation quotidienne, la plus facile et la plus cerise sur le gâteau de la fonction, peut prendre en charge peaufinage du modèle (réglage fin). En même temps, les méthodes mot d'adaptation intégré (adaptation mot intégration) ont commencé à apparaître.

En second lieu, le réglage de la commune intégrée (embeddings générique) adaptation de modèle de cas d'utilisation particulier

Peut-être le principal inconvénient de l'utilisation de la formation intégrée avant terme est qu'il ya une différence entre les données de formation de mot avec la distribution de données réelles. Supposons que vous ayez seulement un petit corpus, le corpus est stocké, papiers biologiques recettes ou des documents d'économie. Mais la quantité de données que vous ne pourriez pas corpus suffisant pour former un bon mot intégration, de sorte que lorsque vous utilisez un mot commun intégré, mais peut vous aider à améliorer les résultats. Mais si GM est adapté à votre modèle intégré dans des cas d'utilisation spécifiques de celui-ci?

Une telle capacité d'adaptation est communément appelé le traitement du langage naturel inter-domaines (Cross-domain) ou les techniques de champ d'adaptation (adaptation de domaine), et très similaire à l'apprentissage de transfert (apprentissage de transfert). Yang, qui a fait cette année un travail très intéressant. Ils ont proposé un Régularisation de modèle skip-gramme La boîte modèle Lorsqu'un domaine source donnée (domaine Source) intégré dans l'intégration du domaine de destination appris (domaine cible) de .

sa L'idée de base Simple et efficace. Supposons que nous savons déjà le mot w mots intégrés dans le domaine source ws. Afin de calculer le domaine cible d'encastrement en poids, d'une transmission à augmenter la quantité de ws, et la quantité de transfert est calculé à partir de deux champs. En fait, Si le mot dans les deux champs ont une fréquence élevée, cela signifie qu'il ne dépend pas de domaine sémantique . Dans ce cas, le montant du transfert est élevé, et donc sera intégrée dans les deux domaines générés très similaires. Toutefois, en raison du domaine de fréquence autre que toujours venir à bout dans un domaine particulier de haute émergence, la transmission sera très petite quantité.

La recherche sur le mot intégré n'a pas été largement exploré, donc je pense que ce sera plus d'attention à l'avenir proche.

Troisièmement, les effets secondaires incroyable - l'analyse des sentiments

Comme la pénicilline, aux rayons X ou même un post-it provient d'une découverte inattendue. Cette année Radford, qui explorent les propriétés du niveau de l'octet (niveau de l'octet) du modèle de langage en circulation, l'objectif est de prédire la région amazonienne dans le prochain caractère de commentaire, mais quand ils ont découvert par hasard Un modèle de formation de neurone unique a un pouvoir prédictif très élevé de valeur sentimentale . Et les « neurones émotionnels » simples peuvent être de manière assez précise à l'examen classées comme des émotions positives ou négatives.

Après avis de ce phénomène, les auteurs ont décidé d'analyser la base de données de modèle de test (Stanford Treebank sentiment) à l'émotion Stanford, et l'a trouvé La précision a atteint 91,8% Et le meilleur résultat était auparavant 90,2%. Cela signifie qu'ils sont moins en mesure d'utiliser le modèle des exemples de formation manière non supervisée La formation et l'analyse de l'analyse des sentiments pour atteindre la plus grande précision sur la base de données a été largement étudié des ensembles de données à l'émotion Stanford.

« Neurone émotionnel »

Parce que le modèle fonctionne à un niveau de caractère, de sorte que les neurones changent de statut pour chaque caractère de texte, et voient ce comportement est tout à fait surprenant.

Comportement émotionnel de l'affichage des neurones, des images de « Unsupervised Sentiment Neuron »

Par exemple, Après la numérisation par mot positif, la valeur des neurones deviennent aussi un grand nombre entier positif. Cet effet analyse ensuite le sillage de mot négatif à disparaître progressivement, et ce phénomène est conforme à l'intuition .

Génération d'une polarité de polarisation (Polarité biaisé) texte

Bien sûr, ce modèle est toujours efficace pour générer un modèle, il peut donc être utilisé Amazon pour générer un texte de commentaire similaire . Mais je pense encore mieux est que vous pouvez d'influencer la polarité du texte généré par la réécriture simplement la valeur des neurones émotion.

Générer le texte, de « Unsupervised sentiment Neuron »

modèle de réseau de neurones de l'échantillon utilisé est un multiplicatif LSTM Krause et al. (2016) a proposé, principalement parce qu'ils trouvent qu'ils découvrent dans la configuration ultra-paramètre de Xia Cheng LSTM convergent plus vite que la moyenne LSTM . Il a 4096 unités et utiliser le corpus de données dispose de 82 millions d'avis de formation Amazon.

en ce qui concerne Pourquoi est-ce modèle peut capturer l'émotion formé de manière précise le concept est encore un mystère ouvert . En même temps, vous pouvez essayer de former votre modèle à l'expérience. Bien sûr, si vous avez beaucoup de temps et d'un cluster de GPU, selon les informations fournies par l'auteur, Pascal sur quatre processeurs graphiques NVIDIA (GPU) la formation de ce modèle particulier, il faudra un mois.

Quatrièmement, l'analyse de l'émotion sur Twitter

Que ce soit pour obtenir l'évaluation des gens de marque d'entreprise, ou de l'analyse d'impact des activités de marketing, mais aussi des gens dans le monde entier au cours de la dernière mesure ou la vue de l'élection américaine Hillary Clinton et Donald Trump, et l'analyse des sentiments sur Twitter est un outil très puissant outil.

Hillary Clinton sur Trump: analyse émotionnelle de Twitter, les images de la "Donald Trump vs Hillary Clinton: l'analyse des sentiments sur Twitter mentionne"

évaluation émotionnelle (SemEval) 2017

L'analyse des sentiments sur Twitter a attiré beaucoup d'attention en langage naturel de traitement des chercheurs, mais a aussi attiré l'attention des sciences politiques et sociales. Voilà pourquoi depuis 2013, SemEval chaque année de proposer une tâche spécifique pour soutenir la concurrence.

Au total, 48 équipes ont participé à l'évaluation de cette année, afin de vous permettre de mieux comprendre ce que Twitter a lancé SemEval ce qui est, regardons cinq sous-tâches présentées cette année.

  • A sous-tâches: donné un tweet, tweet et ensuite déterminer l'expression de positif, négatif ou neutre émotions.

  • B sous-tâches: étant donné un tweet et un thème et ce thème pour transmettre l'émotion par le binaire: positif ou négatif.

  • C sous-tâches: étant donné un tweet et un thème, et ce thème Transmet les émotions étaient cinq catégories: très positif, positif, neutre, négatif et très négatif.

  • D sous-tâches: étant donné un ensemble de tweets liés à un sujet, évaluer la distribution du groupe de tous les tweets dans les deux émotions positives et négatives.

  • E sous-tâches: étant donné un ensemble de tweets liés à un sujet, d'évaluer toute la distribution des tweets de groupe dans cinq émotions positives et négatives, et les émotions sont cinq: très positif, positif, neutre, négatif et très négative.

  • Comme vous pouvez le voir, il est les sous-tâches les plus courantes tâche A, il y a 38 équipes impliquées dans cette tâche, mais les quatre autres sous-tâche plus difficile. Les organisateurs ont souligné que la méthode basée sur la profondeur de l'apprentissage a été accueilli par de plus en plus de participants, il y a 20 équipes qui utilisent le réseau de neurones convolutionnel (CNN) et la durée de la mémoire (LSTM) et d'autres modèles cette année. En outre, bien que le modèle de SVM est encore très populaire, mais certains participants de choisir leur méthode de combinaison avec les réseaux ou fonction intégrée de neurones est l'utilisation du mot.

    système BB_twtr

    Cette année, je trouve un système d'apprentissage profond pur --BB_twtr système (Cliché, 2017) en La cinquième sous-tâches classées d'abord en anglais . Les 10 et 10 biLSTM CNN combiné, puis En utilisant différents paramètres et super différente stratégie de pré-formation pour la formation . Vous pouvez obtenir des informations spécifiques de la structure du réseau du papier.

    Pour former ces modèles, les auteurs ont utilisé un tweets de marque de l'homme (A a 49,693 sous-tâches morceaux de données), et a été construit sans données d'étiquette contient 100 millions de tweets. Chaque tweets auteur était simple balise, qui est, comme « :-) » pour marquer une expression positive de tweets positifs émotions, puis utilisez les expressions négatives de tweets de marque négative de l'auteur de cette manière contiennent il y a 100 millions de pousser des données de texte extrait mis un ensemble de données à distance. Tous les paquets sont poussés dans les minuscules, et dans lequel la marque, URL et émoticônes sont remplacés par des marqueurs particuliers, et aussi répété le caractère unifié, par exemple « niiice » et « niiiiiiiiiice » sont devenus « niice » .

    CNN et biLSTM utilisant le mot intégré en entrée, pré-formation afin d'obtenir le mot intégration, les auteurs ont utilisé word2vec, et Glove FastText (utilisant tous les paramètres par défaut) sur toutes les données non marquées. Puis il utilise un jeu de données à distance pour mot-tune fin modèle intégré, les informations de polarité à ajouter au modèle, après quoi il a marqué l'utilisation des ensembles de données humaines pour affiner à nouveau le modèle.

    Les auteurs ont utilisé des ensembles de données avant que les résultats SemEval expérimentaux montrent que la GANT utilisation réduire les performances, et pour tout l'ensemble de données standard est pas un seul meilleur modèle. Les auteurs votent alors par une stratégie souple (vote Soft) combinera tous les modèles. Le modèle résultant de l'historique des performances optimales en 2014 et 2016 également supérieure, et aussi très proche des résultats des autres années. En fin de compte, cinquième sous-tâche du modèle en 2017 a fait de la langue anglaise classé les premiers résultats.

    Bien que cette association est d'une manière organique, au lieu d'utiliser une stratégie simple des voix douce, mais ce travail montre la possibilité de combiner des modèles d'apprentissage à différentes profondeurs, mais aussi dans une approche quasi-bout (entrée doivent être pré-traitée) a prouvé l'analyse Twitter sentiment, la stratégie est d'aller au-delà de la fin de la méthode de surveillance.

    Cinquièmement, un système de génération digest passionnante

    Étudier une classe de résumé automatique (Résumé automatique) généré la traduction automatique et traitement du langage naturel sont d'abord apparu. Résumé généré automatiquement se rendre compte, il existe principalement deux types de méthodes: Extraction base (à base d'extraction) , Est un résumé de la méthode par extraction les plus importants segments du texte source établie et Abstract (sur la base-Abstraction) sur la base Le procédé doit être formé par la génération d'un résumé du texte. Histoire, en raison de la méthode d'extraction à base de plus de méthode simple abstraite basée, et donc l'extraction est basée sur les plus couramment utilisés.

    Au cours des dernières années, en fonction du modèle RNN, nous avons accompli des réalisations remarquables en termes de texte de production. Ils ont très bien pour la saisie de texte court et de sortie, mais pour le long texte devient peu satisfaisant, ce qui est contenu sémantique souvent incohérente et illogique. Dans leur travail, Paulus et al proposé un nouveau modèle de réseau de neurones pour surmonter cette limitation. Les résultats ont été surprenants, comme le montre la figure.

    Abstract affichage généré, les images de « un modèle renforcé profond pour summarization abstractif »

    Utilisation de l'encodeur biLSTM lit une entrée, et génère un signal de sortie en utilisant un décodeur de LSTM. Leur principale contribution est de proposer une nouvelle préoccupation, respectivement, l'entrée et la sortie de la génération continue stratégie d'attention interne (intra-attention) et La nouvelle combinaison de méthodes standard de formation supervisée pour prédire les mots et l'apprentissage par renforcement .

    l'attention de la politique interne

    stratégie interne est de se concentrer cible Éviter la sortie de duplication . Pour atteindre cet objectif, ils ont utilisé le temps lors du décodage l'attention des mécanismes pour voir la section précédente du texte d'entrée, et de décider ensuite le mot suivant à générer. Cela force l'utilisation d'une partie différente du modèle d'entrée du processus de génération. Ils permettent également d'accéder au modèle précédent caché du décodeur. Ensuite, la combinaison de ces deux fonctions, le meilleur choix pour le résumé suivant de sortie de texte.

    apprentissage par renforcement

    Pour générer un résumé pour différentes personnes peuvent utiliser différents ordres de vocabulaire et la parole, mais ceux-ci ne sont que des résumés peuvent être efficaces. Par conséquent, un bon résumé est pas nécessairement autant que possible et se concentrer sur la séquence de données de formation correspond à la séquence de mots. Après compris que, pour éviter l'utilisation des algorithmes standards maître forcé (algorithme de forçage enseignant standard), puisque chaque étape de décodage de l'algorithme (par exemple généré pour chaque mot) pour minimiser les pertes, et prouvé qu'ils dépendent stratégie d'apprentissage est de renforcer l'excellent choix.

    D'excellents résultats

    Le modèle a été testé dans un ensemble de données CNN / Daily Mail et a obtenu les meilleurs résultats. Dans un autre évaluateurs humains expérimentaux montre de participation que le modèle Résumé généré sur la lisibilité et la qualité ont été améliorés . Dans l'ensemble, ces résultats sont impressionnants. De plus, ce modèle Le prétraitement comprenant les étapes consistant à: marquer le texte d'entrée, minuscules, chiffres sont remplacés par « 0 » et supprimer l'entité spécifique de l'ensemble de données .

    Sixièmement, la première étape vers la traduction automatique d'apprentissage non supervisé

    méthode inductive vocabulaire bilingue, qui utilise la langue source et corpus monolingues de deux langues pour identifier la traduction du mot, c'est une ancienne tâches de traitement du langage naturel. Ensuite, généré automatiquement le dictionnaire bilingue aidera à d'autres tâches de traitement du langage naturel telles que la recherche d'information et la traduction automatique statistique. Cependant, la plupart de ces méthodes reposent sur une ressource, généralement un dictionnaire bilingue initial, et le dictionnaire n'est pas toujours disponible ou facile à établir.

    Avec le succès Wordclock, l'industrie a commencé aussi un mot interlangage intégré dans l'idée, et son objectif est d'aligner l'espace intégré plutôt qu'un dictionnaire. Malheureusement, la première méthode est également dépendante du corpus parallèle ou dictionnaires bilingues. Dans leur travail, Conneau et al. (2018) a fait une approche très prometteuse, elle ne dépend pas d'une ressource particulière, et pour plus d'une langue à la traduction des langues, des phrases de recherche de similarité et interlangage traduit mot de superviser la tâche mieux que les méthodes de l'art antérieur.

    Le procédé de l'invention est une donnée de formation indépendante d'entrée de deux mots embarqué sur une seule langue, et d'apprendre une correspondance entre eux, proches les uns des autres de sorte que la traduction dans l'espace public. Ils utilisent FastText sur des vecteurs de mots de documents de formation non supervisée Wikipedia. La figure suivante illustre l'idée de base de l'algorithme.

    Établir une cartographie, une distribution X rouge entre deux mots de mots anglais espace intégré est intégré, et la distribution Y bleu est mot italien intégré.

    D'abord, ils utilisent contre l'apprentissage (apprentissage accusatoire) pour apprendre à effectuer pour la première fois l'alignement initial de la matrice de rotation W. Ils préconisent Goodfellow et al. (2014) a proposé de former un combat basé sur le réseau de neurones (générative accusatoire réseau, GAN). GAN Si vous voulez savoir comment ils fonctionnent, je recommande cet excellent article écrit par Pablo Soto.

    Afin de modéliser le problème dans la lutte contre l'apprentissage, ils discriminants modèle (discriminateur) est défini comme ayant la capacité de caractère juge, pour certains éléments donnés de l'échantillonnage aléatoire WX et Y (voir la deuxième colonne dans la figure ci-dessus) , le modèle discriminante déterminera chaque élément appartient à la langue. Ensuite, ils ont été formés W pour éviter tout modèle de discrimination pour faire de meilleures prévisions. Je pense que cette approche est très intelligent et élégant, et le résultat final est tout à fait bonne.

    Ensuite, ils passent par deux étapes pour compléter la relation de cartographie. Tout d'abord, afin d'éviter les calculs de cartographie du bruit, car le vocabulaire rare introduit, l'autre est principalement par l'utilisation de la relation de cartographie appris avec une mesure de distance pour établir la traduction réelle .

    Dans certains cas, ces résultats sont très impressionnants. Par exemple, pour Anglais - traduction italienne du mot Leur modèle dans le cas de P @ 10 dépasse la meilleure moyenne de précision près de 17%.

    Anglais - traduction italienne du mot précision moyenne

    Les auteurs affirment que leur procédé peut être utilisé comme première étape d'une traduction automatique non supervisée . Si oui, ce sera génial. En même temps, nous regardons cette méthode nouvelle riche promettant jusqu'où il peut aller.

    Sept cadres spécialisés et des outils

    Actuellement, il y a beaucoup de cadre d'apprentissage approfondi et des outils qui ont été largement utilisé une partie, comme tensorflow, Keras ou PyTorch. Cependant, la profondeur de l'apprentissage frameworks open source et les outils pour le traitement du langage naturel spécifique est juste en train d'émerger. Cette année, le marché est toujours bon, car un certain cadre très utile a été dans la communauté open source. Il y a trois en particulier a attiré mon attention.

    AllenNLP

    cadre AllenNLP PyTorch est construit sur une plate-forme qui peut être facilement mis en uvre en utilisant la profondeur des méthodes d'apprentissage dans les tâches de traitement du langage naturel sémantique. L'objectif est de permettre aux chercheurs de concevoir et d'évaluer de nouveaux modèles. Il contient une référence pour atteindre une sémantique commune modèle de tâches de traitement du langage naturel, par exemple étiquetage rôle sémantique, entailment textuel (entailment textuels) et fait référence à l'élimination de (résolution Coréférence) .

    ParlAI

    cadre de recherche ParlAI pour le dialogue (recherche de dialogue) conçue pour les logiciels open-source. Il utilise Python était d'atteindre ses objectifs de conception Elle fournit un modèle unifié de dialogue partagé, la formation et cadre tests . ParlAI offre une intégration facile avec mécanisme Amazon Mechanical Turk. Il fournit également le champ dans les ensembles de données populaires, et prend en charge une variété de modèles, y compris le réseau de mémoire, seq2seq et LSTM.

    OpenNMT

    OpenNMT Boîte à outils est conçu pour séquence cadre universel à la séquence (séquence à séquence) Modèle . Il peut être utilisé pour effectuer cette traduction de la machine, digérer génération, et l'image-texte des tâches de reconnaissance vocale.

    8. D'autres pensées

    techniques d'apprentissage en profondeur pour le traitement de traitement du langage naturel augmente le fait est indéniable. Un bon indicateur est au cours des dernières années dans la LCA, EMNLP, GACE et NAACL traitement du langage naturel et d'autres documents d'étude des réunions clés profondeur proportion augmente.

    la comptabilité de papier d'étude approfondie

    Cependant, Véritable bout-ENTRER commence seulement à émerger . Nous continuons à faire face à certaines tâches de traitement du langage naturel classique pour préparer des ensembles de données, tels que le nettoyage, le marquage, ou une entité unifiée (telles que l'URL, le numéro, l'adresse e-mail, etc.). Nous utilisons également communs intégrés (plongement génériques), ses défauts ne peuvent pas saisir l'importance des termes spécifiques au domaine, mais leur mauvaise performance de la capacité des expressions multi-mot, ce qui est la raison pour laquelle je trouve souvent que l'une des questions clés dans leur travail.

    Neuf, la lecture prolongée

    Si vous souhaitez obtenir plus cette année en fonction de l'étude approfondie de la méthode de recherche de traitement de l'information en langage naturel, je vous recommande fortement de lire l'excellent papier Young et al, « Tendances récentes en apprentissage en profondeur basée sur le traitement des langues naturelles » (2017).

    Un autre matériel de lecture intéressante est rapportée par Blunsom et al (2017) faite lors d'une conférence sur. « Du caractère à comprendre le langage naturel (C2NLU): étude de bout en profondeur la PNL puissante. » Les gens qui assistent au séminaire sont des chercheurs dans le domaine du traitement du langage naturel. Etude approfondie et discuter des avantages du séminaire d'apprentissage automatique général a également discuté de l'utilisation de plus d'un caractère au lieu d'une étiquette de langue spécifique (jetons spécifiques à la langue) comme un défi apporte l'entrée de modèle d'apprentissage profond.

    À titre de comparaison, Yin et al proposé un modèle entre une étude comparative très intéressante de RNN et CNN (2017).

    Explication détaillée du mot intégré, Gabriel Mordecki Je vous suggère de lire cet article. Il divertissant, explique non seulement les différentes méthodes d'intégration du mot, mais décrit aussi quelques-uns des mythes sur le mot intégré.

    Enfin, Sebastian Ruder en 2017 a écrit un très bon article sur un mot intégré très détaillé - « À propos de Word intégration en 2017: Tendances et orientations futures »

    Dix, références

    • De Caractères à la compréhension du langage naturel (C2NLU): robuste de bout en bout apprentissage en profondeur pour NLPPhil Blunsom, Kyunghyun Cho, Chris Dyer et Hinrich Schütze (2017)

    • BB_twtr à SemEval-2017 Tâche 4: Twitter Analyse avec CNNs Sentiment et LSTMsMathieu Cliche (2017)

    • Traduction sans mot parallèle DataAlexis Conneau, Guillaume Lample, Marc'Aurelio Ranzato, Ludovic Denoyer, Hervé Jégou (2018)

    • Générative contradictoire netsIan Goodfellow, Jean-Pouget Abadie, Mehdi Mirza, Bing Xu, David Farley-Warde, Sherjil Ozair, Aaron Courville et Yoshua Bengio (2014)

    • Harris distributive structureZellig (1954)

    • OpenNMT: boîte à outils open-source pour la machine neuronale translationGuillaume Klein, Kim Yoon, Yuntian Deng, Jean Senellart et Alexander M Rush (2017).

    • Multiplicatif LSTM pour la séquence modellingBen Krause, Liang Lu, Iain Murray et Steve Renals (2016)

    • Parlai: Un logiciel de recherche de dialogue platformAlexander H Miller, Will Feng, Adam Fisch, Jiasen Lu, Dhruv Batra, Antoine Bordes, Devi Parikh et Jason Weston (2017)

    • Régularités linguistiques dans l'espace continu Mot RepresentationsTomas Mikolov, Scott Wen-tau Yih et Geoffrey Zweig (2013)

    • Gant: vecteurs globaux pour mot representationJeffrey Pennington, Richard Socher et Christopher D. Manning (2014)

    Via: apprentissage en profondeur pour la PNL, les progrès et les tendances en 2017, Lei Feng réseau compilé

    dialogue Ombre avec les médias parlent Takefu: Pourquoi 31 ans après remappage vieux films de Hong Kong, « Un avenir meilleur » dans la partie continentale
    Précédent
    Fermeture du 25 grand festival du film, « Tang sonde 2 » a remporté « la plupart des étudiants ont accueilli le prix du film »
    Prochain
    Dans l'ensemble de ne pas écouter un casque d'intimidation! Venez audition nécessaire!
    Duan Yi Wang: la non jamais été décoré débattant
    Obtenir les amateurs de casque doivent connaître - le type et les avantages et les inconvénients des écouteurs
    Jiang Yan: S'il vous plaît permettez-moi de le faire vous-même
    Pas besoin de choisir ces trois stratégies précises pour vous apprendre à acheter un casque
    années Homme de LVMH avec succès, combien grand frère « le changement moteur Land Rover. »
    2017 chaussures printemps almanach! Optimiste et nous devons aller oh ~
    conductrice Zhejiang au volant d'une Ferrari hors de contrôle, quelle est la raison?
    Honteux de « Thor 3 » dire en fait une histoire de croissance
    Sun Yi-fan de l'Université de Tsinghua: Ce papier introduit et les piétons, puis identifier les derniers développements
    Comment choisir des enceintes sans fil portables les plus appropriés
    obtenir un prix abordable « ambition mer », ajustement, Dikaigaozou plus demain