Article pour l'évolution de l'histoire de génération de langage naturel!

NLG (génération du langage naturel, NLG) fait partie du traitement du langage naturel, et analogues à partir de la base de connaissances sous la forme d'un système de machine ou de la logique pour générer une expression de langue naturelle. En fait, la génération de langage naturel est apparu depuis longtemps, a été en 71 ans. Dès 1948, Shannon a mis le modèle de probabilité discrète langage de description de processus de Markov utilisé dans la machine automatique. Mais la technologie de génération de langage naturel commercial connu récemment devenu populaire. Cependant, vous comprenez l'évolution de l'histoire de la génération du langage naturel faire?

Depuis la naissance des films de science-fiction, la communauté sera très fasciné par l'intelligence artificielle. Chaque fois que nous entendons "intelligence artificielle" quand le mot, viennent à notre esprit, souvent des films de science-fiction de l'avenir des robots, tels que "Terminator" ( "Terminator"), "The Matrix" ( "The Matrix" ) et "I, robot" ( "I, robot") et ainsi de suite.

Bien que nous puissions penser indépendamment du robot encore quelques temps des années, mais au cours des dernières années, le domaine de l'apprentissage de la machine et la compréhension du langage naturel a fait des progrès significatifs. assistant personnel (Siri / Alexa), et Q & A application robot bot est vraiment révolutionnent la façon dont nous interagissons avec des machines, et ont commencé à infiltrer notre vie quotidienne.

NLU (Compréhension du langage naturel, NLU) et génération du langage naturel (génération du langage naturel, NLG) est l'un des plus rapide le développement d'applications d'intelligence artificielle, parce qu'il ya un besoin croissant de comprendre le langage et le sens déduisent, et la langue caractéristique est qu'il ya beaucoup d'ambiguïtés et de la structure diversifiée. Selon Gartner, « en 2019, la génération de langage naturel deviendra une caractéristique standard de 90% de l'intelligence d'affaires moderne et d'analyse plate-forme. » Dans cet article, nous allons discuter d'un bref historique du début de la mise en place de la génération du langage naturel, ainsi que sa direction de développement dans les prochaines années.

Quelle est la génération de langage naturel?

objectif de génération de langue est de prédire le mot suivant dans la phrase pour transmettre des informations. Utiliser modèle de langage peut être résolu (en millions de possibilités) qui peuvent être prédits problèmes de mots, le modèle de langue est une distribution de probabilité de séquences de mots. Le modèle de langage peut être le niveau de caractère, le niveau n-gramme, une phrase ou même niveau de construction au niveau du paragraphe. Par exemple, pour prédire Je dois apprendre comment __  Après le mot suivant, la prochaine série de mots possibles est associé à un modèle de probabilité, peut être écriture , drive  Et ainsi de suite. Les derniers progrès des réseaux de neurones (tels que les réseaux de neurones récurrents et le réseau de la mémoire à long terme) est un long processus phrases possible, améliore considérablement la précision du modèle linguistique.

chaîne de Markov

chaîne de Markov est une de la première pour l'algorithme généré. Ils ne en utilisant le mot courant pour prédire le mot suivant dans la phrase. Par exemple, si le modèle est uniquement disponible pour la formation de la phrase suivante: Je boire un café le matin  et Je mange Sanwiches avec du thé Ensuite, il devrait café  suivront boisson La possibilité est de 100%, alors que Je  Suivre boisson  La possibilité est de 50%, suivie manger  La possibilité est également de 50%. chaîne de Markov est calculée en tenant compte de la probabilité d'une relation unique entre chaque mot d'un mot. Dans les versions antérieures de la méthode d'entrée de téléphone intelligent, chaîne de Markov pour générer une recommandation pour le prochain mot dans une phrase.

Cependant, en raison du modèle de Markov seulement préoccupé par le mot courant, et donc perdre tout le contexte et la structure de la phrase devant le mot, ce qui peut conduire à des prédictions erronées, de cette façon, elle limite leur applicabilité dans de nombreuses scènes générées .

Recurrent Neural Network (RNN de)

modèle de réseau neuronal est inspiré par le cerveau humain et la mise en place d'opérations par la modélisation de la relation non linéaire entre l'entrée et la sortie, le calcul fournit un autre procédé, leur utilisation dans la modélisation de langage est appelé neuro-linguistique la modélisation.

nature séquentielle récurrente réseau de neurones sont capables d'utiliser une entrée de réseau de neurones. Il passe à travers un réseau feed-forward de chaque séquence, et délivre en sortie le modèle en tant que l'entrée suivante dans la séquence, ce qui permet le stockage d'informations à partir de l'étape précédente. réseau de neurones récurrent avec toute la capacité de « mémoire » qui les rend idéales pour la production de langue, parce qu'ils peuvent se rappeler le contexte du dialogue au fil du temps. les réseaux de neurones récurrents et des chaînes de Markov diffèrent en ce qu'ils observent également le mot vu précédemment (la chaîne de Markov en vue de face seul mot) pour la prédiction.

Langue pour les réseaux de neurones récurrents générés

En mémoire et calcule la probabilité du mot suivant d'un mot stocké dans chaque itération du réseau de neurones récurrents, le modèle sera rencontré avant. Par exemple, si le modèle génère un texte Nous avons besoin de louer un __ , Il faut maintenant calculer le mot suivant dans cette phrase. Pour chaque mot dans le dictionnaire, un modèle de distribution de probabilité basée sur un mot avant qu'il ne voit. Dans notre exemple, maison  ou voiture La probabilité de ces deux mots que rivière  ou dîner Ce mot est beaucoup plus élevé. Sélectionnez ensuite la plus forte probabilité et le mot en mémoire, puis passez à la prochaine itération de son modèle de stockage.

La présence du réseau de neurones récurrents, une limitation importante: gradient disparaissant. Avec une longueur croissante de la séquence, le réseau de neurones récurrents ne peut pas être stocké dans les phrases de mots arrière loin rencontre, et ne peut être prédite sur la base du mot le plus récent. Cela limite le bruit généré longues phrases cohérentes utilisées dans le réseau de neurones récurrents.

Court et réseau de la mémoire à long terme (LSTM)

Sur la base de réseau de neurones du réseau de mémoire à court et à long terme est une variante de réseaux de neurones récurrents, il est possible de traiter plus précisément l'entrée dépendance à long terme (dépendances à longue portée) dans la séquence de problèmes que le réseau neuronal récurrent moyenne. Ils sont utilisés dans une grande variété de questions. Similaire mémoire à long terme réseau neuronal récurrent ayant une structure de chaîne de réseau, mais elles sont constituées d'un réseau de neurones à quatre couches, le réseau neuronal récurrent plutôt que le réseau en une seule couche. Un réseau d'unité de mémoire à long terme, une porte d'entrée, la sortie des portes de grille et l'oubli quatre parties. Un tel réseau de neurones récurrents en ajustant le flux d'informations à l'intérieur et à l'extérieur de l'appareil, ou oublier de se souvenir des mots dans ne importe quel intervalle de temps.

Langue pour générer le réseau de la mémoire à long terme

La phrase suivante comme entrées du modèle: Je suis d'Espagne. Je parle couramment __.  Afin de prédire correctement le mot suivant est un espagnol Le modèle se concentrera sur la phrase précédente Espagne  Le mot et utiliser l'unité de mémoire à « se souvenir » il. L'unité de traitement de l'information stocke la séquence, puis utilisée pour prédire le mot suivant. Face à un arrêt complet, oubliez la porte se rendra compte que le contexte de la phrase peut changer, les informations sur l'état actuel de l'unité peut être ignorée. Ainsi, le réseau peut sélectivement tracer que les informations pertinentes tout en minimisant disparaissant gradient, le modèle sera en mesure de se rappeler des informations sur une plus longue période de temps.

Court et réseau de la mémoire à long terme et ses variantes semble éliminer le gradient pour produire une réponse aux questions de phrase cohérente. Cependant, étant donné qu'il reste un chemin séquentiel complexe de l'unité précédente à la cellule actuelle, et donc la quantité d'informations peuvent être stockées il y a des limites. En conséquence, les réseaux de mémoire à long terme peuvent se souvenir de la longueur de la séquence est limitée à moins de quelques centaines de mots. Un autre inconvénient est que, en raison des exigences élevées de calcul, et donc difficile à un réseau de formation à court et à long terme. En raison de la nature séquentielle, ils sont difficiles à paralléliser, ce qui limite leur capacité à utiliser des dispositifs informatiques modernes (par exemple, GPU, TPU ou similaires) de.

transformateur

Transformateur initialement dans le document Google « L'attention est tout ce qu'il faut » introduit, il a proposé une nouvelle méthode pour « mécanisme d'auto-focus » (mécanisme d'auto-attention) est. Transformer il est largement utilisé dans une variété de tâches de traitement du langage naturel telles que le langage de modélisation, la traduction automatique et génération de texte. Transformateur par un ensemble d'un ensemble de codeur et le décodeur, le premier procédé de longueur quelconque, qui délivre en sortie la phrase produite.

Dans l'exemple ci-dessus, un codeur destiné à traiter une phrase d'entrée et génère. Le décodeur utilise cette représentation pour créer le mot de sortie par phrase mot. Chaque mot représente un accident / intégré par les cercles vides représentent. Ensuite, puisque le modèle utilise les informations de tous les autres mots de polymérisation d'attention, chaque mot pour générer une nouvelle représentation, représentée par les cercles pleins, par l'ensemble notificateur de contexte. Cette étape est répétée une pluralité de fois et ensuite en parallèle à tous les mots, la nouvelle présentation successive. De même, chaque décodeur génère un mot de gauche à droite. Il est non seulement préoccupé par les autres mots créés précédemment, le codeur également préoccupé par le développement de la représentation finale.

Et à long et réseau de mémoire à court terme est différent, Transformer effectue seulement une petite quantité d'un nombre constant d'étapes, tout en appliquant le mécanisme d'auto-attention. La relation entre tous les mots de ce mécanisme phrase analogique directe, quel que soit leur emplacement respectif. Lorsque le modèle de processus de chaque mot dans la séquence d'entrée, étant donné que le mécanisme de mise au point d'entrée permet au modèle pour d'autres parties de la séquence, afin de mieux le mot codé. Il utilise une pluralité de têtes de focalisation (tête de l'attention), étend les capacités du modèle d'intérêt des endroits différents, sans tenir compte de la distance dans la séquence.

Ces dernières années, l'architecture du transformateur ordinaire a apporté quelques améliorations, d'améliorer considérablement leur vitesse et la précision. 2018, Google a publié un document sur le transformateur (BERT) codeur à deux voies représenté le papier pour une variété de traitement du langage naturel pour générer des résultats les plus avancés. De même, en 2019, OpenAI a publié un modèle de langage à base de transformateur, qui a environ 1,5 milliard de paramètre, entrez quelques lignes de texte que très peu peuvent générer long article cohérent.

Transformateur pour la production de langue

Récemment, Transformer aussi pour la production de langue. L'un des plus célèbre exemple est le modèle TPG-2 OpenAI de la langue. Le mot suivant dans l'apprentissage du modèle de prévision de la phrase, apprend en attirant l'attention sur ce mot de prédiction du mot suivant pertinent.

Transformer générer le texte est basé sur une structure similaire à la traduction automatique. Si nous prenons une phrase: Sa robe avec les points qui sont rose, blanc et __. Modèle va prédire le mot suivant est bleu Comme il passe à travers le mécanisme de l'attention de la liste des analyses de mot précédent pour la couleur ( blanc et rose ), Prédire et comprendre le mot devrait être une couleur. Comme il existe différentes parties du modèle d'attention permet une attention sélective à chaque mot de la phrase, non seulement de se rappeler bloc récursif (bloc récurrent) quelques-unes des caractéristiques (dans le réseau de neurones récurrents et des réseaux de mémoire à court et à long terme), et la plupart de ces fonctionnalités ne sont pas il sera utilisé dans plusieurs blocs. Ce modèle peut aider à rappeler la phrase précédente plus de fonctionnalités, et des prévisions plus précises et cohérentes. Différent du modèle précédent, le transformateur peut identifier tous les mots dans ce contexte, sans toute l'information est une compression de longueur fixe. Cette architecture permet de conserver Transformer l'information des peines plus longues, mais sans augmenter de manière significative les besoins informatiques. Dans le cas où ils ne ont pas besoin de modifier le domaine spécifique, la performance inter-domaines des précédents modèles plus performants que d'autres.

Le langage de la génération future

Dans cet article, nous voyons l'évolution de la production de langue, la génération d'une phrase simple en utilisant la chaîne de Markov, à utiliser la génération de modèle de mécanisme d'auto-attention plus texte cohérent. Cependant, nous sommes encore dans le langage de modélisation de première génération, et transformateur est qu'une étape dans la direction de l'étape de génération de texte réel indépendant. De plus, le modèle de génération développe également d'autres types de contenus, tels que des images, vidéo et audio. Cela ouvre la possibilité de ces modèles et de générer du texte intégration du modèle, afin de développer un assistant personnel avancé avec interface audio / vidéo.

Cependant, en tant que société, nous devons faire attention à modèle de génération d'applications, car ils génèrent de fausses nouvelles en ligne, usurpation d'identité et de faux commentaires ouvre de nombreuses possibilités. OpenAI a décidé de ne pas libérer le modèle TPG-2, par crainte d'être victimes de violence. Cela reflète un fait: nous entrons maintenant dans un modèle de langage assez puissant pour la cause ère de préoccupation.

modèle de génération devrait changer nos vies, mais ils sont aussi l'épée à double tranchant. Nous devons être revue modeste de ces modèles, que ce soit par des institutions de recherche ou la réglementation gouvernementale. Au cours des prochaines années, ce domaine va certainement faire plus de progrès. Quel que soit le résultat, l'avenir, devrait finalement il y aura un moment passionnant!

Lien original:

https://medium.com/sfu-big-data/evolution-of-natural-language-generation-c5d7295d6517

Elle est la 2009 « Happy Girl » les cinq premiers, vêtu d'un jeu de robe à paillettes sous les vêtements manquants, trop jambes pour voler la vedette
Précédent
Inventaire! Taille inférieure à 170 féroce offensive comme un tigre quatre étoiles de badminton, une personne est morte!
Prochain
Xueying Zhang était belle avec les cheveux courts, vêtu d'un costume bordeaux avec un short, encore plus tendre et mignon Béret
Sec! Un article vous apprend lisez l'anglais badminton table de signature, faire de vrais vrais fans!
Fan Yang Yuying costume blanc perçage professionnel, avec un voile de point d'onde chemise instantanée par âge de 10 ans, qui était tendre
Iron Man portant mon héritage spirituel de 60 lutte de ravitaillement pour la patrie
L'impact du 11-couronne! il y a 24 ans, l'équipe chinoise a remporté la Coupe soviétique pour la première fois, ces gens ces choses!
37 Cyndi trop tendre, feuille de lotus usure robe de point de vague, petit Zhuangshan 8 ans n'est pas perdu Li Qin
Le seul produit du système de surveillance de l'opinion publique
Âgé de 34 ans a joué noircissement renommée « pure Princess », cette jupe à porter 10 livres de graisse, vraiment solide
12 ans beauté popularité de badminton! Thaïlande 6 valeur de couleur + la force des joueurs que vous connaissez un peu?
Shanghai longue pratique YAJIMA en temps réel le nombre de postes HBase
Depuis mai, une enquête approfondie de la révolution privée, la sécurité sociale, la TVA, la preuve fiscale, l'impôt sur le revenu des sociétés les nouvelles règles!
22 millions de personnes « étape sur la mine » Certaines personnes parient toute la valeur nette! patron Hong Mei a présenté ses excuses 30 milliards de plus en réponse à « évaporer pendant la nuit.