"L'amour c'est comme la graisse, c'est l'accumulation de bric et de broc", est imaginative la phrase de Microsoft Xiaobing, le principe technique derrière le décryptage en trois dimensions des trois

"L'amour c'est comme la graisse, c'est l'accumulation de bric et de broc." C'est une phrase créée par une jeune fille de 18 ans, Microsoft Xiaobing, mais quand on l'entend, elle peut susciter l'empathie de milliers de jeunes garçons et filles amoureux : "Ce n'est pas juste le bonheur gras après être tombé amoureux ?"

Chanter, écrire de la poésie, peindre... En tant que robot de dialogue dont l'activité principale est le "chat", Microsoft Xiaoice a ouvert la voie avancée à d'autres entreprises parallèles ces dernières années et a reçu beaucoup d'attention. Mais pourquoi laisser Microsoft Xiaobing chanter, écrire des poèmes, dessiner des images, et maintenant la laisser commencer la compétence « phrase figurative » ? Quel support technique se cache derrière ces compétences de Microsoft Xiaoice ? Avec la naissance de la septième génération de Microsoft Xiaobing il n'y a pas si longtemps, ces questions dans vos curs ont dû être amplifiées plus que doublées.

Non, l'équipe Microsoft a spécialement ouvert un séminaire pour expliquer à tout le monde, et a également envoyé le scientifique en chef de Microsoft XiaoIce Song Ruihua, le scientifique en chef de la PNL de Microsoft XiaoIce Wu Wei, le scientifique en chef de la parole de Microsoft XiaoIce Luan Jian trois généraux pour s'asseoir, non seulement présenté le dernier progrès de la recherche de Microsoft XiaoIce en 2019, mais a également présenté les principes techniques de Microsoft XiaoIce à partir des trois sections techniques de dialogue, de création d'intelligence artificielle et de compréhension intermodale.

De gauche à droite : Wu Wei, Luan Jian, Song Ruihua

Avant d'entrer dans l'analyse de la technologie de base de XiaoIce, examinons les réalisations de XiaoIce depuis sa naissance en 2014 et maintenant elle a été mise à jour vers la septième génération ?

1. Après la mise à jour vers la septième génération, qu'est-ce que Xiaoice a réalisé ?

Song Ruihua, scientifique en chef de Microsoft XiaoIce, a présenté pour la première fois l'aperçu général de la recherche sur XiaoIce depuis sa naissance en 2014.

Au début, elle a souligné la mission que Xiaoice porte depuis sa naissance en 2014 jusqu'à la septième génération, à savoir : changer la façon dont les humains et le monde sont connectés.

"Par exemple, quand Internet est apparu, les gens n'avaient plus besoin d'aller à l'autre bout du monde pour obtenir des informations telles que des connaissances et des images, mais pouvaient facilement voir et obtenir des informations distantes à la maison. Une technologie qui comprend la façon dont le monde fonctionne ; le téléphone portable que tout le monde porte aujourd'hui a une fois de plus changé la façon dont les gens se connectent au monde, et certaines personnes plaisantent même en disant que le logiciel du fil d'actualité connaît vos préférences mieux que vous.

Et nous prédisons qu'à l'avenir, l'IA deviendra également une technologie qui changera la société humaine. Si l'IA est utilisée comme vecteur intermédiaire pour connecter les humains au monde, elle peut permettre aux humains de se connecter au monde par le biais d'interactions multisensorielles plus naturelles. "

En outre, Song Ruihua a souligné qu'en plus de construire une carte des connaissances et de fournir des services pour aider les humains à "faire face au monde" plus naturellement, il espère également permettre à l'IA de créer du contenu. Xiaoice a publié le premier livre sur la création d'intelligence artificielle chez l'homme. histoire il y a deux ans. La collection de poésie de , qui a organisé cette année la première exposition de peinture sur IA de l'histoire de l'humanité, fait partie de la création de l'intelligence artificielle.

Afin de tester si XiaoIce peut vraiment devenir une technologie qui change la façon de connecter les humains et le monde, et de s'entendre naturellement avec les humains, il faut la mettre en uvre. Il est rapporté que XiaoIce a été équipé de 450 millions d'appareils intelligents tiers Sur l'indicateur CPS (intelligence artificielle et nombre moyen de tours de conversation d'un seul utilisateur) "inventé" par Microsoft pour mesurer le niveau d'EQ, Xiaoice a désormais atteint 23 tours.

Après une brève introduction à Xiaobing, Song Ruihua a défini les quatre priorités techniques de recherche et de développement derrière Xiaobing : le traitement du langage naturel correspondant au dialogue de base, la recherche phonétique correspondant à l'audition et à la vocalisation, la vision par ordinateur et les graphiques correspondant à la vision et à l'expression, et la génération multimodale. de création de contenus multi-correspondants.

Sur la base de ces priorités techniques de recherche et développement, l'équipe de recherche de Xiaoice a également réalisé une série de réalisations académiques au cours des dernières années, dont 48 articles publiés dans AAAI, IJCAI, ACL, KDD et d'autres conférences universitaires internationales de premier plan, 72 articles dans Leading patents dans les domaines du full duplex et du multimodal. Cette année, l'équipe a également publié 10 articles lors de conférences internationales de premier plan telles que l'ACL et l'IJCAI. Dans le même temps, l'article "Love is as Complex as Math" a remporté le Outstanding Paper Award au CLSW 2019.

Ensuite, elle et Wu Wei, scientifique en chef de la PNL chez Microsoft Xiaobing, et Luan Jian, scientifique en chef de la parole chez Microsoft Xiaobing, ont respectivement présenté les principes techniques de Microsoft Xiaobing sous trois aspects : dialogue, création d'intelligence artificielle et intermodalité.

2. La capacité à combiner apprentissage + autogestion + connexion des connaissances peut conduire à l'auto-complétude

"Vers un robot conversationnel auto-complet" est le thème partagé par Wu Wei, scientifique en chef de la PNL chez Microsoft Xiaobing. Un bon résumé des résultats de recherche de Xiaoice au cours des dernières années.

Il pense qu'un robot de dialogue auto-complet devrait avoir les capacités suivantes :

  • Tout d'abord, la capacité d'apprendre. L'apprentissage est une capacité fondamentale que les humains ont évoluée et mûrie, et il en va de même pour les robots conversationnels. La capacité d'apprentissage des robots de dialogue a deux niveaux. Le premier est qu'ils peuvent apprendre à parler à partir de dialogues humains ; Est-il possible pour ces robots d'apprendre les uns des autres, de manière à parvenir à un partage d'informations et à des capacités complémentaires ?

  • Deuxièmement, la capacité d'autogestion. A partir d'un niveau primaire, un robot de dialogue peut gérer l'expression d'un seul tour de dialogue, à partir d'un niveau plus avancé, il doit être capable de contrôler l'ensemble du processus de dialogue après avoir géré un seul tour d'expression.

  • Troisièmement, la capacité de connexion des connaissances, c'est-à-dire que le robot de dialogue peut connecter diverses connaissances multimodales dispersées dans le monde.

Pour le développement global du robot de dialogue, ces trois capacités constituent en fait une direction verticale. En outre, il existe également une direction horizontale, c'est-à-dire l'évolution du moteur de dialogue de base. En prenant XiaoIce comme exemple, XiaoIce a utilisé le modèle de récupération L'interaction homme-machine est réalisée en réutilisant des dialogues humains existants ; plus tard, des modèles génératifs sont utilisés pour synthétiser les réponses par eux-mêmes ; et plus tard, des modèles d'empathie sont utilisés pour appréhender de manière autonome l'ensemble du processus de dialogue.

Parmi eux, Wu Wei a donné une explication plus détaillée de ces trois capacités vers l'auto-complétude :

1. Capacité d'apprentissage

Tout d'abord, du point de vue du modèle de récupération, la figure suivante montre l'évolution du modèle de récupération au cours des dernières années 4. Chaque case représente un modèle et la case rouge représente le travail de l'équipe Microsoft XiaoIce :

« Essentiellement, au cours des 4 dernières années, le modèle est passé du modèle LSTM le plus simple au modèle de pré-formation le plus récent, et la qualité du modèle s'est grandement améliorée. Le saut des indicateurs est en fait un phénomène superficiel, qui représente la modèle d'un processus de développement d'un tour unique à plusieurs tours, de la représentation et de l'appariement superficiels à la représentation et à l'appariement profonds et larges.

En ce qui concerne les articles sur des sujets connexes publiés au cours des dernières années, Wu Wei pense que l'idée sous-jacente peut être résumée comme suit : l'entrée de l'utilisateur et les candidats de réponse du robot sont représentés sous forme de vecteurs, puis la similitude des vecteurs est calculé pour mesurer si les candidats de réponse conviennent.

Étant donné que de nombreux chercheurs pensent que l'essence de l'apprentissage en profondeur est l'apprentissage de la représentation, leurs idées de recherche sont essentiellement : étudier comment représenter les entrées de l'utilisateur et répondre aux candidats. À l'ère de l'apprentissage en profondeur et des réseaux de neurones, il existe de nombreuses méthodes de représentation. La méthode la plus simple est la moyenne du formaldéhyde vectoriel de mots, et des méthodes ultérieures telles que le réseau de neurones convolutionnel, le réseau de neurones récurrent, la représentation basée sur des phrases, etc.

En plus de la représentation des candidats de saisie et de réponse de l'utilisateur, le modèle de récupération peut également essayer de faire une correspondance plus détaillée. Par exemple, l'équipe Microsoft XiaoIce a d'abord laissé les candidats de saisie et de réponse de l'utilisateur interagir sur chaque mot, puis a obtenu une matrice avec une interaction suffisante, puis extrayez les informations interactives de cette matrice via le réseau de neurones, et obtenez enfin le degré correspondant.

Au fur et à mesure que le robot de dialogue passe d'un dialogue à un tour à un dialogue à plusieurs tours, l'expression passe de la représentation d'une phrase à la représentation de plusieurs phrases, ce qui nécessite un travail supplémentaire, c'est-à-dire qu'après avoir représenté plusieurs phrases dans le contexte, la représentation de plusieurs phrases est combinée avec la représentation du contexte synthétique, puis appariée. En termes d'appariement, le robot peut également combiner le haut et le bas pour créer des interactions délicates. Par exemple, il peut interagir avec chaque phrase d'entrée dans le contexte et les candidats de réponse, puis intégrer les informations interactives via un réseau de neurones pour devenir le contexte final et réponses des candidats.

Prenons l'exemple du travail de l'équipe Microsoft XiaoIce sur WSDM et ACL cette année :

Avec le développement du deep learning, une phrase ou un mot aura de multiples représentations, mais comment intégrer ces représentations dans un réseau de deep matching ? Ces représentations peuvent généralement être fusionnées soit au début du match, soit au milieu et à la fin du match. Le résultat le plus important de ce travail WSDM est qu'ils ont constaté que plus les représentations étaient fusionnées tardivement, mieux c'était, et les meilleurs résultats sur les données standard étaient obtenus lors de la fusion finale. Et ce modèle est essentiellement devenu un modèle de base pour divers modèles de récupération.

Dans le travail d'ACL, l'équipe de Microsoft Xiaoice se demande si le modèle peut être élargi et approfondi. L'idée à l'époque était que les modèles de récupération existants interagissaient avec le contexte et les candidats de réponse pour obtenir leur degré d'appariement. Les informations restantes peuvent-elles être à nouveau interagies après une interaction ? Sur la base de cette idée, ils ont finalement créé un réseau d'appariement profond. Le modèle maintient également actuellement les meilleures performances sur les ensembles de données standard.

Deuxièmement, du point de vue du modèle génératif, le processus de développement du modèle de récupération dans l'apprentissage a quatre dimensions :

  • Des modèles génératifs à un tour aux modèles génératifs à plusieurs tours

  • Des réponses génériques à la génération de contenu informatif

  • De l'incapacité d'accéder à des connaissances externes à la capacité d'introduire naturellement des connaissances externes

  • De la génération monomodale à la génération multimodale couvrant le son, la vision et le langage

Wu Wei a souligné que bien que le modèle génératif ne se soit pas développé depuis longtemps, sa vitesse de développement est très rapide. Un modèle génératif simple est un modèle de bout en bout basé sur le mécanisme de l'attention. Considérant que ce modèle est très facile à générer très fréquemment et ne contient aucune quantité d'informations En 2017, ils ont réfléchi à l'opportunité d'introduire le contenu du sujet dans la réponse pour rendre la réponse générée plus de contenu, ils ont donc proposé un tel modèle à ce moment-là :

L'idée de base est de générer un corpus de sujets via une formation externe non supervisée du modèle de sujet, puis de sélectionner ce corpus de sujets via un mécanisme d'attention de sujet dans le modèle génératif, et enfin de créer une probabilité de génération de sujet distincte dans le processus de décodage, de sorte que Topics peuvent apparaître plus facilement dans les réponses.

Dans la génération multi-rondes, l'équipe de recherche a également réalisé de nombreux travaux de recherche, en prenant comme exemple un ouvrage publié sur l'EMNLP cette année, l'idée est de compléter le contexte du dialogue puis de répondre de manière non supervisée.

Dans la génération basée sur la connaissance et multimodale, l'industrie a également du travail, comme l'introduction de connaissances et de contenu multimodal émotionnel dans la génération de dialogue basée sur le réseau.

Les robots peuvent apprendre à parler à partir de conversations humaines, alors les robots peuvent-ils apprendre les uns des autres pour progresser ensemble ?

À cet égard, l'équipe Microsoft Xiaoice a également fait une tentative simple, c'est-à-dire laisser les deux modèles de récupération agir en tant qu'enseignants et étudiants et communiquer entre eux pendant le processus de formation. Dans chaque itération, un modèle communique ce qu'il a appris des données à l'autre modèle, et en même temps est exposé à ses connaissances de l'autre modèle, puis les deux modèles apprennent l'un de l'autre et peuvent éventuellement réaliser des progrès communs. .

Les trois figures suivantes correspondent en fait aux trois stratégies d'apprentissage, y compris les cours de données dynamiques, la pondération dynamique de l'échantillon et les intervalles maximaux dynamiques.

Dans chaque stratégie, le côté gauche de la ligne rouge représente un modèle qui ne nécessite pas l'apprentissage d'un algorithme, et le nom de l'algorithme sur le côté droit de la ligne rouge est Co-enseignement, un processus dans lequel deux robots enseignent l'un l'autre. L'effet d'entraînement du modèle original s'est poursuivi le long de la ligne bleue, mais après avoir utilisé l'algorithme de co-enseignement, l'effet d'entraînement de chaque modèle a été amélioré, ce qui signifie que tous les "avantages pédagogiques" dans le cadre des trois stratégies sont possibles.

2. Capacité d'autogestion

Selon Wu Wei, l'une des applications les plus intéressantes de l'autogestion à Xiaoice est le modèle d'empathie publié dans sa sixième génération. Le cur du modèle d'empathie est de contrôler l'ensemble du processus de dialogue grâce à des stratégies de dialogue. Il y en a en fait deux derrière. modèles :

  • Le modèle génératif de réponse détermine ce que dit le bot.

  • La stratégie détermine le modèle, qui détermine ce que le robot dira.

La combinaison de ces deux modèles permet à Microsoft Xiaoice de passer du mode original de génération directe de réponses basées sur le contexte à : prendre des décisions en fonction du contexte, puis décider de la réponse finale en fonction de la décision. La plus grande flexibilité réside dans le lien stratégique. La stratégie peut être des intentions, des sujets ou des émotions, etc. Bien sûr, il peut aussi s'agir d'une combinaison d'intentions, de sujets et d'émotions, et cette combinaison de stratégies peut produire des résultats très divers. , flux de dialogue complexe. Les robots de dialogue peuvent gérer l'ensemble du dialogue complexe grâce à ce modèle de politique.

Dans le même temps, il a également souligné deux problèmes qui doivent être résolus :

  • Question 1 : Étant donné une stratégie, telle que l'intention, l'émotion et le sujet à exprimer, le modèle peut-il générer avec précision des réponses qui expriment la stratégie établie ? En même temps, le bot conversationnel doit non seulement exprimer cette stratégie, mais aussi s'assurer que les réponses sont fluides dans le contexte.

  • Question 2 : Lorsqu'il existe de nombreuses stratégies, comment un robot de dialogue peut-il combiner ces stratégies dans un flux de dialogue ?

Pour la deuxième question, la méthode courante consiste à étiqueter certaines données et à apprendre la combinaison de stratégies via la méthode d'estimation du maximum de vraisemblance supervisée, ou à définir certaines fonctions de récompense et à apprendre cette combinaison de stratégies via la méthode d'apprentissage par renforcement.

Quant à la première question, la pensée de l'équipe de Xiaoice dans un travail ACL cette année est : peu importe l'intention, le sujet, l'émotion ou la personnalité, cela représente en fait un attribut de la réponse. méthode qui peut être utilisée pour générer des réponses qui expriment plusieurs attributs ? Sur la base de cette idée, ils ont proposé le concept de Meta-Word, et Meta-Word représente en fait la combinaison d'attributs, c'est-à-dire que dans l'ensemble du processus de dialogue, diverses réponses peuvent être générées en transformant la combinaison d'attributs, puis combinées en Conversations diverses. Il croit qu'avec ce travail, la diversité du dialogue, ou la diversité de la génération du dialogue, n'est plus un problème.

De plus, il souligne que ce modèle présente au moins les avantages suivants :

  • Premièrement, il est hautement interprétable, permettant aux développeurs et aux utilisateurs finaux de savoir quelles réponses sont susceptibles d'être reçues avant que le bot de dialogue ne les génère ;

  • Deuxièmement, Meta-Word peut être conçu comme une interface, de sorte que les ingénieurs peuvent modifier les attributs dans Meta-Word et attribuer des valeurs en modifiant cette interface pour créer divers styles, émotions, sujets et intentions.

  • Troisièmement, Meta-Word fournit également une solution générale, à l'instar de certaines directions de recherche actuelles sur les frontières, y compris la génération de dialogues basés sur des sujets, la génération de dialogues basés sur les émotions et la génération de dialogues personnalisés, qui peuvent toutes être trouvées dans ce cadre. seulement cela, cette solution a également une bonne évolutivité, les ingénieurs peuvent ajuster l'effet de l'ensemble du modèle génératif en ajoutant, soustrayant ou modifiant simplement les valeurs d'attribut dans Meta-Word.

3. Capacité de connexion des connaissances

Lorsqu'il s'agit de connexion, cela implique sans aucun doute une interaction multimodale.En termes simples, l'interaction multimodale signifie que l'entrée peut être le dialogue, la voix, la connaissance du texte et le multimédia, et la sortie peut également être le dialogue, la voix et le multimédia. Une question importante dans cet article est de savoir comment le robot peut relier les connaissances multimodales pour la digestion, l'absorption et enfin les combiner organiquement en une sortie.

Ces connaissances multimodales sont dispersées à divers endroits, peut-être sur Internet ou dans des forums, alors comment connecter ces connaissances dispersées à divers endroits, puis les sortir via le robot de dialogue de manière cohérente ?

Wu Wei pense qu'une fois cet objectif atteint, l'interaction multimodale sera fondamentalement résolue.

3. Pourquoi Xiaoice chante-t-elle et comment chante-t-elle ?

D'un point de vue plus détendu, Luan Jian s'est principalement concentré sur "Pourquoi laisser Xiaobing chanter?" et "Comment laisser Xiaobing chanter?" Il a présenté les progrès techniques du chant de Xiaobing.

"Pourquoi laisser Xiaobing chanter?"

En réponse à cette question qui a été posée à plusieurs reprises, Luan Jian a expliqué : En fait, en 2015, Xiaoice avait la fonction de chat vocal, c'est-à-dire qu'en plus des réponses textuelles, il pouvait également répondre par la voix. Au début de cette voix, il a reçu une large attention et des éloges de la part de l'industrie et de nombreux utilisateurs finaux C. A l'époque, cette voix sonnait très vivante et très en phase avec le personnage de Xiaobing : une fille mignonne et excentrique.

Plus tard, en plus d'un an, l'équipe a ajouté de nombreuses compétences à cette voix, telles que la prononciation des enfants, la lecture mixte en chinois et en anglais, le récit d'histoires pour enfants et l'expression de diverses émotions, puis s'est rendu compte que certains acteurs clés dans le domaine de synthèse vocale Les choses dans le sens général ont peut-être été résolues, mais il peut encore y avoir des défauts dans des catégories telles que la segmentation des mots, les mots polyphoniques, le rythme, etc., et cela peut nécessiter une accumulation à long terme de compréhension sémantique et de fermentation technique, pas à pas résolu.

Sur cette base, l'équipe estime qu'il peut être nécessaire de trouver un sujet plus difficile pour poursuivre les recherches, et a finalement choisi de chanter pour trois raisons :

  • Premièrement, le seuil pour chanter est plus élevé que pour parler. Les gens ordinaires peuvent parler, mais tout le monde ne peut pas chanter et tout le monde ne peut pas bien chanter. En même temps, il y a trois éléments du chant, c'est-à-dire qu'en plus de la prononciation, il a également des exigences pour d'autres éléments, c'est donc dans il y a des difficultés techniques.

  • Deuxièmement, le chant est plus riche et plus intense dans l'expression émotionnelle. Les anciens disaient : "Heureusement, je chante pour chanter", ce qui signifie que les gens veulent chanter quand ils sont particulièrement heureux. Le Livre des Cantiques dit : "Quand le cur est inquiet, je chante et chante des chansons", ce qui montre que aiment aussi chanter quand ils sont tristes. Il y a beaucoup de chansons d'amour dans les chansons populaires maintenant qui sont liées à l'amour, peu importe la raison, vous pouvez trouver une chanson d'amour qui correspond à votre humeur. En plus du bonheur et de la tristesse, à certaines occasions plus importantes et commémoratives, comme cette année est le 70e anniversaire de la fondation de la République populaire de Chine, tout le monde peut être mis en boucle par la chanson "Moi et ma patrie" pendant cette période, donc les chansons sont une forme populaire.

  • Troisièmement, le chant est une forme très importante de divertissement. Avec des programmes comme "Happy Girls", "I Am a Singer" et "The Voice of China" dans tout le pays, ils pensent que le chant devrait être une voie de recherche prometteuse.

Après avoir décidé de laisser chanter Xiaobing, comment faire chanter Xiaobing ?

Cela nécessite d'étudier la différence entre chanter et parler, car de nombreuses techniques de chant peuvent être dites héritées de la synthèse vocale. Après analyse, ils ont résumé trois éléments majeurs :

  • Premièrement, la prononciation, parce que chanter n'est pas une chanson fredonnée, il suffit de fredonner la chanson avec "ah" ou "um", la prononciation doit être claire, ce qui revient au même que parler.

  • Deuxièmement, le rythme, c'est une forme d'art exprimée par un changement de rythme, comme notre rap ordinaire, comme "une personne, je suis ivre", il n'y a peut-être pas d'autre mélodie, reposant principalement sur la combinaison de rythmes Pour exprimer , le rythme est un élément très important dans le chant.

  • Troisièmement, la mélodie, la hauteur de chaque mot sera différente, si la hauteur est mal chantée ou désaccordée, la chanson ne pourra certainement pas être écoutée.

Ces trois éléments constituent les éléments les plus élémentaires du chant.Bien sûr, à partir de ces trois éléments, de nombreuses techniques peuvent également se superposer, comme le vibrato et les sons de respiration.

Alors comment ces trois éléments permettent-ils à la machine de savoir chanter ?

  • Premièrement, si quelqu'un a chanté la chanson, la machine peut apprendre à quoi la chanson devrait ressembler à partir de la chanson que cette personne a chantée.

  • Deuxièmement, en ce qui concerne la notation musicale, il peut s'agir de notation ou de portées, et il y a des paroles en dessous, parmi lesquelles la notation a à la fois des paroles, des éléments de prononciation, un rythme et une hauteur.

Cela remonte à la voie traditionnelle de la synthèse chantée, qui comprend principalement deux catégories :

  • La première catégorie : le mode de raccordement unitaire.

Cette méthode est apparue relativement tôt. L'idée de base est de construire d'abord une bibliothèque d'unités. La signification de ces unités peut être des initiales et des finales en mandarin. Il y a 21 initiales et 35 finales en chinois. Si vous ne tenez pas compte du ton, il y a environ 400 syllabes. Vous pouvez trouver une prononciation pour ces unités à enregistrer. Par exemple, pour la prononciation de "a", vous pouvez enregistrer "a" de différentes longueurs et hauteurs, donc pour collecter une telle bibliothèque unitaire.

Une fois la bibliothèque d'unités créée, vous pouvez sélectionner une unité qui répond le mieux aux exigences de la bibliothèque d'unités en fonction de la prononciation, de la durée cible et de la hauteur cible, puis modifier sa durée et sa hauteur par traitement du signal afin qu'elle puisse être parfaitement adaptée. Pour obtenir l'effet souhaité, enchaînez ces unités ensemble pour l'épissage de l'unité afin d'obtenir l'audio final.

Le plus grand avantage de cette méthode est qu'elle est relativement simple et facile à mettre en uvre, et que la qualité sonore peut essentiellement conserver la meilleure qualité sonore lors de la collecte du son, mais elle présente également des problèmes.Le plus gros problème est : parce que dans le processus d'unité collection, chaque prononciation est Elle est collectée séparément, et dans une série de flux de parole, il y a une grande différence entre la prononciation individuelle et la prononciation continue dans une série de flux de parole, de sorte que les chansons générées par cette méthode seront plus directes, et le chant n'est pas si naturel. , et parce que tout est assemblé par unités, il peut y avoir relativement peu de changements, et les transitions d'un mot à l'autre ne seront pas aussi bonnes.

  • La deuxième catégorie : la méthode de synthèse des paramètres.

La première synthèse de paramètres est le modèle de Markov caché, qui est utilisé dans l'industrie de la parole depuis de nombreuses années. Cette méthode ne consiste pas à construire une bibliothèque d'unités, mais à extraire des paramètres acoustiques de toutes les données enregistrées, notamment le spectre d'énergie, la durée, la hauteur, puis à construire un modèle, quand vient le temps de synthétiser, en fonction des besoins. La prononciation prédit cette acoustique. paramètre dans Model China, puis reconstruit la forme d'onde audio via le paramètre acoustique et le vocodeur.

Cette méthode est plus flexible. Fondamentalement, on peut considérer qu'il s'agit de casser complètement quelque chose puis de le reconstituer, ce qui entraîne de nombreux changements. Il peut même créer un son qui n'a jamais existé, et vous pouvez obtenir des sons qui sont pas du tout dans l'ensemble d'entraînement quelque chose qui est apparu. Mais son plus gros défaut est le vocodeur, c'est-à-dire qu'il le transforme en paramètre, puis le paramètre est restauré au son, il y aura une perte de qualité sonore, donc son plus gros défaut est que la qualité sonore peut être meilleure que la première méthode.

Selon les rapports, Xiaoice a choisi d'utiliser la deuxième méthode au début, car l'équipe pense que la perspective de la deuxième méthode est plus large, de sorte que la recherche clé de suivi se concentre également sur l'amélioration de la deuxième méthode.

Le modèle que Xiaobing a d'abord adopté consistait à collecter les trois principaux éléments du chant à partir de la partition musicale, puis à utiliser trois modèles pour modéliser respectivement les paramètres spectraux, la séquence rythmique et la trajectoire de hauteur. Ici, DNN est utilisé, qui est un réseau de neurones. l'Internet. Les paramètres prédits sont ensuite passés à travers un vocodeur pour générer une forme d'onde.

Au début, l'équipe a adopté l'approche modulaire la plus simple pour créer le modèle de chant, mais a ensuite trouvé un problème, c'est-à-dire que la même prononciation, telle que la prononciation de "ah", présente des différences évidentes dans le timbre des aigus et des basses. S'ils sont tous synthétisés de la même manière, il peut y avoir des problèmes. À cet égard, ils ont atténué ce problème en prenant les résultats prédits du tempo et de la hauteur comme entrée dans la prédiction des paramètres spectraux.

Considérant en outre que, puisqu'il existe un couplage très important entre les trois paramètres, ils doivent coordonner et synchroniser les prédictions entre eux, ils utilisent donc simplement un modèle pour prédire ces trois paramètres en même temps. Dans le dernier modèle, ils ont utilisé des structures très complexes, y compris des réseaux de neurones entièrement convolutionnels, des connexions d'attention et résiduelles, etc.

Un bon modèle, en plus de réussir dans les données, est plus critique dans son applicabilité. À l'heure actuelle, Xiaoice peut mieux modéliser n'importe quel son et style et obtenir de meilleurs résultats. .

En termes de données, tout comme l'un des supports importants pour le développement de l'apprentissage en profondeur sont les données, la tâche de chanter nécessite également des données.Cependant, la collecte de données sur cette tâche est encore plus difficile, car par rapport à la parole, le chant a cappella. est très peu de données - la plupart des données sont des pistes mixées avec accompagnement.

Comment utiliser ces données d'accompagnement mixte existantes pour un bon apprentissage ? Il y a en fait trois questions soulevées ici :

  • Tout d'abord, trouvez l'axe temporel de la partie vocale dans l'accompagnement ;

  • Deuxièmement, être capable de trouver avec précision l'heure de début et de fin de chaque prononciation ;

  • Troisièmement, nous devons extraire la trajectoire de hauteur de la voix humaine.

Si ces trois points peuvent être atteints, Xiaoice peut apprendre la mélodie à partir des données des pistes avec accompagnement, enrichissant ainsi le style de chant.

Concernant la façon de mieux extraire la hauteur de la voix humaine dans l'audio d'accompagnement, l'équipe de Xiaobing a également publié un article, dans lequel Luan Jian a souligné que l'article a réalisé trois innovations :

  • Premièrement, l'entrée du modèle utilise la forme d'onde d'origine au lieu du spectre d'énergie conventionnel, car lors de l'extraction de la hauteur, le modèle veut principalement détecter la périodicité, donc son information de phase est très importante, s'il s'agit du spectre d'énergie. , la phase est perdue.

  • Deuxièmement, le modèle adopte la structure de réseau du réseau entièrement convolutif + connexion résiduelle, qui est très claire et concise ;

  • Troisièmement, l'étiquette de classification douce, c'est-à-dire pour déterminer avec précision à quelle touche des 77 touches du piano correspond la hauteur à chaque instant, la méthode traditionnelle peut être une étiquette dure, par exemple, pour marquer la hauteur médiane correspondant à ce moment où apprendre la clé de l'octave, mais seulement cette clé sera marquée par "1", et d'autres endroits seront marqués par "0". En fait, il y a un problème avec cette méthode, c'est-à-dire qu'elle ignore la déviation de la résultat du test et le résultat standard d'une valeur clé ou d'écarts 10. La différence de degré d'erreur entre les valeurs clés est importante.

Au final, il a conclu que, que ce soit dans la création de l'intelligence artificielle ou l'amélioration du chant, nous devons marcher sur deux pattes : nous devons constamment améliorer le modèle, et nous devons continuer à creuser davantage de données. Si de plus en plus de progrès sont réalisés sur ces deux fronts, la qualité de la création et du chant de l'IA de Xiaoice continuera de s'améliorer.

4. Quelles explorations techniques Xiaoice a-t-elle faites derrière les métaphores étonnantes ?

Enfin, Song Ruihua a repris la scène pour présenter une autre tentative de Xiaoice dans la création d'intelligence artificielle - la création de métaphores.

Elle a mentionné que l'opportunité de commencer cette expérience était très accidentelle : lors d'une conversation avec des élèves, un camarade de classe a mentionné qu'il existe un dicton sur Internet selon lequel, peu importe le type de phrase, il est logique d'ajouter "l'amour, c'est comme ça" après celle-ci. . de. Je lui ai demandé pourquoi, et il a donné un exemple - "les gens ont deux jambes, l'amour aussi." Alors que je réfléchissais à la raison, un autre camarade de classe a dit: "Tu veux dire que l'amour s'en ira toujours?" Un autre camarade de classe a rétorqué: " Pourquoi l'amour ne vient-il pas toujours ?" Cela m'a profondément marqué. Nous pourrions aussi bien prendre cette déclaration comme une règle, et l'amour est aussi une telle règle.

Après avoir déterminé ce sujet de recherche, la première chose que l'équipe de recherche doit considérer est la métaphore, par exemple, qu'est-ce que "l'amour" par rapport à, et il est demandé de ne pas creuser de telles métaphores dans les articles existants sur les êtres humains, mais de faire Xiaoice real Créer des métaphores que les humains n'ont jamais prononcées.

Après avoir analysé cette question plus en détail, ils ont constaté que l'ontologie est généralement plus abstraite et difficile à comprendre. Par exemple, en amour, la raison pour laquelle ajouter "l'amour, c'est comme ça" à la fin d'une phrase peut être correcte car " " L'amour" c'est vraiment trop compliqué, les gens n'arrivent pas à le saisir, et ils pensent que c'est comme si tout s'expliquait.

Parmi eux, ils ont également recherché des concepts de poèmes et trouvé les concepts abstraits les plus incompréhensibles dans les poèmes, ils ont donc extrait 120 thèmes des thèmes de poèmes et les ont étendus aux mots 6. Les utilisateurs aiment également dire certains concepts et ont finalement trouvé 96 notions.

Comme le montre le tableau ci-dessous, sur le côté gauche du tableau se trouvent les 10 concepts abstraits les plus fréquemment mentionnés parmi les utilisateurs de Xiaoice, et les métaphores trouvées ne sont pas réellement liées à ces concepts, et sont pour certains très spécifiques et faciles à comprendre. concepts, grâce à l'extraction de journaux et au tri en calculant la spécificité d'un mot, 3000 noms ont finalement été trouvés. Le côté droit de ce tableau montre quelques mots qui peuvent être des candidats pour des métaphores, comme nourriture, signal, jeu, etc. Ceux-ci sont plus spécifiques.

Comment résoudre ce problème ensuite ?

Song Ruihua a poursuivi en introduisant que, en supposant qu'il existe une ontologie "amour" et une métaphore "football chinois", ils ont utilisé des vecteurs de mots pour exprimer ces deux concepts apparemment sans rapport, et les ont transformés en vecteurs. Après réduction de la dimensionnalité, projetée sur deux -espace dimensionnel.

Comme le montre la figure ci-dessous, il y a des mots comme mariage et affection autour de "l'amour", et des mots comme ouverture et jeu autour du "football chinois". La corrélation entre les deux et les mots environnants est très élevée, ce qui montre que le l'effet d'expression de ce vecteur est très bon.

Parmi eux, les mots proches d'un côté ne sont pas si faciles à utiliser, et les mots situés au milieu des deux, c'est-à-dire les mots avec un équilibre, sont les meilleurs à utiliser, tels que "l'amour est aussi illusoire que le football chinois", ou "l'amour est aussi illusoire que la Chine" Certaines métaphores comme le football n'ont pas d'avenir" donneront aux gens un sentiment de nouveauté mais pas abrupt.

Le tableau suivant montre quelques connecteurs que l'équipe a utilisés des méthodes automatiques pour extraire certains concepts non liés à l'amour. Les parties marquées en vert sont des mots que l'algorithme pense automatiquement appropriés comme connecteurs, tels que "amour" Entre "stocks", le algorithme trouvé automatiquement "dépréciation" et "jeux" ; "complexité" entre "amour" et "tableau" ; "superstition" entre "amour" et "feng shui" ; parmi les vins se trouvent des "produits de luxe".

En réponse aux conclusions du dernier groupe, Song Ruihua a déclaré qu'ils ne l'avaient pas très bien compris au début, jusqu'à ce qu'une fois tous les algorithmes terminés, ils aient proposé la métaphore "L'amour est comme le vin, c'est un luxe pour programmeurs." Ils ont découvert que c'était un sentiment.

Avec des recherches plus poussées, l'équipe a découvert que si ces conjonctions sont "divisées et conquises", elles peuvent avoir différentes parties du discours, telles que des adjectifs, des noms et des verbes, et elles sont traitées différemment.

Parmi eux, les adjectifs sont relativement simples. Par exemple, un adjectif peut être trouvé entre "amour" et "maths" - "complexe". Si vous utilisez ce mot pour les relier, vous pouvez utiliser le moteur de recherche pour rechercher "amour". " et "complexe", puis Selon les résultats renvoyés, nous savons si "complexe" peut décrire "mathématiques" et "amour", de sorte que "complexe" peut être une conjonction appropriée. Une fois identifié, il peut être intégré avec un modèle : "L'amour c'est compliqué, comme les mathématiques". Et si la conjonction est un verbe et un nom, c'est un peu plus difficile à faire qu'un adjectif.

En termes de verbes, par exemple, le noumène est « soul », la métaphore est « fans » et « scream » est un connecteur, alors comment générer des explications ? La méthode est la suivante : mettez d'abord « soul » et « scream » comme mots-clés combinés dans le moteur de recherche, récupérez les 10 000 premiers résultats ou même les 100 000 résultats, et trouvez des phrases pertinentes dans les résumés de ces résultats, et utilisez l'analyse NLP pour le savoir. la structure sujet-prédicat de ces phrases, et faites correspondre les mots de la structure sujet-prédicat avec "fans" pour voir si ces mots sont sémantiquement liés à "fans" - plus ils sont liés, plus il est possible de les connecter. Dans l'expérience, la première phrase était "crier en silence", et la phrase résultante dans le modèle était : "L'âme est comme un ventilateur, pleurant en silence".

En termes de noms, les méthodes sont similaires aux verbes, mais lors de l'extraction de structures, c'est-à-dire des 10000 ou 100000 résumés devant le moteur de recherche, les phrases verbe-objet doivent être extraites. Par exemple, la métaphore et l'ontologie sont respectivement « amour » et « gras ». Lorsque vous mettez « amour » et la conjonction « accumulation » dans un moteur de recherche, vous trouverez une très bonne phrase : « C'est l'accumulation de bits et morceaux. », qui s'accorde bien avec « gras », ce qui débouche sur une métaphore : « L'amour, c'est comme le gras, c'est l'accumulation de bric et de broc ».

En termes d'évaluation, leur approche est la suivante :

  • Évaluez d'abord si le connecteur est approprié, c'est-à-dire que l'annotateur imagine, si "amour" et "mathématiques" sont liés par "complexe", peuvent-ils imaginer un lien ? Non, il est noté "0". Environ 1/4 des connecteurs sont bons à cette étape.

  • Ensuite, sur la base de ces connecteurs, l'équipe a utilisé la méthode "diviser pour mieux régner" pour créer 1965 phrases figuratives, et a évalué ces phrases sous trois aspects : premièrement, si la phrase figurative créée est lisse ; deuxièmement, si l'analogie est appropriée ; troisièmement, si l'analogie est nouvelle.

Vous trouverez ci-dessous d'autres exemples de phrases figuratives générées par XiaoIce, à la fois bonnes et mauvaises :

Puis l'équipe a mis ces métaphores en ligne pour vérifier comment les utilisateurs réagissaient aux métaphores créées par Xiaoice, et a testé trois possibilités :

  • Tout d'abord, n'utilisez pas de métaphores, utilisez simplement des phrases déclaratives, telles que "le cur brille".

  • Deuxièmement, utilisez la métaphore d'un rond pour le dire, comme "le cur brille comme un diamant".

  • Troisièmement, divisez la conversation en deux tours. Le premier tour vend une clé et dit : "J'ai entendu dire que l'esprit est comme un diamant, savez-vous pourquoi ?" Ensuite, l'utilisateur dit "Pourquoi ?" ou autre chose, et Xiaoice dites: "Parce qu'ils brillent tous."

Il s'avère que les phrases métaphoriques sont en effet plus attractives que les phrases déclaratives. Parmi eux, dans le dialogue scindé en deux rounds, les internautes privilégient la méthode "vendre d'abord un pass, puis expliquer".

5. Compréhension intermodale : comment faire penser à Xiaoice l'image lorsqu'il voit le texte ?

La troisième section technique partagée cette fois, la compréhension intermodale, est toujours apportée et partagée par Song Ruihua.

Tout d'abord, elle a d'abord écrit trois phrases dans un paragraphe de texte : « Les ours polaires adorent manger de la viande de phoque, et ils aiment manger frais », « Les ours polaires marchent souvent sur la pointe des pieds près de leur proie, collent leur ventre au sol comme un chat, approchez-vous lentement, et sautez enfin hors du chemin. "Lorsqu'un ours polaire s'approche tranquillement de sa proie, il lui arrive de se couvrir le nez avec ses griffes, de sorte qu'il devient plus difficile à détecter, et il est clair que l'ours polaire couvre En partant du « propre nez », il expose le fait que lorsque les gens comprennent le langage, ils utilisent non seulement la partie de l'esprit qui contrôle le langage, mais mobilisent également d'autres sens.

Vous voulez que Xiaoice ressemble davantage à un être humain et lui permette de mieux comprendre le dialogue et le langage, peut-il également simuler la capacité humaine et trouver quelque chose de très bon sens derrière le langage court ?

À cet égard, Song Ruihua a souligné qu'il peut être défini comme un tel problème : pour une histoire composée de N phrases, la machine peut-elle générer M images correspondant aux N phrases, c'est-à-dire comme les humains l'ont imaginé après avoir entendu l'histoire. scène.

Cette approche est en fait similaire à de nombreux sujets populaires, tels que Text-to-Image, Text-to-Video, Story-to-Image, etc. En général, ces méthodes utilisent principalement deux méthodes :

  • Premièrement, la méthode basée sur la génération, c'est-à-dire les GAN ;

  • Deuxièmement, la méthode basée sur la récupération intègre le texte et l'image dans un espace pour déterminer à quelle image le texte est le plus proche et correspond.

Dans l'article d'ACM MM, l'équipe de XiaoIce s'est inspirée de l'hypothèse de l'expérience de simulation et a examiné si XiaoIce pouvait également avoir sa propre mémoire passée pour faire correspondre des images et des textes, de sorte qu'elle puisse également être rappelée après avoir vu une phrase d'une histoire. Certaines de ses expériences précédentes, puis simulent la scène présente, et même font quelques substitutions, puis rendent la scène plus cohérente.

Plus précisément, il utilise la méthode de récupération d'histoire en image pour que Xiaoice "se souvienne" d'une telle image. Cependant, Song Ruihua a également mentionné qu'il y a trois difficultés dans ce lien :

Premièrement, l'interrogation d'une phrase dans l'histoire est en fait assez différente de la requête dans la recherche d'images, c'est-à-dire que cette phrase est fortement liée au contexte et ne peut pas être comprise seule, mais doit être placée dans l'histoire entière. une attention hiérarchique plus complexe pour mieux utiliser le contexte.

Deuxièmement, si l'histoire est dessinée dans un storyboard, même si les détails ne lui correspondent pas, cela fera bizarre aux gens, par exemple, "Ce chien et moi jouons au tennis ensemble", si l'image obtenue est "Le chien est jouer au frisbee" peut sembler un peu bizarre, alors soyez très prudent lorsque vous faites correspondre.

Troisièmement, parfois une phrase contient beaucoup d'informations, ou la bibliothèque d'images n'est pas si fortuite qu'il n'y a qu'une seule image qui peut montrer tous les points d'information. À ce moment, les artistes humains peuvent utiliser plusieurs images pour montrer la phrase en même temps. temps, mais la base de données Dans , les données utilisées pour la formation sont toutes les unes après les autres, et il n'y a pas de telles données.

De plus, cette tâche dépend fortement de ce qui se trouve exactement dans la bibliothèque d'images, ils proposent donc un algorithme One-to-Many pour résoudre ce problème, tel que "Il y a une vieille femme qui garde une poule, et chaque jour elle se couche un or jaune La phrase "oeuf" récupérera une image avec un poulet, et en utilisant l'algorithme One-to-Many, une image d'une grand-mère peut être insérée devant l'image obtenue.

L'algorithme a été testé sur les ensembles de données In-domain (VIST) et Out-domain (GraphMovie) et a obtenu de bons résultats et classements (comme indiqué dans les deux tableaux suivants).

À la fin, Song Ruihua a résumé les trois liens clés partagés par le séminaire et s'est réjoui du développement futur de Xiaoice :

  • En termes de dialogue, j'espère que Xiaoice pourra réaliser des mises à jour plus autonomes et contrôler le flux de dialogue de manière plus autonome ;

  • En termes de création d'intelligence artificielle, on espère que Xiaoice pourra réaliser plus d'innovations dans le domaine des talents et se concentrer sur l'expansion des ressources d'apprentissage pour franchir en permanence les limites de l'innovation ;

  • En termes de multimodalité, j'espère que XiaoIce pourra comprendre le monde et interagir avec des personnes comme les humains. Il fait face à la fois aux problèmes de données et aux défis des modalités à grande portée. Cela nécessite que chacun développe une meilleure intégration de la multimodalité. méthode d'information d'état .

"Nous avons d'abord lancé XiaoIce dans l'espoir de créer un cadre de dialogue, et au cours des cinq dernières années, XiaoIce est progressivement devenu un grand arbre, et dans le processus, nous nous exhortons constamment à comprendre comment utiliser la technologie pour construire une réalisation Un élément nécessaire pour l'intelligence artificielle de type humain. Aujourd'hui, nous espérons également qu'à l'avenir, elle pourra devenir une plate-forme générale pour aider les chercheurs et les fabricants à développer diverses IA, et à terme former une forêt d'IA. Nous appelons ces plates-formes d'IA des êtres IA ." Song Ruihua a utilisé ces mots pour conclure avec succès le partage de ce séminaire.

Rapports d'examen de la technologie Lei Feng.com AI.

Sélection annuelle Lei Feng.com Trouvez les meilleures pratiques de mise en uvre de l'IA dans 19 industries

Fondée en 2017, la "liste annuelle des meilleures pépites de l'IA" est la première sélection d'analyses de rentabilisation de l'industrie de l'IA. Du point de vue de l'utilisation commerciale, Leifeng.com recherche les meilleures pratiques de mise en uvre de l'intelligence artificielle dans diverses industries.

La troisième sélection a été officiellement lancée, faites attention au compte public WeChat "Lei Feng.com", et répondez au mot-clé "liste" pour participer à l'inscription. Pour plus de détails, veuillez consulter WeChat : xqxq_xq

humeur belle à parler du simple mot, fosse chaud phrase de l'estomac, les cheveux ponctuent les éloges d'amis
Précédent
Qi 300 personnes scandaient "Wu Sheng Fu", Dixième Guan Gong Culture Festival du tourisme a ouvert le rideau
Prochain
Sur le champ de bataille du maintien de la paix, les soldats chinois sont les meilleurs "porte-parole" de la patrie
élections du Conseil du district de demain de Hong Kong condamné « inhabituelle » ......
"Beibei" le panda géant en Amérique est retourné au Sichuan "Photo"
marque de transport nouvel acier pour aucune raison « psy »? Qui se sont avérés être le conducteur de se livrer à « fantôme »
qualification globale européenne | Pays de Galles a remporté places de dernière promotion directe Belgique Howard prendra jeu dix victoires consécutives
cercle de la personnalité d'amis pour parler, chaque mot a un sens, à réfléchir
Le week-end visite bataille de paternité de l'exposition publique 5G toucher l'avant-garde des nouvelles technologies
Bonjour! Lire une phrase à vie, chaque mot du cur, il y a toujours un coup de coude dans votre coeur
version taxi dévaluation Voyage tick de « voiture à venir », le taxi de la sagesse traditionnelle salue la nouvelle ère de Voyage
Qi Jiguang a terminé la mission de visite de stage de voyage et est rentré chez lui triomphalement
Académie chinoise d'ingénierie Wang Jian, Comment faire?
partie industrielle de trois seizième session plénière à Beijing Chen Opens Zhu a assisté à la réunion et de faire un rapport, Wei a présidé