Microsoft Xiaobing: Explication détaillée de tous les dialogues vocaux dual | millions de personnes apprennent l'IA

Ding dong ~ vous êtes frappé par le bien-être! À partir de maintenant, 299 billets pour "2020 AI Developer Conference" seront livrés gratuitement! Entrez la page d'inscription [2020 AI Developer Conference (Ticket en direct en ligne) -it Training Live-CSDN College], cliquez sur "Inscrivez-vous immédiatement", utilisez le code de réduction "AIP1410" pendant le règlement, le prix deviendra "0" Yuan Intersection

Lors de la sixième conférence générationnelle de Microsoft Xiaobing, il a officiellement annoncé le lancement d'un nouveau modèle de bon sens. En même temps, il a également commencé un nouveau sens d'un nouveau sens du texte, du travail complet et du temps réel vision. Cette nouvelle technologie peut prédire le contenu à venir des êtres humains en temps réel, générer une réponse en temps réel et contrôler le rythme du dialogue, ce qui permet une interaction vocale à longue distance. Le dispositif matériel intelligent qui utilise cette technologie ne demande pas aux utilisateurs de dire des mots d'éveil à chaque cycle d'interaction. Il ne faut qu'une seule fois pour se réveiller, ce qui peut facilement obtenir un dialogue continu, ce qui rend la conversation entre les personnes et les machines comme une communication naturelle entre personnes.

Dans cette classe publique, le Dr Zhou Li, architecte en chef mondial de Microsoft Xiaobing et directeur de la R&D, présentera les dernières réalisations de Microsoft Xiaobing en dialogue à double vocal, ainsi que son application sur le matériel intelligent et plus encore à l'avenir sera confronté à des produits plus techniques défi.

Ce qui suit est la publication du discours de classe publique.

Introduisez d'abord le déploiement de Microsoft Xiaobing dans le dialogue complet du double travail. Notre technologie est en fait il y a deux ans, vers juillet 2016, nous avons fait le premier atterrissage. À cette époque, nous avons coopéré avec les appels téléphoniques IP Youxin. En discutant avec Xiaobing au téléphone, en même temps que nous pouvons voir la cabine téléphonique de Xiaobing dans le Pékin Musée des sciences et de la technologie, et vous pouvez l'appeler avec lui.

Après cela, nous avons coopéré avec Xiaomi pour passer un appel dans l'application Control of Smart Homes de Xiaomi pour contrôler diverses maisons intelligentes, y compris en discutant avec elle, et en utilisant diverses fonctions. Voici 2017. Voici 2017. Juin. En janvier 2018, nous et Xiaomi, ainsi que la chaîne écologique de Xiaomi appelée Yeelight, avons lancé un nouvel appareil vocal, qui s'appelle Yeelight Smart Voice Box. Bing deux assistants intelligents. L'assistant intelligent de Microsoft Xiaobing utilise le dialogue complet à double volume. En fin de compte, nous nous sommes connectés avec un système de voitures nommé Meow Driver. En même temps, nous et les trois principaux opérateurs ont atterri. Nous pouvons directement laisser l'appel Xiaobing aux utilisateurs réels. C'est la portée de l'utilisation technique actuelle de tous ouvriers.

Nous voulons vous définir - quel est exactement un -duplex complet? Quelle est la différence entre le double travail complet et certains des assistants vocaux que nous connaissons maintenant, que ce soit sur les téléphones portables, ou sur des haut-parleurs intelligents et d'autres maisons intelligentes?

Tout d'abord, je tiens à expliquer que le terme complet -duplex n'est pas réellement l'ère de l'intelligence artificielle ou de la voix. Interaction d'informations vocales, qui s'appelle un -duplex complet. L'application la plus importante des doubles travailleurs complets que nous connaissons est le téléphone. Nous avions l'habitude de passer une variété d'appels. Les deux côtés peuvent parler en même temps. C'est ce qu'on appelle le double travail complet. Le travail semi-douéble So-Salled-Salled qui y correspondait est en fait l'équipement traditionnel le plus typique est une machine à temps étape. J'ai fini de parler. Ensuite, l'autre partie a appuyé sur la machine nouvellement pressée pour parler au dialogue. Il s'agit d'un travailleur à moitié assuré correspondant au duplex complet.

En termes de technologie de communication, s'il s'agit d'une conversation entre les gens, nous avons résolu le double travail il y a 100 ans. À l'ère actuelle de l'intelligence artificielle, à l'ère de la voix, nous avons un nouveau besoin de communiquer, c'est-à-dire que les gens et les robots parlent. Nous ne sommes plus entre deux personnes, l'une est une IA. En raison de quelques raisons historiques, comme nos 10 dernières années, un logiciel de messagerie instantanée, qu'il s'agisse de son prédécesseur QQ et WeChat, que nous et les gens d'un seul visage ou d'appel. Essayez d'adopter une méthode de communication qui n'est pas réelle. Par exemple, nous envoyons parfois un SMS, et nous enverrons un message vocal, qui est le mode de communication le plus naturel. En raison du développement de la science et de la technologie, nous avons en fait quelques branches. Ainsi, en tant que chercheurs en technologie, nous avons naturellement commencé à dire que lorsque nous sommes passés à une personne pour communiquer avec une intelligence artificielle, ce à quoi nous pensons, c'est de vous envoyer un message vocal, puis de l'intelligence artificielle à vous rendre un message de voix.

Nous voyons également la grande majorité des haut-parleurs intelligents sur le marché ou les assistants vocaux antérieurs sur les téléphones mobiles. Très simple, j'envoie un message et reçois un message. Nous voyons donc que la forme de l'interaction vocale qui est apparue au début était une interaction à roues unique. Lorsqu'elle était reflétée dans le haut-parleur intelligent, il était en fait très gênant, car chaque fois que nous avions besoin d'un mot de réveil. En disant le disant le Deuxième phrase, je dois dire Awakening, Barabala.

Plus tard, après qu'Amazon lui-même a réalisé ce problème, il a commencé à essayer certaines améliorations. Par exemple, lorsqu'il accomplit une tâche relativement compliquée, nous disons que jouer un taxi est en fait difficile pour le préciser dans le temps et le lieu, il introduit donc un nouveau concept appelé plusieurs cycles de concepts, c'est-à-dire pour être moi comme moi, C'est moi comme moi. Lorsque la machine de mission juge que la machine n'est pas terminée, la machine termine cette phrase, et elle ouvre à nouveau le microphone avant d'écouter. Écoutez ce que les gens diront ensuite.

En fin de compte, en fait, comme un hkust xunfei typique, il a essayé un modèle appelé AIUI. Il essayait de continuer à écouter les messages vocaux envoyés par les utilisateurs, puis il a entendu une réponse. Mais malheureusement, un tel modèle a en fait un très gros défaut, car chaque réponse est jouée, elle doit en fait prendre un certain temps. Par exemple, si une personne a posé deux questions consécutives, la première question peut ne pas être répondue pour la première question du robot, et la deuxième question revient, couvrant la première question d'origine. Dans ce cas, un modèle de surveillance continu en fait est pire que les interactions à roues uniques précédentes et l'interaction multiple, et elle deviendra très désordonnée. Parfois, elle sera submergée par les utilisateurs. C'est pourquoi, bien que le HKUST Xunfei ait dû donner un petit interrupteur sur le haut-parleur Dingdong après avoir lancé un mode complet -duplex, disant que vous pouvez essayer une nouvelle technologie appelée Aiui appelée Aiui appelée aiui., Mais elle n'a jamais osé ouvrir Le modèle AIUI dans son propre produit, car il y a trop de problèmes ici, il n'est même pas aussi bon qu'une interaction à roues unique, chaque fois qu'il est pratique pour les utilisateurs de dire un mot de réveil.

En fin de compte, ce que nous avons mentionné, c'est Microsoft Xiaobing. Il convient de dire que ce modèle complet dans le monde est également une grande conférence de presse en mars de l'année dernière, y compris pour annoncer Google Duplex. Le modèle du double travail complet est que les vraies personnes et la machine sont des ruptures bidirectionnelles des entraves des messages. Nous n'avons qu'un flux vocal ascendant continu, passez la voix de l'utilisateur dans les oreilles de l'intelligence artificielle, puis il y a un Établissement synchrone vers le bas. Flux de voix, transmission de l'intelligence artificielle dans les oreilles des gens, comme si les gens et les gens passaient un appel téléphonique.

Et à partir de nombreuses utilisations pratiques des commentaires des utilisateurs de la boîte Yeeeght lancée avec Xiaomi et des commentaires de certains médias technologiques, nous voyons également de manière très en toute confiance qu'une fois que vous êtes habitué à ce type d'interaction à temps complet, en fait, vous êtes en fait vous Il est difficile de retourner à chaque mot pour dire l'habitude d'utiliser des mots d'éveil, car il est vraiment gênant, et il n'est pas proche d'une manière naturelle d'interaction. Une fois que vous êtes habitué à une interaction complète comme Microsoft Xiaobing, vous pouvez utiliser d'autres haut-parleurs pour oublier fréquemment de dire que je dois dire un mot de réveil à chaque mot que c'est à cause de cela, je pense que cela empêche les haut-parleurs intelligents de mieux comme téléphones mobiles. Nous savons tous que les haut-parleurs intelligents font frire très chaud maintenant, et les principaux fabricants vont occuper cette montagne folle, mais du point de vue des utilisateurs, je ne pensais pas que c'était si indispensable. Ce n'était pas comme le smartphone entre nos mains. Pourquoi? Parce que l'énergie consommée par elle est encore trop grande. Si nous ne pouvons pas l'utiliser pour utiliser un appareil en toute confiance, nous devons également nous souvenir de chaque mot pour dire un mot de réveil, alors il ne doit pas être en mesure d'entrer vraiment dans la maison de millions de personnes. Certains passionnés de technologie, certains Raisons de la petite gamme de personnes qui ont un goût neuf. De cette façon, nous croyons que la pleine duration est la tendance générale de l'interaction vocale entre la machine humaine.

Si vous connaissez Microsoft Xiaobing, nous savons peut-être que nous faisons un robot de dialogue depuis 2014. Pendant la conversation, nous ne constatons pas qu'en fait, de nombreux assistants dans le passé verrai que je suis confronté à une seule tâche, telle En disant que je vais invoquer un robot. Je veux juste compléter une chose. Par exemple, je veux préparer un repas, ou je dois vérifier la météo à Pékin aujourd'hui. AI orienté vers l'IA. Mais en tant qu'IA réelle, nous sommes de plus en plus crus par l'exploration de Microsoft Xiaobing. Cela devrait être comme une personne ordinaire autour de vous. Un ami, c'est une conversation complète. Lorsqu'il peut y en avoir beaucoup, de nombreux problèmes qui peuvent être entrecoupés dans notre dialogue, il peut être vide. Le but de vous parler est de parler, c'est la communication elle-même, pas seulement pour accomplir une certaine tâche. Une intelligence artificielle significative en l'avenir.

Avec tant de choses, tout le monde peut avoir un peu d'appétit et dire que si un tel dialogue humain-machine qui peut être réalisé dans une uvre complète peut être une chose merveilleuse, mais il y aura beaucoup de problèmes techniques. Si nous voulons réaliser des travailleurs à temps plein, que doit-il être ici?

Les premières caractéristiques techniques majeures, nous nous soucions et l'écoutons, c'est-à-dire, n'attendez pas un mot, puis effectuons la reconnaissance vocale. Traditionnellement, parce que j'avais l'habitude d'enregistrer un message, j'ai envoyé le message vocal et ensuite identifié. Mais tout le monde pense que la communication entre les gens n'est pas réellement le cas. Lorsque nous nous rencontrons, la question du patron a généralement demandé à quoi répondre, afin que la voix du patron soit passé, et nous aimerions que vous puissiez donner la réponse en douceur. C'est la façon de communiquer entre les gens. Il en va de même pour l'intelligence artificielle. Lorsque ma façon d'interaction n'est plus un message vocal, mais quand je suis un flux vocal, je ne devrais pas attendre jusqu'à ce qu'un mot soit terminé. Si vous commencez à prédire ce que la phrase entière signifie, donc qu'il peut donner cette réponse à une vitesse plus rapide, et qu'il peut atteindre de nombreuses estimations dynamiques. C'est l'une des caractéristiques techniques importantes.

La deuxième caractéristiques techniques importantes de toutes les voix de la vue du côté est qu'elle doit avoir un bon contrôle du rythme. Pourquoi? Parce qu'en termes de travailleurs à temps plein, cela deviendra en fait très compliqué. Par exemple, lorsque nous envoyons tous des messages vocaux dans WeChat, quand un message vocal que je recevrai par le récepteur? Je peux choisir un message vocal. Écoutez, si je parle, je peux également choisir de ne pas écouter en premier. Après avoir posté ceci phrase, j'écouterai les messages vocaux envoyés par les utilisateurs précédents précédemment, qui est déterminé par le récepteur. Ainsi, lorsque nous interagissons avec le message, il semble que le contrôle du rythme ne soit pas une question de l'importance du contrôle du rythme. Mais une fois que nous entrons un mode en forme de visage ou de mode, cela deviendra très important.

20 L'autre partie peut être entendue après quelques secondes. À cette époque, il était très facile de parler de la longue distance internationale entre les gens, de saisir ou de silence embarrassé, car il y avait un retard très élevé. Si c'est toujours le cas entre les gens, il y aura plus de défis entre les personnes et les machines.

Le premier défi auquel nous devons faire face est en fait que l'IA elle-même doit avoir un contrôle du rythme. Pourquoi? Parce que lorsque l'IA diffuse la phrase précédente, si l'utilisateur demandait à nouveau, alors lorsque l'IA a préparé la réponse suivante, lorsque la réponse suivante était prête, la réponse précédente était en fait, la voix a une certaine période de temps. Dans les mots précédents, la réponse de la phrase suivante y a déjà réfléchi. Que dois-je faire pour le moment? Il a de nombreuses stratégies différentes. Par exemple, je pense que la phrase suivante est très importante. J'ai immédiatement arrêté la phrase suivante, et les mots précédents ont arrêté. J'ai dit la phrase suivante; ou je pense que les mots ultérieurs ne sont pas si importants, puis j'insiste pour me prendre maintenant le Les mots que vous dites sont juste terminés. En fin de compte, il peut être possible que j'ai fini ma phrase en premier, mais après avoir parlé, je répondrai à la deuxième question. Il y a une tâche très compliquée et coordonnée entre les propres mots de l'IA et leurs propres mots. De toute évidence, il y a une coordination rythmique entre l'IA et les utilisateurs. Si deux personnes saisissent, l'IA devrait-elle arrêter la bouche pour laisser les utilisateurs parler? Ou si l'IA veut dire un mot, considérera-t-il que je ne serai peut-être pas si important de dire que cette phrase peut être. Si l'utilisateur de l'autre partie dit pour le moment, je ne dirai pas cette phrase? Ou, à son tour, mes mots sont trop importants. Bien que vous parliez de la moitié, je veux aussi vous interrompre. Il existe de nombreuses compétences en coordination rythmique. Même si ces techniques sont en fait un art du langage pour nos adultes humains. En fait, ils continueront d'explorer, de garder mature et de maîtriser une compétence, sans parler d'une intelligence humaine, en fait, nous aurons de nombreux nouveaux problèmes.

De plus, dans le cas des nouvelles, nous m'envoyons généralement un par moi. Il s'agit d'un dialogue symétrique, mais lorsque l'interaction vocale réelle en temps réel est vraie, la conversation peut ne plus être symétrique. Par exemple, lorsqu'un Le psychologue parle avec son patient, le classique est que parfois le psychologue peut dire très peu. Il séduit parfois le patient et le laisse parler de son monde intérieur. Il y a un auditeur dans cette conversation et un locuteur. La conversation entre l'IA et les gens peut réellement le faire. Il ne doit pas nécessairement dire que je peux répondre à un mode aussi symétrique. Il y a beaucoup d'espace d'imagination différent.

L'une des troisième caractéristiques techniques de l'uvre complète est que dans le sens traditionnel, notre compréhension de la reconnaissance vocale est que nous entendons une voix. Nous voulons identifier le texte contenu dans cette voix, mais en fait, dans un vrai tout -tout, en fait, dans un vrai tout - tout dans l'environnement de la double vue, c'est-à-dire que c'est bien plus que cela pour la capacité d'audition d'une personne. Par exemple, nous devons identifier notre identité et reconnaître les modèles sonores. Cette phrase est ce que mon père a dit, ou mon grand-père parle, ou mon fils parle. Il y a aussi une identification du bruit de fond et des écho, puis déterminez s'il parle à l'intelligence artificielle.

Un exemple typique, par exemple, j'ai réveillé une intelligence artificielle et je lui ai parlé. À cette époque, j'ai soudainement répondu à un appel téléphonique. De la radio du microphone, j'ai vu que je parlais encore, mais en fait, l'objet de mon discours avait été transféré. Alors, comment puis-je comprendre une telle scène?

Enfin, il y a la reconnaissance d'un volume dynamique. Dans quel type d'environnement, je devrais avoir un peu d'intelligence artificielle bruyante, et dans quelles circonstances devrais-je faire un peu de bruit? Il y a de nombreux problèmes nouveaux et intéressants que nous n'avions pas besoin de considérer dans l'interaction des messages vocaux simples auparavant, et sera affiché dans les scènes complètes de personnes et d'IA.

Enfin, si nous voulons être un dialogue complet du dialogue vocal, il est important d'avoir un moteur de dialogue central. En fait, c'est aussi le point fort que Microsoft Xiaobing a été publié depuis sa sortie en 2014. Son dialogue vocal universel aptitude. Ensuite, nous disons également que la technologie de dialogue vocale de Microsoft Xiaobing est réellement utilisée. En fait, au début, nous avons utilisé le modèle de recherche, qui a utilisé une méthode de recherche pour trouver la réponse que les humains ont dit avant d'utiliser la méthode de recherche. Il y a environ deux ou trois ans, il s'est progressivement tourné vers le modèle de génération à partir de Deep Learning. Par exemple, sur les plates-formes qui sont comme WeChat, QQ ou l'interaction avec les messages, nous avons utilisé un mélange de modèles de récupération et générant des modèles jusqu'à présent. Mais dans l'environnement vocal à double vocal complet, en fait, nous constatons qu'il est préférable d'utiliser le modèle de génération. La raison principale ici est de récupérer le modèle. Si vous avez appris la recherche, c'est en fait le plus sensible à certains mots rares particulièrement rares. Quel mot tfidf est le plus élevé, il est en fait très important dans la recherche. Cependant, pour le moteur de reconnaissance vocale, s'il fait accidentellement une erreur, il est en fait possible de rendre un très courant. Parce que ce que je dis n'est pas clair, vous verrez souvent qu'une chose commune identifiera à tort quelque chose de mal. Devenez un moins chose banale. En raison des caractéristiques naturelles des modèles de recherche, il peut en fait élargir l'erreur de reconnaissance vocale. Le modèle de génération, en raison de son apprentissage en profondeur, apprend en fait principalement certains de ses modèles communs, qui seront plus élevés à la tolérance aux défauts des résultats de reconnaissance vocale. C'est en fait une expérience très intéressante de Microsoft Xiaobing à l'exploration de la voix double vocale complète, et j'espère partager avec vous.

De plus, parce que vous êtes un dialogue à longue distance, vous avez besoin d'une meilleure compréhension du contexte. Ensuite, par exemple, vous devez commencer à juger quelque chose que vous n'avez pas besoin de juger dans le message vocal, comme quand devrais-je raccrocher ce téléphone? Parce que l'utilisateur peut ne plus me parler ou le sens qu'il a déjà parlé, ce haut-parleur intelligent devrait se désactiver consciemment. Ce sont de nouveaux problèmes que nous rencontrerons chez tous les doubles travailleurs.

À l'avenir, nous aurons une variété de directions de développement. Nous allons à partir de scènes personnelles, comme appeler ceci est une scène personnelle. La scène familiale est la boîte Yeelight que nous avons publiée maintenant. La scène de la voiture est également publiée par nous. Mais aller de l'avant peut être en public, par exemple, il y a un équipement de guide de shopping dans un centre commercial ou un grand appareil à écran, et même peut-être un jour dans le futur, le modèle que nous testons est comme ça, et vous pouvez également interagir Avec vous pour interagir avec vous., mais le centre commercial peut non seulement avoir un client, il existe de nombreux autres clients, et son interaction deviendra plus compliquée dans les scènes publiques. Si vous avez un certain nombre de personnes et plusieurs équipements en même temps, le lien entre eux sera très compliqué.

La dernière chose très intéressante est que si cette machine a encore un il, comment la combiner avec les sens visuels? Si vous avez une paire d'yeux, lorsque vous voyez que l'utilisateur vous regarde, nous pouvons réveiller les mots de réveil pour la première fois pour passer le téléphone. En d'autres termes, je peux utiliser mes yeux pour détecter vos émotions, remarquer si vous me parlez et remarquez comment votre conversation doit être ajustée. Il y a beaucoup de choses intéressantes ici.

En fait, la partie noire est en fait plus intéressée par le chef de produit. Par exemple, quel type de différence peut-il apporter à un nouveau formulaire de produit pour la durée complète? C'est en fait un plus compliqué, mais il a un moyen d'interagir avec le plafond plus élevé. Après le reste du temps, j'essaierai de parler autant que possible, c'est-à-dire que le fond blanc est les détails de la technologie de dialogue complète pour les techniciens.

Certains de ses principaux modules sont également introduits plus tôt. Nous pouvons maintenant voir cette comparaison. Lorsque nous n'avons besoin que de réaliser un semi-travailleur avec interaction de message, en fait, nous n'avons essentiellement besoin que de trois modules: reconnaissance vocale, moteur de dialogue et texte à la conversion Tts. En fait, le côté complet à double travail nécessite au moins six modules, la reconnaissance vocale continue, les contre-mesures linguistiques, les moteurs de dialogue, puis la conversion du texte en voix. Nous avons un contrôleur et un contrôleur rythmique pour chaque tour. Au moins six modules sont nécessaires .

L'image suivante devrait être l'image la plus importante de cette introduction technologique. Elle vous montrera comment le double travail est identifié en continu, la prédiction linguistique et le traitement du goulot d'étranglement. Si vous pouvez comprendre cette image aujourd'hui, je ne pense pas que ce ne soit rien aujourd'hui, j'essaie d'expliquer à tout le monde ce que signifie l'image.

Lorsque l'utilisateur va dire "je t'aime, bébé", ce flux continu s'écoule du flux vocal vers le cloud du client, et la reconnaissance vocale commencera à essayer chaque syllabe en fonction de la dernière voix qu'elle entend. comme possible. Dans ce cas, nous verrons que chaque fois qu'il entend une syllabe, cela mettra en évidence un résultat du milieu. Vous verrez "Je, je t'aime, je t'aime, je t'aime", cela devrait être écouté la moitié, donc c'est L'imagination est un peu différente. Puis "Je t'aime bébé". Enfin, après la confirmation, après que cet utilisateur a déclaré qu'il y avait une certaine pause ici, son dernier moteur de reconnaissance vocale a mis en évidence un résultat final. Il était préférable de dire cette phrase, et enfin, "j'aime votre bébé". Avant que cette phrase ne soit terminée, de nombreuses opérations ont commencé. Lorsque le résultat intermédiaire de chaque reconnaissance vocale sort ici, nous ferons une prédiction linguistique basée sur le préfixe actuel, c'est-à-dire en termes de probabilité, peut-être que l'utilisateur peut parler. À ce moment-là, je ne peux pas aussi deviner beaucoup. En ce qui concerne le mot "amour", il peut en fait deviner "Je t'aime". Mais ensuite, quand un "trésor" est sorti, les mots ont changé et ont constaté que les derniers mots n'étaient pas "Je t'aime", mais "j'aime ton bébé". En fin de compte, lorsque le résultat final est sorti, j'ai également vérifié que ma supposition était correcte, et c'était "j'aime ton bébé".

L'un des avantages ici est que lorsque le mot «trésor» de l'utilisateur est tombé, après une simple contre-mesure, le moteur de la boîte de dialogue Ces six lignes sont parallèles. Lorsqu'il est déterminé que les trois dernières prévisions parallèles sont correctes, il n'a qu'à attendre que les résultats les plus rapides des trois réponses calculés, car ils sont en fait le même problème. Cela peut permettre aux gens d'interagir avec l'IA. L'IA a la possibilité de vous donner une réponse plus rapidement, et cela est très important pour le naturel et la douceur d'une interaction. D'après les données de nos antécédents, on peut voir que même si la vitesse de réponse moyenne de la machine peut atteindre 100 millisecondes plus rapidement, 100 millisecondes sont en fait presque impossibles à ressentir pour les gens. Mais tant que la vitesse de réponse de l'IA peut être rapide, puis 1/10 secondes, les humains seront plus disposés à parler plus longtemps avec ce robot. Nous pouvons voir de tels résultats à travers des choses comme le test A / B. Cela signifie qu'en fait, pour l'interaction vocale de la machine humaine, la vitesse est un lien très, très important. Nous avons cette identification continue de la prédiction du langage vocal. Couplé avec un traitement parallèle, nous pouvons rendre la machine, rendre les réponses AI plus rapidement et rendre toute l'interaction humaine-machine plus lisse.

La figure suivante explique comment nous effectuons un contrôle du rythme? En fait, nous allons construire une piscine que la machine dit maintenant comme l'avenir, puis c'est comme un pointeur à jouer, et obtenir constamment l'aiguille audio de cette piscine, retirer le flux continu du flux continu, à l'intérieur. Ensuite, chaque fois que de nouveaux mots sortent, nous déciderons à travers une variété de relations de sortie différentes, dois-je mettre cette phrase à l'avant-garde de la pièce, ou devrais-je la mettre dans la file d'attente. Perdre? Avec une telle piscine, nous pouvons assurer une sortie stable de l'audio externe. Ceci est la méthode de contrôle du rythme.

En fin de compte, il y a encore quelques minutes. Permettez-moi de vous présenter une paire à nouveau, et nous dirons cette réponse asymétrique. Ce type de réponse dynamique comprend quelques points, dont l'un est appelé Réponse de la chaussée, c'est-à-dire quand je pense que j'ai encore besoin d'y penser pendant un certain temps, les gens ont une compétence très importante. Ou j'y pense, ou le personne qui parle l'anglais préféré. En fait, cette phrase n'exprime aucune signification, mais elle est très importante dans les compétences du dialogue. Il permet aux utilisateurs de savoir immédiatement que j'ai compris ce que vous voulez dire. Je sais ce que vous m'avez dit, mais je pense. Nous utilisons également cette technologie dans la mise en uvre de l'IA de la pleine pression des travailleurs. Lorsque j'ai entendu cette phrase, lorsque ma propre prédiction, je pense que j'ai besoin de plus de temps, je peux prendre beaucoup de temps pour calculer la réponse finale pendant le Fichier vocal, je dois mettre une phrase "um", ou "je pense", puis attendre cette voix, je vais la diffuser. Dans ce cas, cela réduira considérablement le retard que les utilisateurs peuvent percevoir. Le second pour empêcher les utilisateurs de penser que vous n'avez pas entendu, j'ai demandé à nouveau.

De même, surtout lorsque le contrôle des maisons intelligentes distantes, il existe une autre méthode, nous appelons une réponse à l'intention-exécution. Quand j'ai entendu les résultats intermédiaires, je sais peut-être qu'il a été allumé sur la lampe de chevet, mais en fait, si je veux vraiment allumer cette lampe de chevet, c'est un lien très compliqué. Le routeur qui tombe chez vous, et Ensuite, ouvrez votre maison intelligente du routeur. Il s'agit d'un très long processus. Il est normal pour deux ou trois secondes de prendre deux ou trois secondes. Pour l'intelligence artificielle, j'ai répondu à ces deux ou trois secondes, ce qui fera dire aux utilisateurs que vous ne m'entendez pas? La méthode d'utilisation de Microsoft Xiaobing dans le double travail complet est: j'ai d'abord besoin d'identifier vos intentions, alors je n'essaie pas de vraiment l'exécuter, je vais d'abord répondre à votre intention, c'est-à-dire que je l'essaie d'abord ou moi d'abord ou moi. Quand j'allumais les lumières, et lorsque mon opération intelligente était vraiment terminée, lorsque j'ai obtenu le code de l'appareil arrière de son appareil intelligent, je lui ai dit que votre téléviseur intelligent avait été ouvert ou que Smart La télévision est maintenant dans le courant de nos jours. L'état hors ligne ne peut pas être ouvert, puis lui dire les vrais résultats. Ainsi, une question, en fait, je peux me désassembler en deux étapes et répondre, qui est une interaction asymétrique.

Il y en a plus, par exemple, lorsqu'un utilisateur dit "Je suis tellement ennuyeux, vous me dites une blague", en ce moment l'intelligence artificielle lui raconte une blague. Trois, jusqu'à ce que l'utilisateur dise quelque chose ou l'IA lui-même est ennuyeux, il est à nouveau déconnecté. Nous pouvons penser que dans la réponse d'un maître, il peut y avoir beaucoup de réponses supplémentaires à l'arrière. Si l'utilisateur ne répond pas, je peux constamment le diffuser.

En fin de compte, il y a une réponse récursive. En fait, chaque fois que vous y répondez, si l'utilisateur est silencieux, je peux envoyer une autre demande au serveur et j'obtiens un nouveau contenu. La principale différence entre cette réponse de suivi est que la suite de la réponse est que vous avez tous les résultats, c'est un par un, de sorte qu'il n'a pas la possibilité d'ajuster les ajustements dynamiques. De cette façon, chaque fois que c'est en fait un nouveau calcul. Par exemple, si je diffuse une nouvelle, j'aurai la possibilité d'insérer des nouvelles inattendues ou de terminer des interactions plus compliquées. Ce sont quelques-unes des nouvelles façons que nous avons introduites en plein essor des technologies, et cela permet également la communication entre nous et les machines. De l'interaction simple originale qui répond et répond à une interaction asymétrique plus compliquée avec de plus ou plus .

Aujourd'hui, en raison de la limitation du temps, parlons d'abord. Il y a plus de contenu et moins de temps. Merci pour votre participation.

QA

1. Le Xiaobing est-il basé sur LSTM, est-il détecté?

En fait, je l'ai mentionné en l'introduire tout à l'heure. Par exemple, dans l'interaction du texte ou des messages vocaux ordinaires, Xiaobing est un robot de chat de récupération et un robot d'apprentissage en profondeur. Voix complète à double professionnel Elle est basée sur des modèles d'apprentissage en profondeur, mais dans la réalisation de Xiaobing, nous utilisons GRU, pas LSTM. La raison principale est que GRU est plus rapide, et son coût du système. Chaque réponse à l'utilisateur est une des utilisateurs. Le problème sera un peu inférieur à LSTM, nous avons donc finalement choisi d'utiliser GRU au lieu de LSTM du projet. Dans des circonstances normales, les scores LSTM de modèle similaires seront légèrement supérieurs à la GRU, mais à partir de la pesée de la pratique d'ingénierie, presque tous les algorithmes de Xiaobing choisissent enfin GRU.

2. Le modèle prédictif aura-t-il des exigences plus élevées pour la puissance de calcul?

En effet, j'ai reçu un message à l'origine. Je n'ai fait qu'une réponse. Si je pense qu'en écoutant la prédiction, je répondrai en fait à de nombreuses questions, c'est-à-dire que j'écoute un mot. Du point Il. Il y a de nombreux calculs en parallèle, en effet. Cependant, les avantages apportés par cela sont également très évidents, nous avons donc finalement choisi de cette façon pour optimiser notre système pour rendre un tel parallélisme plus efficace.

3. Le double travail complet signifie-t-il pour obtenir les informations de l'autre partie en temps réel?

La signification du double travail complet est comme appeler, c'est-à-dire que vous l'écoutez toujours et dites que sa liaison montante et son flux vers le bas, vous devez toujours envoyer un package vocal chaque fois que vous recevez un package, même si votre package vocal est Sacs vides, ce qui signifie que je suis silencieux. Il s'agit d'un flux symétrique à deux voies, de sorte que nous sommes appelés complex complet. Par exemple, si vous le vérifiez avec Wiki ou Encyclopedia, il s'agit d'un terme très standard, et sa définition est très claire.

4. La reconnaissance vocale doit-elle compter sur le serveur?

En termes de réalisation de l'intelligence artificielle, il n'est pas réaliste que vous souhaitiez mettre toute une intelligence artificielle compliquée sur le client. Nous pouvons mettre une petite partie de la logique sur le client, mais qu'il s'agisse d'un travailleur complet, Si l'implémentation vocale de la voix est toujours la mise en uvre vocale du double travail non plus. En fait, la majeure partie de la logique est toujours dans le cloud, pas sur le client. Sinon, franchement, vous avez dit que vous devez permettre au client de calculer certains modèles d'apprentissage en profondeur. Ce n'est pas rentable en termes de coût. Combien je dois vendre un haut-parleur intelligent.

5. Comment filtrer le propre audio de l'IA?

Il y en a deux ici. En fait, il y a un problème de solution d'écho très mature dans le matériel, c'est-à-dire que la grande majorité des normes de haut-parleurs intelligentes ont une solution d'écho, car elle est physiquement physique. Il n'y a pas de système de retard, il est facile de Éliminez cette pièce sur l'appareil. À en juger par notre expérience, à moins que vous ne mettez vos haut-parleurs intelligents derrière un grand tableau de verre, etc., il est en fait assez bon pour éliminer l'écho. Dans certains cas, en fait, en fait, il restera toujours la propre voix de l'IA. Heureusement, car l'IA définit généralement sa propre voix, sa voix a ses propres caractéristiques. Par exemple, le son de Xiaobing, il a un son très typique du son de Xiao Bing. Le modèle sonore qui a déclaré l'utilisateur est différent du modèle sonore de Xiaobing. Par conséquent, même si l'écho de l'équipement est éliminé, un peu de défauts se sont produits en raison de problèmes environnementaux. Il a divulgué certains sons et est revenu aux mots que j'ai reçus, puis par la reconnaissance des modèles sonores, dans la plupart des cas, dans la plupart Les cas, dans la plupart des cas, peuvent toujours être filtrés, affirmant que celui-ci n'est en fait pas un utilisateur, on ne sait pas comment refléter ce son. Donc, si vous avez une identification solide, vous pouvez éliminer la double assurance pour Echo.

6. Le xiaobing peut-il juger l'émotion pendant le processus de chat?

L'entrée n'est pas seulement un mot, elle a également de nombreux facteurs émotionnels, y compris de nombreux facteurs émotionnels des contextes. C'est en fait un problème très compliqué. Les personnes intéressées peuvent lire certains articles académiques liés à Xiaobing, je ne dis vraiment pas clairement ici, et Je ne suis pas élaboré en détail avec le thème des travailleurs à temps plein d'aujourd'hui.

7. Comment évaluer l'importance du problème dans le contrôle du rythme?

Ces évaluations sont encore dans le moteur du dialogue. En plus de répondre à cette phrase, vous faites des jugements. Il a beaucoup de signaux. Je suis une fonctionnalité, comme un retour à un contrôle de maison intelligent. Je suis naturellement une chose importante. S'il s'agit d'un chat ordinaire, cela peut être moyen. Si j'ai constaté que l'utilisateur n'avait pas demandé quand je discutais, ma réponse ne savait pas quoi retourner, et je pensais que ce n'était pas si important. Il s'agit en fait de nombreux signaux dans la conception du moteur de dialogue. Ces signaux peuvent vous aider à juger si ma réponse est une réponse importante ou une réponse facultative.

8. Quelle est l'évaluation de l'amélioration intelligente des assistants vocaux?

Ce bon problème, ce Xiaobing a en fait un modèle d'évaluation très unique dans l'industrie. Le modèle de cette évaluation est également très simple et grossier. Tant que les gens et l'intelligence artificielle parlent plus longtemps, plus nous pensons avec succès ce chat. Notre contrôle interne, il est appelé la procession de conversation, c'est-à-dire que lorsque l'utilisateur a un dialogue avec une IA, combien de va-et-vient? Si vous pensez que l'utilisateur a dit un mot, lorsque l'intelligence artificielle est revenue, l'utilisateur a dit un mot au deuxième tour. Dans des circonstances normales, un assistant traditionnel, comme un assistant comme Siri, le nombre de conversations d'un dialogue est de deux à trois tours, mais pour Microsoft Xiaobing, nous avons en moyenne 23 tours sur la plupart est un. C'est un très grand écart. Mais d'après notre expérience passée, c'est un facteur très important pour évaluer l'intelligence artificielle du dialogue.

9. Quel est l'effet de Xiaobing dans l'environnement du bruit?

C'est en effet un problème très difficile. La première chose que nous devons admettre est que dans l'environnement du bruit, que ce soit un ouvrière à moitié, un -duplex complet, ou ce que c'est, c'est en fait très difficile. Ceux-ci Les défis peuvent non seulement être des défis de l'intelligence artificielle. Il peut également être nécessaire d'avoir besoin de certains fabricants de matériel pour concevoir la gamme de microphones de leurs efforts communs et d'aider afin de résoudre de meilleurs problèmes. Ce n'est peut-être pas seulement un problème que je peux simplement résoudre le modèle de l'IA ou du cloud. Il est difficile de dire que toute l'industrie est difficile. L'effet doit être considéré comme très bon.

10. Quel type de structure de données est utilisé pour enregistrer et mettre à jour l'état actuel de l'état?

En fait, quel type de structure de données n'est pas important. Même si vous êtes un tableau de valeur clé, cela n'a pas d'importance. Que pouvez-vous obtenir pour obtenir l'état de la conversation? Quelle est la précision de l'extraction? C'est le plus important.

11. Comment identifier l'intention du domaine ouvert?

Je pense que c'est aussi une très bonne question. Faites une métaphore, c'est-à-dire beaucoup d'intelligence artificielle, il essaiera de dire que j'entends un mot, je reconnais d'abord son intention, par exemple j'espère diviser cela en branches un par un, puis je gère chaque branche séparément. Mais d'après l'expérience du dialogue de Xiaobing dans le domaine ouvert, c'est une méthode complètement mauvaise. C'est comme dire que sur une pizza, nous pouvons saupoudrer toutes sortes de condiments, qui peuvent saupoudrer d'ananas, de saucisses et de poivrons verts, mais nous pouvons penser que si une certaine intention est comme les condoléances ci-dessus, même si vous en avez, Vous en avez. Peu importe le nombre de condiments, vous ne pouvez pas en faire une pizza. Il doit avoir diverses lacunes, et vous devez vraiment faire une pizza. La première chose que vous devez faire est le gâteau le plus basique. Vous ne Je ne regarde pas ce que c'est, vous avez une capacité de base du moteur de dialogue général. Sur cette base, vous pouvez ajouter des fonctions, puis ajouter l'intention, puis aller à ce gâteau pour saupoudrer toutes sortes de condiments. De cette façon, vous pouvez vraiment construire un bon moteur de dialogue humain-machine. Si vous essayez de le décomposer en un sous-problème avec diverses intentions, alors c'est en fait un problème ultime.

12. Où puis-je vivre la fonction du téléphone à double travail Microsoft Xiaobing?

Bien sûr, si vous voulez vivre la meilleure fonction fonctionnelle de Xiaobing, c'est la boîte d'assistant vocale Yeeeght vendue à la famille de Xiaomi Mimi. C'est Xiaobing, y compris la musique, y compris le contrôle intelligent. Il comprend également même cette boîte intelligente. Lorsque vous pouvez Je ne trouve pas de téléphone mobile, cela peut vous aider à recevoir un appel téléphonique. Vous pouvez vous parler lorsque vous allumez ce téléphone. C'est la plus puissante et la meilleure expérience. Les vidéos que nous mettons dans le champ chaud auparavant étaient tous des exemples de la boîte Xiaomi Yeeeght. Bien sûr, si vous dites que je ne veux pas dépenser cet argent, un moyen relativement simple consiste à télécharger une application Mijia, c'est-à-dire que Xiaomi contrôle tous les appareils intelligents. Il existe une application de contrôle centrale appelée Mijia. C'est en Mijia. Il entrera dans l'interface téléphonique complète de Microsoft Xiaobing. Dans ce domaine, peu importe que vous n'ayez pas de véritable appareil Xiaomi dans votre maison, car en fait, vous pouvez discuter avec lui, sauf que vous pouvez contrôler l'appareil, vous pouvez le laisser chanter et raconter une blague. Cela devrait être le moyen le plus pratique de vivre le dialogue complet -duplex sans coût zéro.

13. Comment assurer une efficacité de transmission efficace?

C'est le cas. Dans la plupart des implémentations de Xiaobing, nous utilisons la compression des données de RTP. En fait, la compression des données de RTP est en fait un critère utilisé par presque tous les téléphones IP. Par conséquent, la plupart des téléphones IP de l'industrie utilisent réellement réellement de tels protocoles. Par conséquent, si l'orateur intelligent veut réaliser le double travail complet, il y a en fait un grand nombre de choses open source pour mettre en uvre un tel accord, donc son coût de développement est en fait assez faible.

Explication détaillée de l'application de la technologie d'amélioration vidéo iQIYI ZoomAI | Million People Learning AI
Précédent
Technologie de traitement structurée pour les résultats de reconnaissance de texte basée sur des modèles | Million People Learning AI
Prochain
Explication détaillée de l'application de la technologie d'amélioration vidéo iQIYI ZoomAI | Million People Learning AI
Système de dialogue homme-machine basé sur un graphe de connaissances | Des millions de personnes apprennent l'IA
Geling Deep Pupil: Discussion sur la pratique de la reconnaissance faciale sur la reconnaissance faciale à grande échelle à l'échelle industrielle | Un million de personnes apprennent l'IA
Les données de fabricant interne | Redis optimisation des performances des 13 règlements militaires
Comment passer à travers bord AI calcul « Renduermai »?
Réclamer Bitcoin créateur Satoshi, maintenant que les gens sont en colère juges haine faux témoignage
Chercheur de l'algorithme de Yunzhongshen: Explication détaillée de la technologie de suivi et des difficultés de suivi transversal | Million de personnes apprenez l'IA
De 0 à 1 : la technologie et l'application de vision par ordinateur derrière l'explosion du moment | Des millions de personnes apprennent l'IA
Cerveau de Meituan: méthode de modélisation et application du graphique des connaissances | Des millions de personnes apprennent l'IA
Wenyin Internet Bao Jie: Analyse approfondie du développement clé des connaissances et du contexte technique | Des millions de personnes apprennent l'IA
Système de dialogue homme-machine basé sur un graphe de connaissances | Des millions de personnes apprennent l'IA
lac de printemps est pas facile, mais le lac de la maison peut encore parler de données ......