Microsoft Xiaobing: Explication d�taill�e de tous les dialogues vocaux dual

Ding dong ~ vous �tes frapp� par le bien-�tre! � partir de maintenant, 299 billets pour "2020 AI Developer Conference" seront livr�s gratuitement! Entrez la page d'inscription [2020 AI Developer Conference (Ticket en direct en ligne) -it Training Live-CSDN College], cliquez sur "Inscrivez-vous imm�diatement", utilisez le code de r�duction "AIP1410" pendant le r�glement, le prix deviendra "0" Yuan Intersection

Lors de la sixi�me conf�rence g�n�rationnelle de Microsoft Xiaobing, il a officiellement annonc� le lancement d'un nouveau mod�le de bon sens. En m�me temps, il a �galement commenc� un nouveau sens d'un nouveau sens du texte, du travail complet et du temps r�el vision. Cette nouvelle technologie peut pr�dire le contenu � venir des �tres humains en temps r�el, g�n�rer une r�ponse en temps r�el et contr�ler le rythme du dialogue, ce qui permet une interaction vocale � longue distance. Le dispositif mat�riel intelligent qui utilise cette technologie ne demande pas aux utilisateurs de dire des mots d'�veil � chaque cycle d'interaction. Il ne faut qu'une seule fois pour se r�veiller, ce qui peut facilement obtenir un dialogue continu, ce qui rend la conversation entre les personnes et les machines comme une communication naturelle entre personnes.

Dans cette classe publique, le Dr Zhou Li, architecte en chef mondial de Microsoft Xiaobing et directeur de la R&D, pr�sentera les derni�res r�alisations de Microsoft Xiaobing en dialogue � double vocal, ainsi que son application sur le mat�riel intelligent et plus encore � l'avenir sera confront� � des produits plus techniques d�fi.

Ce qui suit est la publication du discours de classe publique.

Introduisez d'abord le d�ploiement de Microsoft Xiaobing dans le dialogue complet du double travail. Notre technologie est en fait il y a deux ans, vers juillet 2016, nous avons fait le premier atterrissage. � cette �poque, nous avons coop�r� avec les appels t�l�phoniques IP Youxin. En discutant avec Xiaobing au t�l�phone, en m�me temps que nous pouvons voir la cabine t�l�phonique de Xiaobing dans le P�kin Mus�e des sciences et de la technologie, et vous pouvez l'appeler avec lui.

Apr�s cela, nous avons coop�r� avec Xiaomi pour passer un appel dans l'application Control of Smart Homes de Xiaomi pour contr�ler diverses maisons intelligentes, y compris en discutant avec elle, et en utilisant diverses fonctions. Voici 2017. Voici 2017. Juin. En janvier 2018, nous et Xiaomi, ainsi que la cha�ne �cologique de Xiaomi appel�e Yeelight, avons lanc� un nouvel appareil vocal, qui s'appelle Yeelight Smart Voice Box. Bing deux assistants intelligents. L'assistant intelligent de Microsoft Xiaobing utilise le dialogue complet � double volume. En fin de compte, nous nous sommes connect�s avec un syst�me de voitures nomm� Meow Driver. En m�me temps, nous et les trois principaux op�rateurs ont atterri. Nous pouvons directement laisser l'appel Xiaobing aux utilisateurs r�els. C'est la port�e de l'utilisation technique actuelle de tous ouvriers.

Nous voulons vous d�finir - quel est exactement un -duplex complet? Quelle est la diff�rence entre le double travail complet et certains des assistants vocaux que nous connaissons maintenant, que ce soit sur les t�l�phones portables, ou sur des haut-parleurs intelligents et d'autres maisons intelligentes?

Tout d'abord, je tiens � expliquer que le terme complet -duplex n'est pas r�ellement l'�re de l'intelligence artificielle ou de la voix. Interaction d'informations vocales, qui s'appelle un -duplex complet. L'application la plus importante des doubles travailleurs complets que nous connaissons est le t�l�phone. Nous avions l'habitude de passer une vari�t� d'appels. Les deux c�t�s peuvent parler en m�me temps. C'est ce qu'on appelle le double travail complet. Le travail semi-dou�ble So-Salled-Salled qui y correspondait est en fait l'�quipement traditionnel le plus typique est une machine � temps �tape. J'ai fini de parler. Ensuite, l'autre partie a appuy� sur la machine nouvellement press�e pour parler au dialogue. Il s'agit d'un travailleur � moiti� assur� correspondant au duplex complet.

En termes de technologie de communication, s'il s'agit d'une conversation entre les gens, nous avons r�solu le double travail il y a 100 ans. � l'�re actuelle de l'intelligence artificielle, � l'�re de la voix, nous avons un nouveau besoin de communiquer, c'est-�-dire que les gens et les robots parlent. Nous ne sommes plus entre deux personnes, l'une est une IA. En raison de quelques raisons historiques, comme nos 10 derni�res ann�es, un logiciel de messagerie instantan�e, qu'il s'agisse de son pr�d�cesseur QQ et WeChat, que nous et les gens d'un seul visage ou d'appel. Essayez d'adopter une m�thode de communication qui n'est pas r�elle. Par exemple, nous envoyons parfois un SMS, et nous enverrons un message vocal, qui est le mode de communication le plus naturel. En raison du d�veloppement de la science et de la technologie, nous avons en fait quelques branches. Ainsi, en tant que chercheurs en technologie, nous avons naturellement commenc� � dire que lorsque nous sommes pass�s � une personne pour communiquer avec une intelligence artificielle, ce � quoi nous pensons, c'est de vous envoyer un message vocal, puis de l'intelligence artificielle � vous rendre un message de voix.

Nous voyons �galement la grande majorit� des haut-parleurs intelligents sur le march� ou les assistants vocaux ant�rieurs sur les t�l�phones mobiles. Tr�s simple, j'envoie un message et re�ois un message. Nous voyons donc que la forme de l'interaction vocale qui est apparue au d�but �tait une interaction � roues unique. Lorsqu'elle �tait refl�t�e dans le haut-parleur intelligent, il �tait en fait tr�s g�nant, car chaque fois que nous avions besoin d'un mot de r�veil. En disant le disant le Deuxi�me phrase, je dois dire Awakening, Barabala.

Plus tard, apr�s qu'Amazon lui-m�me a r�alis� ce probl�me, il a commenc� � essayer certaines am�liorations. Par exemple, lorsqu'il accomplit une t�che relativement compliqu�e, nous disons que jouer un taxi est en fait difficile pour le pr�ciser dans le temps et le lieu, il introduit donc un nouveau concept appel� plusieurs cycles de concepts, c'est-�-dire pour �tre moi comme moi, C'est moi comme moi. Lorsque la machine de mission juge que la machine n'est pas termin�e, la machine termine cette phrase, et elle ouvre � nouveau le microphone avant d'�couter. �coutez ce que les gens diront ensuite.

En fin de compte, en fait, comme un hkust xunfei typique, il a essay� un mod�le appel� AIUI. Il essayait de continuer � �couter les messages vocaux envoy�s par les utilisateurs, puis il a entendu une r�ponse. Mais malheureusement, un tel mod�le a en fait un tr�s gros d�faut, car chaque r�ponse est jou�e, elle doit en fait prendre un certain temps. Par exemple, si une personne a pos� deux questions cons�cutives, la premi�re question peut ne pas �tre r�pondue pour la premi�re question du robot, et la deuxi�me question revient, couvrant la premi�re question d'origine. Dans ce cas, un mod�le de surveillance continu en fait est pire que les interactions � roues uniques pr�c�dentes et l'interaction multiple, et elle deviendra tr�s d�sordonn�e. Parfois, elle sera submerg�e par les utilisateurs. C'est pourquoi, bien que le HKUST Xunfei ait d� donner un petit interrupteur sur le haut-parleur Dingdong apr�s avoir lanc� un mode complet -duplex, disant que vous pouvez essayer une nouvelle technologie appel�e Aiui appel�e Aiui appel�e aiui., Mais elle n'a jamais os� ouvrir Le mod�le AIUI dans son propre produit, car il y a trop de probl�mes ici, il n'est m�me pas aussi bon qu'une interaction � roues unique, chaque fois qu'il est pratique pour les utilisateurs de dire un mot de r�veil.

En fin de compte, ce que nous avons mentionn�, c'est Microsoft Xiaobing. Il convient de dire que ce mod�le complet dans le monde est �galement une grande conf�rence de presse en mars de l'ann�e derni�re, y compris pour annoncer Google Duplex. Le mod�le du double travail complet est que les vraies personnes et la machine sont des ruptures bidirectionnelles des entraves des messages. Nous n'avons qu'un flux vocal ascendant continu, passez la voix de l'utilisateur dans les oreilles de l'intelligence artificielle, puis il y a un �tablissement synchrone vers le bas. Flux de voix, transmission de l'intelligence artificielle dans les oreilles des gens, comme si les gens et les gens passaient un appel t�l�phonique.

Et � partir de nombreuses utilisations pratiques des commentaires des utilisateurs de la bo�te Yeeeght lanc�e avec Xiaomi et des commentaires de certains m�dias technologiques, nous voyons �galement de mani�re tr�s en toute confiance qu'une fois que vous �tes habitu� � ce type d'interaction � temps complet, en fait, vous �tes en fait vous Il est difficile de retourner � chaque mot pour dire l'habitude d'utiliser des mots d'�veil, car il est vraiment g�nant, et il n'est pas proche d'une mani�re naturelle d'interaction. Une fois que vous �tes habitu� � une interaction compl�te comme Microsoft Xiaobing, vous pouvez utiliser d'autres haut-parleurs pour oublier fr�quemment de dire que je dois dire un mot de r�veil � chaque mot que c'est � cause de cela, je pense que cela emp�che les haut-parleurs intelligents de mieux comme t�l�phones mobiles. Nous savons tous que les haut-parleurs intelligents font frire tr�s chaud maintenant, et les principaux fabricants vont occuper cette montagne folle, mais du point de vue des utilisateurs, je ne pensais pas que c'�tait si indispensable. Ce n'�tait pas comme le smartphone entre nos mains. Pourquoi? Parce que l'�nergie consomm�e par elle est encore trop grande. Si nous ne pouvons pas l'utiliser pour utiliser un appareil en toute confiance, nous devons �galement nous souvenir de chaque mot pour dire un mot de r�veil, alors il ne doit pas �tre en mesure d'entrer vraiment dans la maison de millions de personnes. Certains passionn�s de technologie, certains Raisons de la petite gamme de personnes qui ont un go�t neuf. De cette fa�on, nous croyons que la pleine duration est la tendance g�n�rale de l'interaction vocale entre la machine humaine.

Si vous connaissez Microsoft Xiaobing, nous savons peut-�tre que nous faisons un robot de dialogue depuis 2014. Pendant la conversation, nous ne constatons pas qu'en fait, de nombreux assistants dans le pass� verrai que je suis confront� � une seule t�che, telle En disant que je vais invoquer un robot. Je veux juste compl�ter une chose. Par exemple, je veux pr�parer un repas, ou je dois v�rifier la m�t�o � P�kin aujourd'hui. AI orient� vers l'IA. Mais en tant qu'IA r�elle, nous sommes de plus en plus crus par l'exploration de Microsoft Xiaobing. Cela devrait �tre comme une personne ordinaire autour de vous. Un ami, c'est une conversation compl�te. Lorsqu'il peut y en avoir beaucoup, de nombreux probl�mes qui peuvent �tre entrecoup�s dans notre dialogue, il peut �tre vide. Le but de vous parler est de parler, c'est la communication elle-m�me, pas seulement pour accomplir une certaine t�che. Une intelligence artificielle significative en l'avenir.

Avec tant de choses, tout le monde peut avoir un peu d'app�tit et dire que si un tel dialogue humain-machine qui peut �tre r�alis� dans une uvre compl�te peut �tre une chose merveilleuse, mais il y aura beaucoup de probl�mes techniques. Si nous voulons r�aliser des travailleurs � temps plein, que doit-il �tre ici?

Les premi�res caract�ristiques techniques majeures, nous nous soucions et l'�coutons, c'est-�-dire, n'attendez pas un mot, puis effectuons la reconnaissance vocale. Traditionnellement, parce que j'avais l'habitude d'enregistrer un message, j'ai envoy� le message vocal et ensuite identifi�. Mais tout le monde pense que la communication entre les gens n'est pas r�ellement le cas. Lorsque nous nous rencontrons, la question du patron a g�n�ralement demand� � quoi r�pondre, afin que la voix du patron soit pass�, et nous aimerions que vous puissiez donner la r�ponse en douceur. C'est la fa�on de communiquer entre les gens. Il en va de m�me pour l'intelligence artificielle. Lorsque ma fa�on d'interaction n'est plus un message vocal, mais quand je suis un flux vocal, je ne devrais pas attendre jusqu'� ce qu'un mot soit termin�. Si vous commencez � pr�dire ce que la phrase enti�re signifie, donc qu'il peut donner cette r�ponse � une vitesse plus rapide, et qu'il peut atteindre de nombreuses estimations dynamiques. C'est l'une des caract�ristiques techniques importantes.

La deuxi�me caract�ristiques techniques importantes de toutes les voix de la vue du c�t� est qu'elle doit avoir un bon contr�le du rythme. Pourquoi? Parce qu'en termes de travailleurs � temps plein, cela deviendra en fait tr�s compliqu�. Par exemple, lorsque nous envoyons tous des messages vocaux dans WeChat, quand un message vocal que je recevrai par le r�cepteur? Je peux choisir un message vocal. �coutez, si je parle, je peux �galement choisir de ne pas �couter en premier. Apr�s avoir post� ceci phrase, j'�couterai les messages vocaux envoy�s par les utilisateurs pr�c�dents pr�c�demment, qui est d�termin� par le r�cepteur. Ainsi, lorsque nous interagissons avec le message, il semble que le contr�le du rythme ne soit pas une question de l'importance du contr�le du rythme. Mais une fois que nous entrons un mode en forme de visage ou de mode, cela deviendra tr�s important.

20 L'autre partie peut �tre entendue apr�s quelques secondes. � cette �poque, il �tait tr�s facile de parler de la longue distance internationale entre les gens, de saisir ou de silence embarrass�, car il y avait un retard tr�s �lev�. Si c'est toujours le cas entre les gens, il y aura plus de d�fis entre les personnes et les machines.

Le premier d�fi auquel nous devons faire face est en fait que l'IA elle-m�me doit avoir un contr�le du rythme. Pourquoi? Parce que lorsque l'IA diffuse la phrase pr�c�dente, si l'utilisateur demandait � nouveau, alors lorsque l'IA a pr�par� la r�ponse suivante, lorsque la r�ponse suivante �tait pr�te, la r�ponse pr�c�dente �tait en fait, la voix a une certaine p�riode de temps. Dans les mots pr�c�dents, la r�ponse de la phrase suivante y a d�j� r�fl�chi. Que dois-je faire pour le moment? Il a de nombreuses strat�gies diff�rentes. Par exemple, je pense que la phrase suivante est tr�s importante. J'ai imm�diatement arr�t� la phrase suivante, et les mots pr�c�dents ont arr�t�. J'ai dit la phrase suivante; ou je pense que les mots ult�rieurs ne sont pas si importants, puis j'insiste pour me prendre maintenant le Les mots que vous dites sont juste termin�s. En fin de compte, il peut �tre possible que j'ai fini ma phrase en premier, mais apr�s avoir parl�, je r�pondrai � la deuxi�me question. Il y a une t�che tr�s compliqu�e et coordonn�e entre les propres mots de l'IA et leurs propres mots. De toute �vidence, il y a une coordination rythmique entre l'IA et les utilisateurs. Si deux personnes saisissent, l'IA devrait-elle arr�ter la bouche pour laisser les utilisateurs parler? Ou si l'IA veut dire un mot, consid�rera-t-il que je ne serai peut-�tre pas si important de dire que cette phrase peut �tre. Si l'utilisateur de l'autre partie dit pour le moment, je ne dirai pas cette phrase? Ou, � son tour, mes mots sont trop importants. Bien que vous parliez de la moiti�, je veux aussi vous interrompre. Il existe de nombreuses comp�tences en coordination rythmique. M�me si ces techniques sont en fait un art du langage pour nos adultes humains. En fait, ils continueront d'explorer, de garder mature et de ma�triser une comp�tence, sans parler d'une intelligence humaine, en fait, nous aurons de nombreux nouveaux probl�mes.

De plus, dans le cas des nouvelles, nous m'envoyons g�n�ralement un par moi. Il s'agit d'un dialogue sym�trique, mais lorsque l'interaction vocale r�elle en temps r�el est vraie, la conversation peut ne plus �tre sym�trique. Par exemple, lorsqu'un Le psychologue parle avec son patient, le classique est que parfois le psychologue peut dire tr�s peu. Il s�duit parfois le patient et le laisse parler de son monde int�rieur. Il y a un auditeur dans cette conversation et un locuteur. La conversation entre l'IA et les gens peut r�ellement le faire. Il ne doit pas n�cessairement dire que je peux r�pondre � un mode aussi sym�trique. Il y a beaucoup d'espace d'imagination diff�rent.

L'une des troisi�me caract�ristiques techniques de l'uvre compl�te est que dans le sens traditionnel, notre compr�hension de la reconnaissance vocale est que nous entendons une voix. Nous voulons identifier le texte contenu dans cette voix, mais en fait, dans un vrai tout -tout, en fait, dans un vrai tout - tout dans l'environnement de la double vue, c'est-�-dire que c'est bien plus que cela pour la capacit� d'audition d'une personne. Par exemple, nous devons identifier notre identit� et reconna�tre les mod�les sonores. Cette phrase est ce que mon p�re a dit, ou mon grand-p�re parle, ou mon fils parle. Il y a aussi une identification du bruit de fond et des �cho, puis d�terminez s'il parle � l'intelligence artificielle.

Un exemple typique, par exemple, j'ai r�veill� une intelligence artificielle et je lui ai parl�. � cette �poque, j'ai soudainement r�pondu � un appel t�l�phonique. De la radio du microphone, j'ai vu que je parlais encore, mais en fait, l'objet de mon discours avait �t� transf�r�. Alors, comment puis-je comprendre une telle sc�ne?

Enfin, il y a la reconnaissance d'un volume dynamique. Dans quel type d'environnement, je devrais avoir un peu d'intelligence artificielle bruyante, et dans quelles circonstances devrais-je faire un peu de bruit? Il y a de nombreux probl�mes nouveaux et int�ressants que nous n'avions pas besoin de consid�rer dans l'interaction des messages vocaux simples auparavant, et sera affich� dans les sc�nes compl�tes de personnes et d'IA.

Enfin, si nous voulons �tre un dialogue complet du dialogue vocal, il est important d'avoir un moteur de dialogue central. En fait, c'est aussi le point fort que Microsoft Xiaobing a �t� publi� depuis sa sortie en 2014. Son dialogue vocal universel aptitude. Ensuite, nous disons �galement que la technologie de dialogue vocale de Microsoft Xiaobing est r�ellement utilis�e. En fait, au d�but, nous avons utilis� le mod�le de recherche, qui a utilis� une m�thode de recherche pour trouver la r�ponse que les humains ont dit avant d'utiliser la m�thode de recherche. Il y a environ deux ou trois ans, il s'est progressivement tourn� vers le mod�le de g�n�ration � partir de Deep Learning. Par exemple, sur les plates-formes qui sont comme WeChat, QQ ou l'interaction avec les messages, nous avons utilis� un m�lange de mod�les de r�cup�ration et g�n�rant des mod�les jusqu'� pr�sent. Mais dans l'environnement vocal � double vocal complet, en fait, nous constatons qu'il est pr�f�rable d'utiliser le mod�le de g�n�ration. La raison principale ici est de r�cup�rer le mod�le. Si vous avez appris la recherche, c'est en fait le plus sensible � certains mots rares particuli�rement rares. Quel mot tfidf est le plus �lev�, il est en fait tr�s important dans la recherche. Cependant, pour le moteur de reconnaissance vocale, s'il fait accidentellement une erreur, il est en fait possible de rendre un tr�s courant. Parce que ce que je dis n'est pas clair, vous verrez souvent qu'une chose commune identifiera � tort quelque chose de mal. Devenez un moins chose banale. En raison des caract�ristiques naturelles des mod�les de recherche, il peut en fait �largir l'erreur de reconnaissance vocale. Le mod�le de g�n�ration, en raison de son apprentissage en profondeur, apprend en fait principalement certains de ses mod�les communs, qui seront plus �lev�s � la tol�rance aux d�fauts des r�sultats de reconnaissance vocale. C'est en fait une exp�rience tr�s int�ressante de Microsoft Xiaobing � l'exploration de la voix double vocale compl�te, et j'esp�re partager avec vous.

De plus, parce que vous �tes un dialogue � longue distance, vous avez besoin d'une meilleure compr�hension du contexte. Ensuite, par exemple, vous devez commencer � juger quelque chose que vous n'avez pas besoin de juger dans le message vocal, comme quand devrais-je raccrocher ce t�l�phone? Parce que l'utilisateur peut ne plus me parler ou le sens qu'il a d�j� parl�, ce haut-parleur intelligent devrait se d�sactiver consciemment. Ce sont de nouveaux probl�mes que nous rencontrerons chez tous les doubles travailleurs.

� l'avenir, nous aurons une vari�t� de directions de d�veloppement. Nous allons � partir de sc�nes personnelles, comme appeler ceci est une sc�ne personnelle. La sc�ne familiale est la bo�te Yeelight que nous avons publi�e maintenant. La sc�ne de la voiture est �galement publi�e par nous. Mais aller de l'avant peut �tre en public, par exemple, il y a un �quipement de guide de shopping dans un centre commercial ou un grand appareil � �cran, et m�me peut-�tre un jour dans le futur, le mod�le que nous testons est comme �a, et vous pouvez �galement interagir Avec vous pour interagir avec vous., mais le centre commercial peut non seulement avoir un client, il existe de nombreux autres clients, et son interaction deviendra plus compliqu�e dans les sc�nes publiques. Si vous avez un certain nombre de personnes et plusieurs �quipements en m�me temps, le lien entre eux sera tr�s compliqu�.

La derni�re chose tr�s int�ressante est que si cette machine a encore un il, comment la combiner avec les sens visuels? Si vous avez une paire d'yeux, lorsque vous voyez que l'utilisateur vous regarde, nous pouvons r�veiller les mots de r�veil pour la premi�re fois pour passer le t�l�phone. En d'autres termes, je peux utiliser mes yeux pour d�tecter vos �motions, remarquer si vous me parlez et remarquez comment votre conversation doit �tre ajust�e. Il y a beaucoup de choses int�ressantes ici.

En fait, la partie noire est en fait plus int�ress�e par le chef de produit. Par exemple, quel type de diff�rence peut-il apporter � un nouveau formulaire de produit pour la dur�e compl�te? C'est en fait un plus compliqu�, mais il a un moyen d'interagir avec le plafond plus �lev�. Apr�s le reste du temps, j'essaierai de parler autant que possible, c'est-�-dire que le fond blanc est les d�tails de la technologie de dialogue compl�te pour les techniciens.

Certains de ses principaux modules sont �galement introduits plus t�t. Nous pouvons maintenant voir cette comparaison. Lorsque nous n'avons besoin que de r�aliser un semi-travailleur avec interaction de message, en fait, nous n'avons essentiellement besoin que de trois modules: reconnaissance vocale, moteur de dialogue et texte � la conversion Tts. En fait, le c�t� complet � double travail n�cessite au moins six modules, la reconnaissance vocale continue, les contre-mesures linguistiques, les moteurs de dialogue, puis la conversion du texte en voix. Nous avons un contr�leur et un contr�leur rythmique pour chaque tour. Au moins six modules sont n�cessaires .

L'image suivante devrait �tre l'image la plus importante de cette introduction technologique. Elle vous montrera comment le double travail est identifi� en continu, la pr�diction linguistique et le traitement du goulot d'�tranglement. Si vous pouvez comprendre cette image aujourd'hui, je ne pense pas que ce ne soit rien aujourd'hui, j'essaie d'expliquer � tout le monde ce que signifie l'image.

Lorsque l'utilisateur va dire "je t'aime, b�b�", ce flux continu s'�coule du flux vocal vers le cloud du client, et la reconnaissance vocale commencera � essayer chaque syllabe en fonction de la derni�re voix qu'elle entend. comme possible. Dans ce cas, nous verrons que chaque fois qu'il entend une syllabe, cela mettra en �vidence un r�sultat du milieu. Vous verrez "Je, je t'aime, je t'aime, je t'aime", cela devrait �tre �cout� la moiti�, donc c'est L'imagination est un peu diff�rente. Puis "Je t'aime b�b�". Enfin, apr�s la confirmation, apr�s que cet utilisateur a d�clar� qu'il y avait une certaine pause ici, son dernier moteur de reconnaissance vocale a mis en �vidence un r�sultat final. Il �tait pr�f�rable de dire cette phrase, et enfin, "j'aime votre b�b�". Avant que cette phrase ne soit termin�e, de nombreuses op�rations ont commenc�. Lorsque le r�sultat interm�diaire de chaque reconnaissance vocale sort ici, nous ferons une pr�diction linguistique bas�e sur le pr�fixe actuel, c'est-�-dire en termes de probabilit�, peut-�tre que l'utilisateur peut parler. � ce moment-l�, je ne peux pas aussi deviner beaucoup. En ce qui concerne le mot "amour", il peut en fait deviner "Je t'aime". Mais ensuite, quand un "tr�sor" est sorti, les mots ont chang� et ont constat� que les derniers mots n'�taient pas "Je t'aime", mais "j'aime ton b�b�". En fin de compte, lorsque le r�sultat final est sorti, j'ai �galement v�rifi� que ma supposition �tait correcte, et c'�tait "j'aime ton b�b�".

L'un des avantages ici est que lorsque le mot �tr�sor� de l'utilisateur est tomb�, apr�s une simple contre-mesure, le moteur de la bo�te de dialogue Ces six lignes sont parall�les. Lorsqu'il est d�termin� que les trois derni�res pr�visions parall�les sont correctes, il n'a qu'� attendre que les r�sultats les plus rapides des trois r�ponses calcul�s, car ils sont en fait le m�me probl�me. Cela peut permettre aux gens d'interagir avec l'IA. L'IA a la possibilit� de vous donner une r�ponse plus rapidement, et cela est tr�s important pour le naturel et la douceur d'une interaction. D'apr�s les donn�es de nos ant�c�dents, on peut voir que m�me si la vitesse de r�ponse moyenne de la machine peut atteindre 100 millisecondes plus rapidement, 100 millisecondes sont en fait presque impossibles � ressentir pour les gens. Mais tant que la vitesse de r�ponse de l'IA peut �tre rapide, puis 1/10 secondes, les humains seront plus dispos�s � parler plus longtemps avec ce robot. Nous pouvons voir de tels r�sultats � travers des choses comme le test A / B. Cela signifie qu'en fait, pour l'interaction vocale de la machine humaine, la vitesse est un lien tr�s, tr�s important. Nous avons cette identification continue de la pr�diction du langage vocal. Coupl� avec un traitement parall�le, nous pouvons rendre la machine, rendre les r�ponses AI plus rapidement et rendre toute l'interaction humaine-machine plus lisse.

La figure suivante explique comment nous effectuons un contr�le du rythme? En fait, nous allons construire une piscine que la machine dit maintenant comme l'avenir, puis c'est comme un pointeur � jouer, et obtenir constamment l'aiguille audio de cette piscine, retirer le flux continu du flux continu, � l'int�rieur. Ensuite, chaque fois que de nouveaux mots sortent, nous d�ciderons � travers une vari�t� de relations de sortie diff�rentes, dois-je mettre cette phrase � l'avant-garde de la pi�ce, ou devrais-je la mettre dans la file d'attente. Perdre? Avec une telle piscine, nous pouvons assurer une sortie stable de l'audio externe. Ceci est la m�thode de contr�le du rythme.

En fin de compte, il y a encore quelques minutes. Permettez-moi de vous pr�senter une paire � nouveau, et nous dirons cette r�ponse asym�trique. Ce type de r�ponse dynamique comprend quelques points, dont l'un est appel� R�ponse de la chauss�e, c'est-�-dire quand je pense que j'ai encore besoin d'y penser pendant un certain temps, les gens ont une comp�tence tr�s importante. Ou j'y pense, ou le personne qui parle l'anglais pr�f�r�. En fait, cette phrase n'exprime aucune signification, mais elle est tr�s importante dans les comp�tences du dialogue. Il permet aux utilisateurs de savoir imm�diatement que j'ai compris ce que vous voulez dire. Je sais ce que vous m'avez dit, mais je pense. Nous utilisons �galement cette technologie dans la mise en uvre de l'IA de la pleine pression des travailleurs. Lorsque j'ai entendu cette phrase, lorsque ma propre pr�diction, je pense que j'ai besoin de plus de temps, je peux prendre beaucoup de temps pour calculer la r�ponse finale pendant le Fichier vocal, je dois mettre une phrase "um", ou "je pense", puis attendre cette voix, je vais la diffuser. Dans ce cas, cela r�duira consid�rablement le retard que les utilisateurs peuvent percevoir. Le second pour emp�cher les utilisateurs de penser que vous n'avez pas entendu, j'ai demand� � nouveau.

De m�me, surtout lorsque le contr�le des maisons intelligentes distantes, il existe une autre m�thode, nous appelons une r�ponse � l'intention-ex�cution. Quand j'ai entendu les r�sultats interm�diaires, je sais peut-�tre qu'il a �t� allum� sur la lampe de chevet, mais en fait, si je veux vraiment allumer cette lampe de chevet, c'est un lien tr�s compliqu�. Le routeur qui tombe chez vous, et Ensuite, ouvrez votre maison intelligente du routeur. Il s'agit d'un tr�s long processus. Il est normal pour deux ou trois secondes de prendre deux ou trois secondes. Pour l'intelligence artificielle, j'ai r�pondu � ces deux ou trois secondes, ce qui fera dire aux utilisateurs que vous ne m'entendez pas? La m�thode d'utilisation de Microsoft Xiaobing dans le double travail complet est: j'ai d'abord besoin d'identifier vos intentions, alors je n'essaie pas de vraiment l'ex�cuter, je vais d'abord r�pondre � votre intention, c'est-�-dire que je l'essaie d'abord ou moi d'abord ou moi. Quand j'allumais les lumi�res, et lorsque mon op�ration intelligente �tait vraiment termin�e, lorsque j'ai obtenu le code de l'appareil arri�re de son appareil intelligent, je lui ai dit que votre t�l�viseur intelligent avait �t� ouvert ou que Smart La t�l�vision est maintenant dans le courant de nos jours. L'�tat hors ligne ne peut pas �tre ouvert, puis lui dire les vrais r�sultats. Ainsi, une question, en fait, je peux me d�sassembler en deux �tapes et r�pondre, qui est une interaction asym�trique.

Il y en a plus, par exemple, lorsqu'un utilisateur dit "Je suis tellement ennuyeux, vous me dites une blague", en ce moment l'intelligence artificielle lui raconte une blague. Trois, jusqu'� ce que l'utilisateur dise quelque chose ou l'IA lui-m�me est ennuyeux, il est � nouveau d�connect�. Nous pouvons penser que dans la r�ponse d'un ma�tre, il peut y avoir beaucoup de r�ponses suppl�mentaires � l'arri�re. Si l'utilisateur ne r�pond pas, je peux constamment le diffuser.

En fin de compte, il y a une r�ponse r�cursive. En fait, chaque fois que vous y r�pondez, si l'utilisateur est silencieux, je peux envoyer une autre demande au serveur et j'obtiens un nouveau contenu. La principale diff�rence entre cette r�ponse de suivi est que la suite de la r�ponse est que vous avez tous les r�sultats, c'est un par un, de sorte qu'il n'a pas la possibilit� d'ajuster les ajustements dynamiques. De cette fa�on, chaque fois que c'est en fait un nouveau calcul. Par exemple, si je diffuse une nouvelle, j'aurai la possibilit� d'ins�rer des nouvelles inattendues ou de terminer des interactions plus compliqu�es. Ce sont quelques-unes des nouvelles fa�ons que nous avons introduites en plein essor des technologies, et cela permet �galement la communication entre nous et les machines. De l'interaction simple originale qui r�pond et r�pond � une interaction asym�trique plus compliqu�e avec de plus ou plus .

Aujourd'hui, en raison de la limitation du temps, parlons d'abord. Il y a plus de contenu et moins de temps. Merci pour votre participation.

1. Le Xiaobing est-il bas� sur LSTM, est-il d�tect�?

En fait, je l'ai mentionn� en l'introduire tout � l'heure. Par exemple, dans l'interaction du texte ou des messages vocaux ordinaires, Xiaobing est un robot de chat de r�cup�ration et un robot d'apprentissage en profondeur. Voix compl�te � double professionnel Elle est bas�e sur des mod�les d'apprentissage en profondeur, mais dans la r�alisation de Xiaobing, nous utilisons GRU, pas LSTM. La raison principale est que GRU est plus rapide, et son co�t du syst�me. Chaque r�ponse � l'utilisateur est une des utilisateurs. Le probl�me sera un peu inf�rieur � LSTM, nous avons donc finalement choisi d'utiliser GRU au lieu de LSTM du projet. Dans des circonstances normales, les scores LSTM de mod�le similaires seront l�g�rement sup�rieurs � la GRU, mais � partir de la pes�e de la pratique d'ing�nierie, presque tous les algorithmes de Xiaobing choisissent enfin GRU.

2. Le mod�le pr�dictif aura-t-il des exigences plus �lev�es pour la puissance de calcul?

En effet, j'ai re�u un message � l'origine. Je n'ai fait qu'une r�ponse. Si je pense qu'en �coutant la pr�diction, je r�pondrai en fait � de nombreuses questions, c'est-�-dire que j'�coute un mot. Du point Il. Il y a de nombreux calculs en parall�le, en effet. Cependant, les avantages apport�s par cela sont �galement tr�s �vidents, nous avons donc finalement choisi de cette fa�on pour optimiser notre syst�me pour rendre un tel parall�lisme plus efficace.

3. Le double travail complet signifie-t-il pour obtenir les informations de l'autre partie en temps r�el?

La signification du double travail complet est comme appeler, c'est-�-dire que vous l'�coutez toujours et dites que sa liaison montante et son flux vers le bas, vous devez toujours envoyer un package vocal chaque fois que vous recevez un package, m�me si votre package vocal est Sacs vides, ce qui signifie que je suis silencieux. Il s'agit d'un flux sym�trique � deux voies, de sorte que nous sommes appel�s complex complet. Par exemple, si vous le v�rifiez avec Wiki ou Encyclopedia, il s'agit d'un terme tr�s standard, et sa d�finition est tr�s claire.

4. La reconnaissance vocale doit-elle compter sur le serveur?

En termes de r�alisation de l'intelligence artificielle, il n'est pas r�aliste que vous souhaitiez mettre toute une intelligence artificielle compliqu�e sur le client. Nous pouvons mettre une petite partie de la logique sur le client, mais qu'il s'agisse d'un travailleur complet, Si l'impl�mentation vocale de la voix est toujours la mise en uvre vocale du double travail non plus. En fait, la majeure partie de la logique est toujours dans le cloud, pas sur le client. Sinon, franchement, vous avez dit que vous devez permettre au client de calculer certains mod�les d'apprentissage en profondeur. Ce n'est pas rentable en termes de co�t. Combien je dois vendre un haut-parleur intelligent.

5. Comment filtrer le propre audio de l'IA?

Il y en a deux ici. En fait, il y a un probl�me de solution d'�cho tr�s mature dans le mat�riel, c'est-�-dire que la grande majorit� des normes de haut-parleurs intelligentes ont une solution d'�cho, car elle est physiquement physique. Il n'y a pas de syst�me de retard, il est facile de �liminez cette pi�ce sur l'appareil. � en juger par notre exp�rience, � moins que vous ne mettez vos haut-parleurs intelligents derri�re un grand tableau de verre, etc., il est en fait assez bon pour �liminer l'�cho. Dans certains cas, en fait, en fait, il restera toujours la propre voix de l'IA. Heureusement, car l'IA d�finit g�n�ralement sa propre voix, sa voix a ses propres caract�ristiques. Par exemple, le son de Xiaobing, il a un son tr�s typique du son de Xiao Bing. Le mod�le sonore qui a d�clar� l'utilisateur est diff�rent du mod�le sonore de Xiaobing. Par cons�quent, m�me si l'�cho de l'�quipement est �limin�, un peu de d�fauts se sont produits en raison de probl�mes environnementaux. Il a divulgu� certains sons et est revenu aux mots que j'ai re�us, puis par la reconnaissance des mod�les sonores, dans la plupart des cas, dans la plupart Les cas, dans la plupart des cas, peuvent toujours �tre filtr�s, affirmant que celui-ci n'est en fait pas un utilisateur, on ne sait pas comment refl�ter ce son. Donc, si vous avez une identification solide, vous pouvez �liminer la double assurance pour Echo.

6. Le xiaobing peut-il juger l'�motion pendant le processus de chat?

L'entr�e n'est pas seulement un mot, elle a �galement de nombreux facteurs �motionnels, y compris de nombreux facteurs �motionnels des contextes. C'est en fait un probl�me tr�s compliqu�. Les personnes int�ress�es peuvent lire certains articles acad�miques li�s � Xiaobing, je ne dis vraiment pas clairement ici, et Je ne suis pas �labor� en d�tail avec le th�me des travailleurs � temps plein d'aujourd'hui.

7. Comment �valuer l'importance du probl�me dans le contr�le du rythme?

Ces �valuations sont encore dans le moteur du dialogue. En plus de r�pondre � cette phrase, vous faites des jugements. Il a beaucoup de signaux. Je suis une fonctionnalit�, comme un retour � un contr�le de maison intelligent. Je suis naturellement une chose importante. S'il s'agit d'un chat ordinaire, cela peut �tre moyen. Si j'ai constat� que l'utilisateur n'avait pas demand� quand je discutais, ma r�ponse ne savait pas quoi retourner, et je pensais que ce n'�tait pas si important. Il s'agit en fait de nombreux signaux dans la conception du moteur de dialogue. Ces signaux peuvent vous aider � juger si ma r�ponse est une r�ponse importante ou une r�ponse facultative.

8. Quelle est l'�valuation de l'am�lioration intelligente des assistants vocaux?

Ce bon probl�me, ce Xiaobing a en fait un mod�le d'�valuation tr�s unique dans l'industrie. Le mod�le de cette �valuation est �galement tr�s simple et grossier. Tant que les gens et l'intelligence artificielle parlent plus longtemps, plus nous pensons avec succ�s ce chat. Notre contr�le interne, il est appel� la procession de conversation, c'est-�-dire que lorsque l'utilisateur a un dialogue avec une IA, combien de va-et-vient? Si vous pensez que l'utilisateur a dit un mot, lorsque l'intelligence artificielle est revenue, l'utilisateur a dit un mot au deuxi�me tour. Dans des circonstances normales, un assistant traditionnel, comme un assistant comme Siri, le nombre de conversations d'un dialogue est de deux � trois tours, mais pour Microsoft Xiaobing, nous avons en moyenne 23 tours sur la plupart est un. C'est un tr�s grand �cart. Mais d'apr�s notre exp�rience pass�e, c'est un facteur tr�s important pour �valuer l'intelligence artificielle du dialogue.

9. Quel est l'effet de Xiaobing dans l'environnement du bruit?

C'est en effet un probl�me tr�s difficile. La premi�re chose que nous devons admettre est que dans l'environnement du bruit, que ce soit un ouvri�re � moiti�, un -duplex complet, ou ce que c'est, c'est en fait tr�s difficile. Ceux-ci Les d�fis peuvent non seulement �tre des d�fis de l'intelligence artificielle. Il peut �galement �tre n�cessaire d'avoir besoin de certains fabricants de mat�riel pour concevoir la gamme de microphones de leurs efforts communs et d'aider afin de r�soudre de meilleurs probl�mes. Ce n'est peut-�tre pas seulement un probl�me que je peux simplement r�soudre le mod�le de l'IA ou du cloud. Il est difficile de dire que toute l'industrie est difficile. L'effet doit �tre consid�r� comme tr�s bon.

10. Quel type de structure de donn�es est utilis� pour enregistrer et mettre � jour l'�tat actuel de l'�tat?

En fait, quel type de structure de donn�es n'est pas important. M�me si vous �tes un tableau de valeur cl�, cela n'a pas d'importance. Que pouvez-vous obtenir pour obtenir l'�tat de la conversation? Quelle est la pr�cision de l'extraction? C'est le plus important.

11. Comment identifier l'intention du domaine ouvert?

Je pense que c'est aussi une tr�s bonne question. Faites une m�taphore, c'est-�-dire beaucoup d'intelligence artificielle, il essaiera de dire que j'entends un mot, je reconnais d'abord son intention, par exemple j'esp�re diviser cela en branches un par un, puis je g�re chaque branche s�par�ment. Mais d'apr�s l'exp�rience du dialogue de Xiaobing dans le domaine ouvert, c'est une m�thode compl�tement mauvaise. C'est comme dire que sur une pizza, nous pouvons saupoudrer toutes sortes de condiments, qui peuvent saupoudrer d'ananas, de saucisses et de poivrons verts, mais nous pouvons penser que si une certaine intention est comme les condol�ances ci-dessus, m�me si vous en avez, Vous en avez. Peu importe le nombre de condiments, vous ne pouvez pas en faire une pizza. Il doit avoir diverses lacunes, et vous devez vraiment faire une pizza. La premi�re chose que vous devez faire est le g�teau le plus basique. Vous ne Je ne regarde pas ce que c'est, vous avez une capacit� de base du moteur de dialogue g�n�ral. Sur cette base, vous pouvez ajouter des fonctions, puis ajouter l'intention, puis aller � ce g�teau pour saupoudrer toutes sortes de condiments. De cette fa�on, vous pouvez vraiment construire un bon moteur de dialogue humain-machine. Si vous essayez de le d�composer en un sous-probl�me avec diverses intentions, alors c'est en fait un probl�me ultime.

12. O� puis-je vivre la fonction du t�l�phone � double travail Microsoft Xiaobing?

Bien s�r, si vous voulez vivre la meilleure fonction fonctionnelle de Xiaobing, c'est la bo�te d'assistant vocale Yeeeght vendue � la famille de Xiaomi Mimi. C'est Xiaobing, y compris la musique, y compris le contr�le intelligent. Il comprend �galement m�me cette bo�te intelligente. Lorsque vous pouvez Je ne trouve pas de t�l�phone mobile, cela peut vous aider � recevoir un appel t�l�phonique. Vous pouvez vous parler lorsque vous allumez ce t�l�phone. C'est la plus puissante et la meilleure exp�rience. Les vid�os que nous mettons dans le champ chaud auparavant �taient tous des exemples de la bo�te Xiaomi Yeeeght. Bien s�r, si vous dites que je ne veux pas d�penser cet argent, un moyen relativement simple consiste � t�l�charger une application Mijia, c'est-�-dire que Xiaomi contr�le tous les appareils intelligents. Il existe une application de contr�le centrale appel�e Mijia. C'est en Mijia. Il entrera dans l'interface t�l�phonique compl�te de Microsoft Xiaobing. Dans ce domaine, peu importe que vous n'ayez pas de v�ritable appareil Xiaomi dans votre maison, car en fait, vous pouvez discuter avec lui, sauf que vous pouvez contr�ler l'appareil, vous pouvez le laisser chanter et raconter une blague. Cela devrait �tre le moyen le plus pratique de vivre le dialogue complet -duplex sans co�t z�ro.

13. Comment assurer une efficacit� de transmission efficace?

C'est le cas. Dans la plupart des impl�mentations de Xiaobing, nous utilisons la compression des donn�es de RTP. En fait, la compression des donn�es de RTP est en fait un crit�re utilis� par presque tous les t�l�phones IP. Par cons�quent, la plupart des t�l�phones IP de l'industrie utilisent r�ellement r�ellement de tels protocoles. Par cons�quent, si l'orateur intelligent veut r�aliser le double travail complet, il y a en fait un grand nombre de choses open source pour mettre en uvre un tel accord, donc son co�t de d�veloppement est en fait assez faible.

Route de la soie

Apprenez � conna�tre la Chine

Microsoft Xiaobing: Explication d�taill�e de tous les dialogues vocaux dual | millions de personnes apprennent l'IA