Bill Gates d'une voix pour parler? Facebook syst�me AI peut faire

th�se 2081 Les mots, lorsque l'apprentissage tout au long attendu 4 minute

Source: Jack Taylor / Getty Images

la voix de la machine de d�veloppement a toujours �t� un peu d�cevant. M�me les meilleurs syst�mes texte de synth�se vocale qualit� aussi l�g�rement rigide, m�canique, et le manque de changements fondamentaux dans le ton humain a. Un bon exemple est le syst�me de synth�se de la parole de Stephen Hawking.

Compte tenu de la formidable croissance au cours des derni�res ann�es, l'apprentissage de la machine, ce qui est quelque peu inattendue. Logiquement parlant, la reconnaissance des visages et des objets et g�n�rer le v�ritable champ d'image, la machine a fait tr�s bien, alors, son application audio devrait �galement �tre tout aussi impressionnant. Mais ce n'est pas le cas.

Au moins jusqu'� aujourd'hui est la suivante. Aujourd'hui, Facebook Intelligence artificielle Centre de recherche Sean Vasquez (Sean Vasquez) Lewis et Mike (Mike Lewis) a fait une perc�e dans ce domaine. Ils ont d�velopp� une m�thode, peut d�passer les limites du texte du syst�me de conversion de la parole, la g�n�ration d'un segment audio complet tr�s r�aliste par la machine. Leurs machines sont appel�es MelNet, non seulement peut reproduire le ton humain, et peuvent �tre copi�s avec le m�me son en direct. Par cons�quent, la formation �quipe de recherche avec Bill Gates, qui voix pour parler. Ce travail apporte une possibilit� plus r�aliste pour l'interaction entre les humains et les ordinateurs, mais il a �galement d�clench� une nouvelle �re de pr�occupations sur le contenu audio faux.

Tout d'abord, il est dit que l'arri�re-plan de l'�tude. Avant cela, la r�alit� du texte - syst�me de conversion de voix lenteur des progr�s de la raison n'est pas � cause du manque d'essayer. En fait, de nombreuses �quipes ont essay� des algorithmes d'apprentissage en profondeur form�s � l'utilisation de grandes bases de Reproduire audio mod�les de discours r�el.

Vasquez et repr�sentent Lewis, ce proc�d� est probl�matique en ce que le type de donn�es. Jusqu'� pr�sent, la plupart des travaux dans l'�tude a port� sur l'enregistrement du signal audio. Et ces enregistrements audio contient des milliers par pas de temps, montrent comment l'amplitude du son au fil du temps et du changement.

Ces formes d'ondes sur une vari�t� d'�chelles ont montr� un mod�le sp�cifique. Par exemple, quelques secondes de sa forme d'onde vocale associ�e � une s�quence de mots refl�te le mod�le caract�ristique. Mais dans l'�chelle de la microseconde, montrant des caract�ristiques associ�es � la forme d'onde de hauteur et le timbre du son. De l'autre �chelle, la forme d'onde refl�te l'intonation de l'orateur, la structure phon�me.

Une autre m�thode consiste � �tudier ces modes � une forme d'onde de pas de temps pas de temps suivant et la corr�lation entre les longues consid�rations entrent. Par cons�quent, dans un intervalle de temps donn�, le son et la voix derri�re le d�but du mot est pertinent.

syst�me d'apprentissage profondeur devrait �tre bon d'apprendre la pertinence de ces types, et les copier. Le probl�me est que beaucoup de ces associations sont sur des �chelles de temps diff�rentes, et le syst�me d'apprentissage en profondeur corr�lation seulement pour une �chelle limit�e dans le temps. Ceci est parce qu'ils apprennent � utiliser un processus appel� processus d'apprentissage propagation de retour constamment re-connexion au r�seau, selon l'exemple vu pour am�liorer ses performances.

Et ce taux de r�p�tition limite le temps de corr�lation. Par cons�quent, le r�seau d'apprentissage en profondeur peut apprendre la corr�lation entre la forme d'onde audio longue ou courte, mais pas les deux en m�me temps d'apprentissage. Ceci est la raison pour laquelle l'�tude des performances pr�c�dente mauvaise dans la r�plication vocale.

Et Vasquez et Lewis alors cela a une m�thode de recherche diff�rent des gens ordinaires. Ils ont utilis� pour former le r�seau d'apprentissage en profondeur du spectre, plut�t que d'une forme d'onde audio. Sonogramme enregistrer l'ensemble du spectre audio et comment il change au fil du temps. Ainsi, lorsque la capture de forme d'onde d'un param�tre dans le temps, l'amplitude des changements dans le spectre de la vari�t� captur�e de diff�rentes gammes de fr�quences.

Cela signifie que l'information audio est emball� plus dense dans ce type de pr�sentation des donn�es. Vasquez et Lewis a d�clar�: � Le spectre de la ligne de temps que la forme d'onde de chronologie pour plusieurs ordres de compact grandeur, ce qui signifie des dizaines de milliers � travers les �tapes de temps d�pendances dans la forme d'onde, juste en face des centaines de pas de temps dans le tableau du spectre long ".

Cela rend le syst�me plus facile � apprendre la profondeur de l'apprentissage pertinent. Ils ont dit: � Cela rend notre mod�le est en mesure de produire le spectre des �chantillons de voix et de la musique en quelques secondes sans conditions, et la coh�rence. �

Leurs r�sultats sont impressionnants. En utilisant une formation de syst�me vocal commun MelNet TED discours, MelNet capable de reproduire le son haut-parleur TED en quelques secondes, plus ou moins dire quelques d�clarations. Pour d�montrer la flexibilit� du syst�me, les chercheurs de Facebook ont utilis� la conf�rence TED de Bill Gates pour former MelNet, puis avec sa voix pour dire le succ�s d'une s�rie de phrases al�atoires.

Voici le syst�me audio dit: � Quand les choses vont mal, nous froncer les sourcils � et � spiritueux de vin de Porto avec un go�t fum� � de ces deux phrases.

Bien s�r, le syst�me a quelques limites. Parce que le langage de tous les jours peut contenir corr�lation dans une plage plus longue. Par exemple, on peut utiliser le changement de ton pour indiquer des changements dans un th�me de conte ou de l'humeur dans le d�veloppement de dizaines de secondes ou minutes. Et le syst�me de la machine Facebook semble incapable de le faire.

Source: pexels.com/@pixabay

Ainsi, alors que MelNet peut cr�er un effet tr�s r�aliste de l'expression, mais l'�quipe font g�rer des peines plus longues, paragraphes ou histoire enti�re Shihai pas parfait. Et cet objectif semble �tre lent � atteindre.

, Ce travail peut n�anmoins encore avoir un impact significatif sur l'interaction homme-ordinateur. Apr�s tout, beaucoup de dialogue ne contient qu'une phrase br�ve. Surtout pour les op�rateurs de t�l�phonie et le personnel de bureau, ils utilisent une s�rie de phrases relativement courtes au travail. Par cons�quent, cette technologie permet d'automatiser ces travaux d'interactions, encore plus anthropomorphique que le syst�me actuel.

Cependant, � l'heure actuelle Vasquez et Lewis restent peu loquace sur les applications potentielles de la technologie.

Comme toujours, la machine � consonance naturelle, il y a beaucoup de probl�mes potentiels, en particulier ceux qui peuvent vraiment mim�tique machine humaine. Il est facile d'imaginer que cette technologie pourrait �tre appliqu�e � mal sur la sc�ne. Donc, comme d'habitude, les questions �thiques soulev�es par les progr�s de l'intelligence artificielle, c'est bien plus qu'elle ne peut r�pondre.

pouces Message attention

Ensemble, nous partageons l'apprentissage et le d�veloppement de l'IA sec

Amnesty International salue l'attention de la pendaison toute la plate-forme de la classe m�diatique � lecture technique de base �

Route de la soie

Apprenez � conna�tre la Chine

Bill Gates d'une voix pour parler? Facebook syst�me AI peut faire