DeepMind d�taill�e nouvelle WaveNet: mille fois plus rapide que l'original, la synth�se de son plus naturel

B �t� compil�e � partir Blog DeepMind

Qubit produit | Num�ro public QbitAI

Le mois dernier, Google assistant version anglaise et japonaise enfin passer l'algorithme de synth�se vocale DeepMind introduit il y a un an: WaveNet.

La recherche de l'algorithme de sortir avec un produit, pourquoi s�par�s pour plus de temps d'un an? DeepMind dit, le papier WaveNet sorti l'ann�e derni�re, quand juste un prototype de recherche utilis� pour les produits de consommation, puissance trop de calcul beaucoup plus qu'elle consomme.

Ainsi, DeepMind un an pour construire la nouvelle version de l'algorithme de synth�se vocale pour cela: Parall�lement WaveNet (parall�le WaveNet) Ex�cutez 1000 fois plus rapide que l'original, la qualit� vocale est am�lior�e.

Afin d'introduire une version am�lior�e des d�tails du mod�le, et la probabilit� de l'ensemble du syst�me peut fonctionner dans la distillation de la densit� des environnements massivement parall�le calcul (probabilit� de distillation de densit�) de la technologie, DeepMind �galement publi� un document:

Parall�le WaveNet: Discours rapide Haute Fid�lit� Synth�se

Aaron van den Oord, Yazhe Li, Igor Babuschkin, Karen Simonyan, Oriol Vinyals, Koray Kavukcuoglu

George van den Driessche, Edward Lockhart, Luis C. Cobo, Florian Stimberg, Norman Casagrande, Dominik Grewe, Seb Noury, Sander Dieleman, Erich Elsen, Nal Kalchbrenner, Heiga Zen, Alex Graves, Helen King, Tom Walters, Dan Belov, Demis Hassabis

https://deepmind.com/documents/131/Distilling_WaveNet.pdf

WaveNet mod�le d'origine avec autor�gressif reli� � un �chantillon d'un �chantillon de forme d'onde de voix synth�tis�e, un �chantillon avant chaque nouveau limit� par �chantillon. Selon ce proc�d� de g�n�ration de s�quence, il est possible de g�n�rer des 24.000 �chantillons par seconde, pour �tre d�ploy� sur le produit r�el, ou trop lente.

�l'�chantillon de forme d'onde d'origine g�n�r� par une WaveNet

Pour r�soudre le probl�me � trop lent �, nous avons besoin d'un moyen de g�n�rer des �chantillons de longues s�ries chronologiques, sans pour autant sacrifier la qualit� de la m�thode. DeepMind utilis�, il est la densit� de probabilit� de la distillation mentionn�e ci-dessus.

La m�thode de distillation de densit� de probabilit� est d'utiliser un mod�le WAVENET �t� enti�rement form� en tant que r�seau � ma�tre �, leur propre capacit� d'enseigner un r�seau � �tudiant � - plus petit, en parall�le, plus appropri� pour le mat�riel informatique moderne r�seau de neurones.

r�seau �tudiant est la structure d'origine CNN dilat�e relativement faible, et presque WaveNet. Mais ils ont une diff�rence essentielle: le r�seau �tudiant, g�n�r� pour chaque �chantillon ne repose sur aucun des �chantillons qui ont �t� g�n�r�s, ce qui signifie que, d�s le premier mot au dernier mot, et au milieu de la phrase, nous avons en m�me temps, il peut �tre g�n�r�, comme indiqu� ci-dessous:

�Le nouveau mod�le WAVENET bruit blanc comme entr�e, une synth�se parall�le de tous les �chantillons

Pendant la formation, les �tudiants commencent le r�seau � partir d'un �tat al�atoire, l'entr�e du bruit blanc al�atoire, sa t�che est de sortie dans une cha�ne d'onde sonore continue.

Ensuite, la forme d'onde vocale g�n�r�e est appliqu�e au mod�le de la formation initiale WaveNet (� savoir de r�seau ma�tre), le r�seau pour chaque enseignant de notation de l'�chantillon, de sorte qu'un signal est donn� aux ma�tres et les �l�ves comprennent les �chantillons requis par la diff�rence de sortie de r�seau Dans quelle mesure.

Il est �galement un processus par r�tropropagation pour r�gler les param�tres du r�seau aux �tudiants, afin que les �l�ves apprennent � r�seau, se demandant quel genre de g�n�ration du son. Alors que dire est enseignants et les �l�ves sont la valeur du r�seau de la sortie de chaque �chantillon sonore d'une �ventuelle distribution de probabilit�, et l'objectif de la formation est de divergence KL (divergence KL) entre les deux est r�duite au minimum.

Cette m�thode de formation et de g�n�rer une confrontation r�seau (GAN) est con�u pour comparer parall�le, le r�le des �tudiants est �quivalent � GAN dans le g�n�rateur, et les enseignants l'�quivalent d'un discriminateur. La diff�rence est que, avec GAN, �tudiant cible est pas � fou � l'enseignant, mais en collaboration avec les enseignants, les enseignants tentent d'obtenir des performances similaires.

Bien que cette m�thode de formation fonctionne bien, mais nous avons encore besoin de plus une certaine fonction de perte suppl�mentaire, afin de permettre aux �tudiants d'atteindre le niveau dont nous avons besoin.

Nous avons ajout� une perte apparente (perte de perception) pour �viter une mauvaise prononciation, avec la perte contrastive pour �liminer davantage le bruit, l'aide correspond � l'�nergie de la voix humaine avec une perte de puissance.

Ces pertes sont tr�s fonctions utiles, comme si, sans perte de puissance, le mod�le de la parole est juste un murmure, plut�t que de parler la voix humaine fort.

Les deux m�thodes, nous avons form� en parall�le la synth�se vocale de WaveNet utilisation d�crite ci-dessus, il est possible d'obtenir la m�me qualit� que les vues partielles moyenne de WaveNet originale figurant dans le tableau suivant (MOS):

Le syst�me de pointage MOS, essayez donc d'�tre des figures humaines 1-5 pour mesurer la fa�on dont la voix semble naturelle. Il convient de noter en particulier que la voix d'une personne r�elle pointage MOS est seulement 4,667.

Bien s�r, nous allons WaveNet rencontrer la rapidit� et la qualit� de l'application souhait�e du produit r�el, n�cessite de nombreuses �tapes, juste un de la distillation de densit� de probabilit�.

Pour �tre int�gr� dans WaveNet service de flux parall�le dans l'Assistant Google, les �quipes d'application DeepMind et Google �quipe vocale devront payer la m�me quantit� d'efforts d'ing�nierie, les deux �quipes travaillent ensemble pendant 12 mois, pour �tre en mesure de mettre cette recherche fondamentale WaveNet utilise Google produits � grande �chelle.

Enfin, joindre l'adresse des articles connexes:

DeepMind Adresse de l'article de blog: https: //deepmind.com/blog/high-fidelity-speech-synthesis-wavenet/

th�se parall�le WaveNet: https: //deepmind.com/documents/131/Distilling_WaveNet.pdf

WaveNet th�se originale: https: //arxiv.org/pdf/1609.03499.pdf

- FIN -

recrutement sinc�re

Qubits recrutent �diteur / journaliste, bas� � Zhongguancun de Beijing. Nous attendons de talent, des �tudiants enthousiastes de nous rejoindre! D�tails, s'il vous pla�t interface de dialogue qubit num�ro public (QbitAI), r�ponse mot "recrutement".

Qubit QbitAI � manchettes sur la signature de

' � suivre les nouvelles technologies AI dynamiques et de produits

Route de la soie

Apprenez � conna�tre la Chine

DeepMind d�taill�e nouvelle WaveNet: mille fois plus rapide que l'original, la synth�se de son plus naturel | document ci-joint