DeepMind détaillée nouvelle WaveNet: mille fois plus rapide que l'original, la synthèse de son plus naturel | document ci-joint

B été compilée à partir Blog DeepMind

Qubit produit | Numéro public QbitAI

Le mois dernier, Google assistant version anglaise et japonaise enfin passer l'algorithme de synthèse vocale DeepMind introduit il y a un an: WaveNet.

La recherche de l'algorithme de sortir avec un produit, pourquoi séparés pour plus de temps d'un an? DeepMind dit, le papier WaveNet sorti l'année dernière, quand juste un prototype de recherche utilisé pour les produits de consommation, puissance trop de calcul beaucoup plus qu'elle consomme.

Ainsi, DeepMind un an pour construire la nouvelle version de l'algorithme de synthèse vocale pour cela: Parallèlement WaveNet (parallèle WaveNet) Exécutez 1000 fois plus rapide que l'original, la qualité vocale est améliorée.

Afin d'introduire une version améliorée des détails du modèle, et la probabilité de l'ensemble du système peut fonctionner dans la distillation de la densité des environnements massivement parallèle calcul (probabilité de distillation de densité) de la technologie, DeepMind également publié un document:

Parallèle WaveNet: Discours rapide Haute Fidélité Synthèse

Aaron van den Oord, Yazhe Li, Igor Babuschkin, Karen Simonyan, Oriol Vinyals, Koray Kavukcuoglu

George van den Driessche, Edward Lockhart, Luis C. Cobo, Florian Stimberg, Norman Casagrande, Dominik Grewe, Seb Noury, Sander Dieleman, Erich Elsen, Nal Kalchbrenner, Heiga Zen, Alex Graves, Helen King, Tom Walters, Dan Belov, Demis Hassabis

https://deepmind.com/documents/131/Distilling_WaveNet.pdf

WaveNet modèle d'origine avec autorégressif relié à un échantillon d'un échantillon de forme d'onde de voix synthétisée, un échantillon avant chaque nouveau limité par échantillon. Selon ce procédé de génération de séquence, il est possible de générer des 24.000 échantillons par seconde, pour être déployé sur le produit réel, ou trop lente.

 l'échantillon de forme d'onde d'origine généré par une WaveNet

Pour résoudre le problème « trop lent », nous avons besoin d'un moyen de générer des échantillons de longues séries chronologiques, sans pour autant sacrifier la qualité de la méthode. DeepMind utilisé, il est la densité de probabilité de la distillation mentionnée ci-dessus.

La méthode de distillation de densité de probabilité est d'utiliser un modèle WAVENET été entièrement formé en tant que réseau « maître », leur propre capacité d'enseigner un réseau « étudiant » - plus petit, en parallèle, plus approprié pour le matériel informatique moderne réseau de neurones.

réseau étudiant est la structure d'origine CNN dilatée relativement faible, et presque WaveNet. Mais ils ont une différence essentielle: le réseau étudiant, généré pour chaque échantillon ne repose sur aucun des échantillons qui ont été générés, ce qui signifie que, dès le premier mot au dernier mot, et au milieu de la phrase, nous avons en même temps, il peut être généré, comme indiqué ci-dessous:

 Le nouveau modèle WAVENET bruit blanc comme entrée, une synthèse parallèle de tous les échantillons

Pendant la formation, les étudiants commencent le réseau à partir d'un état aléatoire, l'entrée du bruit blanc aléatoire, sa tâche est de sortie dans une chaîne d'onde sonore continue.

Ensuite, la forme d'onde vocale générée est appliquée au modèle de la formation initiale WaveNet (à savoir de réseau maître), le réseau pour chaque enseignant de notation de l'échantillon, de sorte qu'un signal est donné aux maîtres et les élèves comprennent les échantillons requis par la différence de sortie de réseau Dans quelle mesure.

Il est également un processus par rétropropagation pour régler les paramètres du réseau aux étudiants, afin que les élèves apprennent à réseau, se demandant quel genre de génération du son. Alors que dire est enseignants et les élèves sont la valeur du réseau de la sortie de chaque échantillon sonore d'une éventuelle distribution de probabilité, et l'objectif de la formation est de divergence KL (divergence KL) entre les deux est réduite au minimum.

Cette méthode de formation et de générer une confrontation réseau (GAN) est conçu pour comparer parallèle, le rôle des étudiants est équivalent à GAN dans le générateur, et les enseignants l'équivalent d'un discriminateur. La différence est que, avec GAN, étudiant cible est pas « fou » l'enseignant, mais en collaboration avec les enseignants, les enseignants tentent d'obtenir des performances similaires.

Bien que cette méthode de formation fonctionne bien, mais nous avons encore besoin de plus une certaine fonction de perte supplémentaire, afin de permettre aux étudiants d'atteindre le niveau dont nous avons besoin.

Nous avons ajouté une perte apparente (perte de perception) pour éviter une mauvaise prononciation, avec la perte contrastive pour éliminer davantage le bruit, l'aide correspond à l'énergie de la voix humaine avec une perte de puissance.

Ces pertes sont très fonctions utiles, comme si, sans perte de puissance, le modèle de la parole est juste un murmure, plutôt que de parler la voix humaine fort.

Les deux méthodes, nous avons formé en parallèle la synthèse vocale de WaveNet utilisation décrite ci-dessus, il est possible d'obtenir la même qualité que les vues partielles moyenne de WaveNet originale figurant dans le tableau suivant (MOS):

Le système de pointage MOS, essayez donc d'être des figures humaines 1-5 pour mesurer la façon dont la voix semble naturelle. Il convient de noter en particulier que la voix d'une personne réelle pointage MOS est seulement 4,667.

Bien sûr, nous allons WaveNet rencontrer la rapidité et la qualité de l'application souhaitée du produit réel, nécessite de nombreuses étapes, juste un de la distillation de densité de probabilité.

Pour être intégré dans WaveNet service de flux parallèle dans l'Assistant Google, les équipes d'application DeepMind et Google équipe vocale devront payer la même quantité d'efforts d'ingénierie, les deux équipes travaillent ensemble pendant 12 mois, pour être en mesure de mettre cette recherche fondamentale WaveNet utilise Google produits à grande échelle.

Enfin, joindre l'adresse des articles connexes:

DeepMind Adresse de l'article de blog: https: //deepmind.com/blog/high-fidelity-speech-synthesis-wavenet/

thèse parallèle WaveNet: https: //deepmind.com/documents/131/Distilling_WaveNet.pdf

WaveNet thèse originale: https: //arxiv.org/pdf/1609.03499.pdf

- FIN -

recrutement sincère

Qubits recrutent éditeur / journaliste, basé à Zhongguancun de Beijing. Nous attendons de talent, des étudiants enthousiastes de nous rejoindre! Détails, s'il vous plaît interface de dialogue qubit numéro public (QbitAI), réponse mot "recrutement".

Qubit QbitAI · manchettes sur la signature de

' « suivre les nouvelles technologies AI dynamiques et de produits

Dalian par le football Dalian! capitaine Shide « Technology 6 » dans l'un des personnel d'entraîneurs? Cui au calme
Précédent
Hélicoptère 110! Sentez-vous la version "nouveau bateau" AI SUV-- Saab Chi Heng
Prochain
défilé du jour par les fabricants nationaux manger? Kun lancer une publicité a été vraiment fait dans un jeu
fils avait terminé Kluivert objectif professionnel à l'enfant dans l'Eredivisie juste autour du coin
Hengda doubler l'aide étrangère chassait Pato? Il a cité le plus fort! Ancien entraîneur super: une lutte asymétrique
Cangshan Erhai vue de l'anneau tournée l'ancienne ville de Dali impression avec le jeu de Harvard F5
Roi de gloire édition d'outre-mer des Jeux asiatiques par l'équipe chinoise a remporté la première médaille d'or! Joueurs: Nous arrivons juste et championnat Collect
Interrompu vingt ans! Académie de l'Ajax a produit les trois derniers super-centre aux Pays-Bas
Chine CCTV5 en direct drame année de football! Luneng VS Hanoi FC, Gerdes PK plus Nanmei Xi
Et puis les oeufs, la pomme ou derrière les géants
Pas de sept ans démangeaisons Kai Chen marque le huitième anniversaire de « Butterfly » avant et après
Tencent visage dur juste positif leurs propres défauts et les fabricants mondiaux? Les joueurs dynamitées: la conscience!
Un attaquant plus fou que Balotelli: il a raté trois tirs au but dans un match et s'est cassé la jambe pour célébrer un but
Parti ne va pas la route noire et dure? paris Cui Kangxi Boateng? adolescent ou jour de printemps mains-tune