Les experts limitent la m�thode des �l�ments Applications typiques: l'apprentissage en profondeur dans les probl�mes de production de la parole

Lei Feng r�seau AI Technology Review par: l'apprentissage en profondeur en 2006 apr�s avoir �merg� au cours des derni�res ann�es a fait du d�veloppement rapide de l'�volution des milieux universitaires et l'industrie ont connu une croissance exponentielle, ainsi que la technologie continue � m�rir, l'apprentissage profond domaine de la voix intelligente premi�re force, et fait une s�rie d'applications r�ussies.

La session de partage, le Lei Feng r�seau invit� � l'Institut d'automatisation de l'Acad�mie chinoise des sciences, le Dr Liu Bin. Liu Bin, Institut Acad�mie chinoise des sciences de l'automatisation Ph.D., premier yuans limiter les experts de l'algorithme de voix intelligente, l'Acad�mie chinoise des sciences - la limite de yuans interaction intelligente noyau de laboratoire commun du personnel technique, a des documents publi�s � plusieurs reprises en haut rencontre internationale, un certain nombre de brevets sur les champs de la parole et audio, il a une grande exp�rience de l'ing�nierie. Le Dr Liu Bin partagera de nouvelles fa�ons au cours des derni�res ann�es, l'apprentissage en profondeur des probl�mes de production de la parole avec vous et d'am�liorer deux probl�mes typiques entourant la synth�se vocale d'introduction et d�plier la parole.

Lei Feng r�seau AI Technology Review le r�sum� de la pr�sentation sont r�sum�es comme suit. Vous voulez en savoir plus sur les lecteurs peuvent regarder la vid�o � la fin du texte, vous pouvez �galement trouver des informations pertinentes pour am�liorer la compr�hension sous la direction du Dr Liu Bin.

Liu Bin: tout le monde Bonjour. Ces derni�res ann�es, le d�veloppement de l'apprentissage profond est tr�s chaud, dans le monde universitaire et de l'industrie, il existe de nombreuses r�alisations et applications. �tude approfondie dans le domaine de la voix a atterri permet de r�soudre de nombreux probl�mes, synth�se de la parole, am�lioration de la parole, la conversion de la parole, l'extension de la bande passante de la parole, et ainsi de suite. Aujourd'hui, nous nous concentrons sur l'explication de la synth�se de la parole et de l'am�lioration de la parole sous deux probl�mes.

Synth�se vocale

Les objectifs de travail de la parole de la saisie de texte � la conversion des caract�ristiques acoustiques. Avant la voix de la g�n�ration, du texte, vous devez d'abord �tre analys� de pr�-traitement, qui r�gularisation des nombres et des symboles sp�ciaux, la conversion de caract�res sonore pour plus d'une prononciation, le rythme, le traitement de cadence afin que produit la voix, il y a un sens du rythme, puis de g�n�rer backend. Il y a des param�tres statistiques de mod�lisation du traitement acoustique vocodeur couramment m�thode utilis�e.

Tel est le cadre traditionnel bas� sur Hidden Markov (HMM de) syst�me de synth�se vocale des param�tres statistiques, le texte des param�tres pour �tablir la correspondance entre les param�tres audio pendant la formation. Il y a trois aspects de la qualit� de la voix conduiront � un d�clin: le regroupement des arbres de d�cision, la voix vocodeur R�g�n�rer et algorithme de g�n�ration de param�tres dynamiques. Pour ces trois probl�mes, il a �t� propos� d'am�liorer la m�thode d'apprentissage en profondeur.

La m�thode d'apprentissage en profondeur, le r�seau de neurones au lieu du r�le des arbres de d�cision, d'�tablir des relations entre les caract�ristiques acoustiques et les caract�ristiques de texte, am�liore la pr�cision du mod�le. Pour le mod�le particulier de la structure, il a plus forte DBN LSTM que la capacit� d'apprentissage de la s�quence, il peut souvent �tre saut�e lors de l'utilisation algorithme de g�n�ration de param�tres LSTM, les param�tres vocaux de pr�diction directe, puis envoy�e au vocodeur dans la voix peut �tre g�n�r�e. Profondeur de puissantes capacit�s de mod�lisation des r�seaux de neurones non lin�aires peuvent am�liorer les performances du syst�me de la parole dans une certaine mesure.

L'an dernier, ou deux, il y a une nouvelle m�thode de synth�se vocale dans l'industrie, comme base voix WavNet synth�se. Ceci est une m�thode de traitement d'un probl�me de d�marrer la parole du point de vue du domaine temporel (la taille de valeurs d'�chantillons acoustiques � des moments diff�rents), le probl�me contester elle-m�me, proc�d� conventionnel sont du domaine des fr�quences (onde sonore basse fr�quence � des moments diff�rents) a. WavNet Google a propos� d'�tablir une correspondance directe entre les valeurs des �chantillons du texte des param�tres et des ondes sonores. Son principal probl�me est, seule la valeur de sortie de chaque point d'�chantillonnage unique, ce qui entra�ne le calcul lente, l'efficacit� de production est faible.

Baidu DeepVoice �galement bas� sur le syst�me de production de parole, avec lequel une profondeur de la pluralit� de modules de r�seau de neurones et pour g�n�rer la parole similaire module WavNet. Il WavNet am�liorer la vitesse de calcul, par rapport � environ 400 fois. Baidu puis encore �tendre � DeepVoice2, la synth�se de la parole peut aider les personnes multi-langue, chaque personne n'a besoin que d'un minimum d'une demi-heure de donn�es peuvent obtenir des r�sultats plus satisfaisants.

Google est introduit Tacotron relativement nouveau syst�me de synth�se de la parole, qui est caract�ris� par l'utilisation d'un codeur - structure de r�seau du d�codeur, et l'avantage est que la longueur de la s�quence de sortie peut �tre entr�e ne co�ncide pas n�cessairement, et introduit des m�canismes attentionnels, peut favoriser la performance. Structure comprend en outre un post-traitement dans le r�seau. sortie r�seau est un spectre, l'algorithme de reconstruction de phase peut �tre convertie en voix. Cette m�thode �vite le vocodeur dans le module qui peut am�liorer la qualit� de la voix

� l'heure actuelle, il y a certains aspects du probl�me de la synth�se de la parole n'est pas r�solu, la majorit� d'une seule m�thode ou parler pour le peuple. Pour plusieurs haut-parleurs, l'effet de la parole multilingue est toujours pas id�al. m�thodes d'apprentissage li�es � la migration pour r�soudre ces probl�mes pourraient contribuer. En second lieu, la voix expressive sons maintenant g�n�r� par le syst�me qui avait �t� insuffisante, en particulier synth�tique parl�, l'effet diminuera.

am�lioration vocale

am�lioration de la reconnaissance vocale de la parole, des algorithmes de reconnaissance d'empreinte vocale, ce module de traitement frontal. Affecter le bien-fond� de son mode de reconnaissance ult�rieure solide dans une certaine mesure. En fonction du nombre de microphones, l'am�lioration de la voix peut �tre divis�e en simple et am�lioration de la parole d'am�lioration de la parole multi-canal. une utilisation plus efficace multi-canal am�lioration de la parole de la faible information sonore spatiale, les informations de son de la direction cible est am�lior�e pour supprimer la direction de la source d'interf�rence, les cibles, aujourd'hui � ces m�thodes ne sont pas particuli�rement d�crit, les informations pertinentes d'int�r�t se trouve dans la technologie de r�seau de microphones.

La figure montre les quatre principales sources d'interf�rence, dans des conditions r�elles peuvent exister en m�me temps, ce qui donne am�lioration de la parole est une grande difficult�. Voici une m�thode d'am�lioration de la parole dans un environnement vocal unique canal.

m�thodes d'am�lioration de la parole-canal unique peut �tre divis� en trois cat�gories. �tude approfondie bas�e sur la m�thode d'am�lioration de la parole fera la description d�taill�e suivante de certains. Voici la possibilit� d'utiliser une �tude approfondie de la mod�lisation non lin�aire puissante, les avantages sont �vidents dans l'environnement de correspondance, lorsqu'ils traitent avec le bruit non stationnaire a aussi certains avantages.

Ceci est une m�thode de pr�diction pour les param�tres spectraux directement par r�seau de neurones profond, qui est le spectre d'amplitude des bruyantes d'entr�e des caract�ristiques li�es � la parole, la sortie est le spectre d'amplitude des caract�ristiques li�es � la parole propre, et la relation de correspondance est �tablie entre les deux. La structure du r�seau peut �tre DNN, peut �tre LSTM, ou m�me un CNN. De telles m�thodes peuvent �tre capturer plus efficacement les informations de contexte, il pr�sente certains avantages lorsqu'il s'agit de bruit non stationnaire.

r�seau de neurones en profondeur peut �galement �tre utilis� pour pr�dire la valeur du masque. Dans de tels proc�d�s, le mod�le peut �tre entr�e domaine audible fonctions li�es, la sortie peut �tre une valeur de masque binaire dans le type de masque ou d'une valeur en virgule flottante. De telles m�thodes en fonction des caract�ristiques de la perception auditive de l'audio dans diff�rents sous-bandes, des extraits du param�tre de fonction. Son effet pratique est d�termin� dans l'unit� de fr�quence de contenu est le bruit ou de la parole, ou z�ro �nergie et la fr�quence dans une cellule en fonction du r�sultat de la d�termination de la r�tention. L'avantage de ces m�thodes est l'�nergie au pic de r�sonance peut �tre bien conserv� entre formants adjacentes, distorsion de la voix, bien qu'il creux en g�n�ral, mais les �tres humains ne sont pas sensibles � ces informations, donc il y a encore relativement �lev� intelligibilit�.

M�thode conventionnelle se concentre sur le spectre d'amplitude du son, il n'y a pas utilisation de l'information sur le spectre de phase. r�seau neuronal complexe est une sorte d'amplitude spectrale complexe en m�me temps l'utilisation du spectre et un proc�d� de spectre phase.

Il utilisent maintenant la formule contre la m�thode d'am�lioration de la parole du r�seau. GAN sont chauds ce paradigme de l'ann�e, actuellement utilis� dans le domaine de la parole est pas beaucoup, mais cette ann�e, il a �t� propos� d'utiliser dans l'am�lioration de la parole. Dans cet article, une m�thode, une op�ration r�cursive n'est plus structure du r�seau RNN n�cessaire, l'audio d'origine peut �tre trait�e directement bout � bout de fa�on sans fonctions d'extraction manuelle, ni les besoins d'hypoth�ses �videntes � faire sur les donn�es brutes. G�n�ration d'une structure � l'aide CNN, mais pas enti�rement connect� couches, r�duisant ainsi le nombre de param�tres du mod�le, pour raccourcir le temps de formation; m�thode de fin directement le signal de parole original traitement de transformer aussi �vite, des processus complexes d'extraction de caract�ristique sonore et analogues. Discriminateur jouent encore un r�le de guide des mises � jour du g�n�rateur.

� l'exception de quelques probl�mes isol�s en dehors de la principale m�thode pour la suppression du bruit ambiant, la m�thode PIT peut g�rer deux ou plusieurs voix de l'orateur aliasing vient de parler. Un autre proc�d� de s�paration des grappes de profondeur. Mais pour �tre utilis� dans un environnement r�el, au bruit, la r�verb�ration et d'autres questions doivent �galement tenir compte des questions distinctes ont encore de grandes difficult�s.

probl�me des zones d'am�lioration de la parole encore � r�soudre � l'heure actuelle est de savoir comment am�liorer l'intelligibilit� de la parole tout en �liminant le bruit, le sens de l'ou�e (�viter la voix de fonction d'annulation lui-m�me), et, en tant que m�thode d'am�lioration vocale suivi de la reconnaissance vocale m�thode d'identification de l'empreinte vocale le module de pr�traitement, avant et apr�s le coup de besoin raisonnable, et ne doit pas �tre tout � fait s�par�ment con�u, de mani�re � am�liorer la robustesse du syst�me.

Enfin, pour le d�veloppement futur du domaine de la production de la parole, bien que beaucoup des probl�mes de diff�rentes m�thodes de mod�lisation, mais a aussi beaucoup � apprendre de la part de l'autre, peut favoriser l'autre. Bien que l'apprentissage en profondeur est une m�thode chaude, mais on ne peut attendre de r�soudre tous les probl�mes �tude approfondie. En outre, il y a la signification physique de la premi�re profondeur de cible de traitement de la compr�hension, de trouver un mod�le appropri� sur cette base, le mod�le est optimis� afin d'obtenir un meilleur effet de r�soudre les probl�mes.

lecture vid�o

La part de la lecture vid�o peut pousser ici.

Lei Feng r�seau il y a beaucoup de CV, les termes PNL d'activit�s de partage, s'il vous pla�t continuer � nous regarde!

Route de la soie

Apprenez � conna�tre la Chine

Les experts limitent la m�thode des �l�ments Applications typiques: l'apprentissage en profondeur dans les probl�mes de production de la parole | part r�sumera le texte acad�mique

Synth�se vocale

am�lioration vocale

lecture vid�o