Les experts limitent la méthode des éléments Applications typiques: l'apprentissage en profondeur dans les problèmes de production de la parole | part résumera le texte académique

Lei Feng réseau AI Technology Review par: l'apprentissage en profondeur en 2006 après avoir émergé au cours des dernières années a fait du développement rapide de l'évolution des milieux universitaires et l'industrie ont connu une croissance exponentielle, ainsi que la technologie continue à mûrir, l'apprentissage profond domaine de la voix intelligente première force, et fait une série d'applications réussies.

La session de partage, le Lei Feng réseau invité à l'Institut d'automatisation de l'Académie chinoise des sciences, le Dr Liu Bin. Liu Bin, Institut Académie chinoise des sciences de l'automatisation Ph.D., premier yuans limiter les experts de l'algorithme de voix intelligente, l'Académie chinoise des sciences - la limite de yuans interaction intelligente noyau de laboratoire commun du personnel technique, a des documents publiés à plusieurs reprises en haut rencontre internationale, un certain nombre de brevets sur les champs de la parole et audio, il a une grande expérience de l'ingénierie. Le Dr Liu Bin partagera de nouvelles façons au cours des dernières années, l'apprentissage en profondeur des problèmes de production de la parole avec vous et d'améliorer deux problèmes typiques entourant la synthèse vocale d'introduction et déplier la parole.

Lei Feng réseau AI Technology Review le résumé de la présentation sont résumées comme suit. Vous voulez en savoir plus sur les lecteurs peuvent regarder la vidéo à la fin du texte, vous pouvez également trouver des informations pertinentes pour améliorer la compréhension sous la direction du Dr Liu Bin.

Liu Bin: tout le monde Bonjour. Ces dernières années, le développement de l'apprentissage profond est très chaud, dans le monde universitaire et de l'industrie, il existe de nombreuses réalisations et applications. étude approfondie dans le domaine de la voix a atterri permet de résoudre de nombreux problèmes, synthèse de la parole, amélioration de la parole, la conversion de la parole, l'extension de la bande passante de la parole, et ainsi de suite. Aujourd'hui, nous nous concentrons sur l'explication de la synthèse de la parole et de l'amélioration de la parole sous deux problèmes.

Synthèse vocale

Les objectifs de travail de la parole de la saisie de texte à la conversion des caractéristiques acoustiques. Avant la voix de la génération, du texte, vous devez d'abord être analysé de pré-traitement, qui régularisation des nombres et des symboles spéciaux, la conversion de caractères sonore pour plus d'une prononciation, le rythme, le traitement de cadence afin que produit la voix, il y a un sens du rythme, puis de générer backend. Il y a des paramètres statistiques de modélisation du traitement acoustique vocodeur couramment méthode utilisée.

Tel est le cadre traditionnel basé sur Hidden Markov (HMM de) système de synthèse vocale des paramètres statistiques, le texte des paramètres pour établir la correspondance entre les paramètres audio pendant la formation. Il y a trois aspects de la qualité de la voix conduiront à un déclin: le regroupement des arbres de décision, la voix vocodeur Régénérer et algorithme de génération de paramètres dynamiques. Pour ces trois problèmes, il a été proposé d'améliorer la méthode d'apprentissage en profondeur.

La méthode d'apprentissage en profondeur, le réseau de neurones au lieu du rôle des arbres de décision, d'établir des relations entre les caractéristiques acoustiques et les caractéristiques de texte, améliore la précision du modèle. Pour le modèle particulier de la structure, il a plus forte DBN LSTM que la capacité d'apprentissage de la séquence, il peut souvent être sautée lors de l'utilisation algorithme de génération de paramètres LSTM, les paramètres vocaux de prédiction directe, puis envoyée au vocodeur dans la voix peut être générée. Profondeur de puissantes capacités de modélisation des réseaux de neurones non linéaires peuvent améliorer les performances du système de la parole dans une certaine mesure.

L'an dernier, ou deux, il y a une nouvelle méthode de synthèse vocale dans l'industrie, comme base voix WavNet synthèse. Ceci est une méthode de traitement d'un problème de démarrer la parole du point de vue du domaine temporel (la taille de valeurs d'échantillons acoustiques à des moments différents), le problème contester elle-même, procédé conventionnel sont du domaine des fréquences (onde sonore basse fréquence à des moments différents) a. WavNet Google a proposé d'établir une correspondance directe entre les valeurs des échantillons du texte des paramètres et des ondes sonores. Son principal problème est, seule la valeur de sortie de chaque point d'échantillonnage unique, ce qui entraîne le calcul lente, l'efficacité de production est faible.

Baidu DeepVoice également basé sur le système de production de parole, avec lequel une profondeur de la pluralité de modules de réseau de neurones et pour générer la parole similaire module WavNet. Il WavNet améliorer la vitesse de calcul, par rapport à environ 400 fois. Baidu puis encore étendre à DeepVoice2, la synthèse de la parole peut aider les personnes multi-langue, chaque personne n'a besoin que d'un minimum d'une demi-heure de données peuvent obtenir des résultats plus satisfaisants.

Google est introduit Tacotron relativement nouveau système de synthèse de la parole, qui est caractérisé par l'utilisation d'un codeur - structure de réseau du décodeur, et l'avantage est que la longueur de la séquence de sortie peut être entrée ne coïncide pas nécessairement, et introduit des mécanismes attentionnels, peut favoriser la performance. Structure comprend en outre un post-traitement dans le réseau. sortie réseau est un spectre, l'algorithme de reconstruction de phase peut être convertie en voix. Cette méthode évite le vocodeur dans le module qui peut améliorer la qualité de la voix

À l'heure actuelle, il y a certains aspects du problème de la synthèse de la parole n'est pas résolu, la majorité d'une seule méthode ou parler pour le peuple. Pour plusieurs haut-parleurs, l'effet de la parole multilingue est toujours pas idéal. méthodes d'apprentissage liées à la migration pour résoudre ces problèmes pourraient contribuer. En second lieu, la voix expressive sons maintenant généré par le système qui avait été insuffisante, en particulier synthétique parlé, l'effet diminuera.

amélioration vocale

amélioration de la reconnaissance vocale de la parole, des algorithmes de reconnaissance d'empreinte vocale, ce module de traitement frontal. Affecter le bien-fondé de son mode de reconnaissance ultérieure solide dans une certaine mesure. En fonction du nombre de microphones, l'amélioration de la voix peut être divisée en simple et amélioration de la parole d'amélioration de la parole multi-canal. une utilisation plus efficace multi-canal amélioration de la parole de la faible information sonore spatiale, les informations de son de la direction cible est améliorée pour supprimer la direction de la source d'interférence, les cibles, aujourd'hui à ces méthodes ne sont pas particulièrement décrit, les informations pertinentes d'intérêt se trouve dans la technologie de réseau de microphones.

La figure montre les quatre principales sources d'interférence, dans des conditions réelles peuvent exister en même temps, ce qui donne amélioration de la parole est une grande difficulté. Voici une méthode d'amélioration de la parole dans un environnement vocal unique canal.

méthodes d'amélioration de la parole-canal unique peut être divisé en trois catégories. étude approfondie basée sur la méthode d'amélioration de la parole fera la description détaillée suivante de certains. Voici la possibilité d'utiliser une étude approfondie de la modélisation non linéaire puissante, les avantages sont évidents dans l'environnement de correspondance, lorsqu'ils traitent avec le bruit non stationnaire a aussi certains avantages.

Ceci est une méthode de prédiction pour les paramètres spectraux directement par réseau de neurones profond, qui est le spectre d'amplitude des bruyantes d'entrée des caractéristiques liées à la parole, la sortie est le spectre d'amplitude des caractéristiques liées à la parole propre, et la relation de correspondance est établie entre les deux. La structure du réseau peut être DNN, peut être LSTM, ou même un CNN. De telles méthodes peuvent être capturer plus efficacement les informations de contexte, il présente certains avantages lorsqu'il s'agit de bruit non stationnaire.

réseau de neurones en profondeur peut également être utilisé pour prédire la valeur du masque. Dans de tels procédés, le modèle peut être entrée domaine audible fonctions liées, la sortie peut être une valeur de masque binaire dans le type de masque ou d'une valeur en virgule flottante. De telles méthodes en fonction des caractéristiques de la perception auditive de l'audio dans différents sous-bandes, des extraits du paramètre de fonction. Son effet pratique est déterminé dans l'unité de fréquence de contenu est le bruit ou de la parole, ou zéro énergie et la fréquence dans une cellule en fonction du résultat de la détermination de la rétention. L'avantage de ces méthodes est l'énergie au pic de résonance peut être bien conservé entre formants adjacentes, distorsion de la voix, bien qu'il creux en général, mais les êtres humains ne sont pas sensibles à ces informations, donc il y a encore relativement élevé intelligibilité.

Méthode conventionnelle se concentre sur le spectre d'amplitude du son, il n'y a pas utilisation de l'information sur le spectre de phase. réseau neuronal complexe est une sorte d'amplitude spectrale complexe en même temps l'utilisation du spectre et un procédé de spectre phase.

Il utilisent maintenant la formule contre la méthode d'amélioration de la parole du réseau. GAN sont chauds ce paradigme de l'année, actuellement utilisé dans le domaine de la parole est pas beaucoup, mais cette année, il a été proposé d'utiliser dans l'amélioration de la parole. Dans cet article, une méthode, une opération récursive n'est plus structure du réseau RNN nécessaire, l'audio d'origine peut être traitée directement bout à bout de façon sans fonctions d'extraction manuelle, ni les besoins d'hypothèses évidentes à faire sur les données brutes. Génération d'une structure à l'aide CNN, mais pas entièrement connecté couches, réduisant ainsi le nombre de paramètres du modèle, pour raccourcir le temps de formation; méthode de fin directement le signal de parole original traitement de transformer aussi évite, des processus complexes d'extraction de caractéristique sonore et analogues. Discriminateur jouent encore un rôle de guide des mises à jour du générateur.

À l'exception de quelques problèmes isolés en dehors de la principale méthode pour la suppression du bruit ambiant, la méthode PIT peut gérer deux ou plusieurs voix de l'orateur aliasing vient de parler. Un autre procédé de séparation des grappes de profondeur. Mais pour être utilisé dans un environnement réel, au bruit, la réverbération et d'autres questions doivent également tenir compte des questions distinctes ont encore de grandes difficultés.

problème des zones d'amélioration de la parole encore à résoudre à l'heure actuelle est de savoir comment améliorer l'intelligibilité de la parole tout en éliminant le bruit, le sens de l'ouïe (éviter la voix de fonction d'annulation lui-même), et, en tant que méthode d'amélioration vocale suivi de la reconnaissance vocale méthode d'identification de l'empreinte vocale le module de prétraitement, avant et après le coup de besoin raisonnable, et ne doit pas être tout à fait séparément conçu, de manière à améliorer la robustesse du système.

Enfin, pour le développement futur du domaine de la production de la parole, bien que beaucoup des problèmes de différentes méthodes de modélisation, mais a aussi beaucoup à apprendre de la part de l'autre, peut favoriser l'autre. Bien que l'apprentissage en profondeur est une méthode chaude, mais on ne peut attendre de résoudre tous les problèmes étude approfondie. En outre, il y a la signification physique de la première profondeur de cible de traitement de la compréhension, de trouver un modèle approprié sur cette base, le modèle est optimisé afin d'obtenir un meilleur effet de résoudre les problèmes.

lecture vidéo

La part de la lecture vidéo peut pousser ici.

Lei Feng réseau il y a beaucoup de CV, les termes PNL d'activités de partage, s'il vous plaît continuer à nous regarde!

Gree Gree Groupe a l'intention de transférer 15% de participation dans le côté blanc n'a pas encore été annoncé
Précédent
Services en ligne Membre Commutateur Détails: Les abonnés peuvent utiliser la poignée FC / NES
Prochain
15 ! Ils sont dans le feu, mais gelé « Iceman » ......
luxe pas cher SUV chargent également de façade début 200000 comment choisir?
tonnerre Jingmen et décharge de la grêle! Car tous les puits fracassé
« 24 Heures: renaissance impasse » réputation nationale nouvelles agressivement ouverts formes de films d'action
Ceci est une coentreprise de plusieurs petits SUV est la voiture de choix pour le mari nouvellement marié et la femme?
multiple vol de Nanjing annulé un vol a été frappé par la foudre
AET [original] à un capteur Bosch, ouvert vie intelligente
Intel Gaming layout début cur: des efforts inlassables, seulement avec les joueurs un peu plus
« Flash de la piste 4 » La décoration de DLC est trop « fou »
D'autres grattoir pendant que je lisais! Andrew Ng Ce livre est un cours obligatoire que vous entrez dans deeplearning.ai
Huben T310: première plate-forme d'architecture à puce quad-core à base LTE DynamIQ du monde
Pourquoi serrures intelligentes cher que serrure ordinaire? Il est vraiment facile à utiliser?