Exclusive | lire une reconnaissance vocale de texte (Ressources d'apprentissage ci-joint)

I. introduction

27 juin, le magazine am�ricain Science et technologie � MIT Technology Review � publi� plus intelligent 2017 liste 50 soci�t�s du monde. IFLYTEK premier rang en Chine, la sixi�me du monde. Monde en termes IFLYTEK entreprises avant sont: NVIDIA, Spacex, Amazon, 23andMe, Alphabet. � MIT Technology Review, � que � l'assistant vocal de IFLYTEK est la version chinoise de Siri, qui peut transporter traducteur en temps r�el est une application exceptionnelle de l'intelligence artificielle pour surmonter le dialecte, l'argot et le bruit de fond, peut-il �tre chinois pr�cis traduits en une douzaine de langues. part de march� de la technologie de la parole iFLYTEK en Chine de 70 pour cent. � de plus en plus de gens croient que la reconnaissance vocale deviendra une technologie cl� de la prochaine g�n�ration de la r�volution interactive.

En m�me temps, dans la vie de tous les jours, nous sommes habitu�s � un tel assistant vocal Siri ou Cortana nous aider � r�soudre quelques petits probl�mes dans certains cas sp�cifiques, tels que le d�veloppement de tous les jours cette semaine, une br�ve r�ponse un message � d'autres lors de la conduite, etc. Cependant, dans la plupart des cas, l'utilisation de l'assistant vocal est pas �lev�, selon la firme de recherche CreativeStrategies - 62% des utilisateurs d'Android ont jamais utilis� assistant vocal, un chiffre que les utilisateurs d'Apple est de 70%. La technologie de reconnaissance vocale n'est pas assez avanc�e, ou les gens ne assistant vocal pas besoin? Le succ�s d'Amazon Echo peut me donner un peu d'inspiration.

Amazon Echo est amazon en Novembre 2014 a lanc� un assistant vocal de famille, peut atteindre, y compris les achats, le contr�le intelligent de la maison, la lecture Kindle, r�servation Uber, le suivi (amazon) livraison, commander une pizza, le calendrier, l'arithm�tique, la musique de jeu, trouver t�l�phone, pluie imitate et ainsi de nombreuses fonctionnalit�s, une fois mis en place pour enflammer l'enthousiasme du march�, selon les institutions de recherche �trang�res aux statistiques, en 2015 les ventes Echo d'environ 1,7 millions d'unit�s en 2016 ont atteint 650 millions d'unit�s, et � partir de 2017 en Janvier, les ventes mondiales d'Amazon Echo ont plus de 7 millions d'unit�s, il est pr�vu cette ann�e d�passera 11 millions d'unit�s. Selon le rapport de eMarketer, le march� du haut-parleur du renseignement am�ricain, Amazon Echo occupent plus de 70% des parts de march�.

Aussi assistant vocal, Siri pourquoi Echo et la situation est si diff�rente alors, certains chercheurs croient que ce sont principalement deux produits diff�rents en utilisant l'environnement caus�s. Pour la plupart des gens, sur t�l�phone portable en public, devant un robot pour parler non seulement le manque d'intimit�, tout en un peu malade, et dans la famille, le visage de la famille et les amis, cela peut �tre �vit� efficacement, tout en environnement calme plus efficace d'am�liorer la rapidit� et la pr�cision de la reconnaissance de la machine, on croit, Amazon Echo coup� pr�cis�ment sur le march�. Cependant, d'autres g�ants sont des gens qui ne veulent pas, ont lanc� leur propre assistant vocal intelligent famille: Apple a lanc� le pod Home, et a �galement introduit une maison de google google il semble, il a �t� une voix de la guerre Temp�te.

En deuxi�me lieu, les principes de base de la reconnaissance vocale

La reconnaissance de la voix que l'on appelle, un signal vocal est converti en informations textuelles correspondantes, le syst�me comprend principalement une extraction de caract�ristiques, un mod�le acoustique, le mod�le de langue et un dictionnaire et les d�cod�es quatre parties, dans lequel, afin d'extraire plus efficacement la caract�ristique assez souvent que l'recueilli le signal de bruit est filtr�, le cadrage et l'autre pr�-traitement, le signal � analyser est extraite du signal d'origine, puis, les extractions de caract�ristiques signal sonore � partir du domaine temporel au domaine de fr�quence pour fournir un mod�le acoustique appropri� du vecteur de caract�ristique; chaque vecteur caract�ristique de score sur les caract�ristiques acoustiques d'un mod�le acoustique et calcule ensuite les caract�ristiques acoustiques, selon le mod�le de langage est la th�orie linguistique associ�e, l'expression possible correspondant au calcul de probabilit� de s�quence de signal vocal; Enfin, selon le dictionnaire existant des phrases d�codage de la s�quence peut g�n�rer une repr�sentation de texte final.

1. pr�traitement du signal acoustique

En principe et la reconnaissance vocale de base, des signaux vocaux pr�-traitement est essentiel. Lorsque la mise en correspondance de mod�le finale, la caract�ristique du signal de parole d'entr�e est un param�tre avec les param�tres caract�ristiques sont compar�es dans la biblioth�que de mod�les, par cons�quent, possible d'obtenir des param�tres caract�ristiques caract�risant les caract�ristiques essentielles de l'�tape de pr�-traitement du signal de parole, il est possible de ces param�tres caract�ristiques taux de reconnaissance de la reconnaissance de la parole correspondant.

En premier lieu, la n�cessit� d'un processus de filtrage signal sonore et d'�chantillonnage afin d'exclure signal d'interf�rence et une fr�quence de 50 Hz la fr�quence actuelle de parole non humain, le proc�d� est typiquement un filtre passe-bande, le r�glage du filtre de fr�quence bague sup�rieure et inf�rieure, puis signal liss� apr�s la partie de fr�quence requise et � basse fr�quence de la section d'engagement, de sorte que le spectre peut �tre r�solu en m�me SNR, une telle analyse est plus commode;; la mise en oeuvre quantifi�es signal discret d'origine cadrage fen�trage se fait au signal de domaine de fr�quence d'origine ayant une courte p�riode de temps variant stationnaire caract�ristique, � savoir un signal continu dans une partie stable ind�pendante de domaine de fr�quence avec diff�rentes longueurs fen�tre d'acquisition pour l'analyse, ce proc�d� est principalement pr�accentuation la technologie, et enfin le travail de d�tection point d'extr�mit� est requis, � savoir pour les points de d�but et de fin du signal de parole d'entr�e jug�es correctement, principalement gr�ce � l'�nergie � court terme (amplitude signal variant dans le m�me cadre) avec le taux de passage � z�ro en moyenne de courte dur�e (dans le m�me cadre apr�s des temps d'�chantillonnage le signal � z�ro), la d�termination est effectu�e sensiblement, se r�f�rer sp�cifiquement � la fin de la r�f�rence [ DOCUMENT.

2. extraction de caract�ristiques acoustiques

Apr�s l'ach�vement du signal pr�-trait�, l'ensemble du processus est caract�ristiques cruciales op�ration d'extraction subs�quente. La forme d'onde d'origine permet d'identifier et d'obtenir de bons r�sultats de reconnaissance, apr�s le domaine de fr�quence transform� pour caract�ristique extraite d'identifier les param�tres et les param�tres des fonctions de reconnaissance vocale peuvent �tre utilis�s doivent r�pondre aux points suivants:

param�tres caract�ristiques peuvent essayer de d�crire les caract�ristiques fondamentales de la parole;
Les param�tres � minimiser le couplage entre les composants, pour comprimer les donn�es;
Devrait rendre le processus de calcul plus simple des param�tres caract�ristiques de l'algorithme est plus efficace. Pitch, param�tres de pic de r�sonance peut �tre utilis�e en tant que param�tres caract�ristiques repr�sentant les caract�ristiques de la parole.

Actuellement, les param�tres caract�ristiques des organismes de recherche traditionnels les plus couramment utilis�s sont les suivants: pr�diction lin�aire cepstrale Coefficients (LPCC) et Mel cepstrale Coefficients (MFCC). Deux types de param�tres caract�ristiques de l'op�ration sur le signal vocal domaine de cepstre, l'ancien mod�le de l'�nonc� comme point de d�part, la technologie et l'utilisation des coefficients cepstraux LPC. La simulation de mod�le auditif celui-ci, le mod�le de groupe de la parole par l'interm�diaire du filtre de sortie en tant que caract�ristiques acoustiques, et en utilisant une transform�e de Fourier discr�te (DFT) transform�es.

Le pas soi-disant, un moyen de fr�quence de vibration de pliage vocales (fr�quence fondamentale) du cycle de vibration, parce qu'il est possible de caract�riser efficacement les caract�ristiques du signal de parole, donc de la reconnaissance vocale de d�marrage initial, le point de d�tection de hauteur est une �tude critique, le formant ce qu'on appelle se r�f�re � la r�gion de l'�nergie du signal de parole est concentr�e, caract�ris� parce que les caract�ristiques physiques du canal, et est un d�terminant majeur de la condition de param�tre de qualit� de la prononciation, par cons�quent, �galement caract�ristique tr�s importante. Les d�tails de la fois la m�thode d'extraction des param�tres caract�ristiques et la LPCC dominante actuelle, les m�thodes MFCC autres d�tails ne sont pas r�p�t�es ici, vous pouvez vous r�f�rer � la fin du texte [R�f�rence]. En outre, il y a aussi beaucoup de chercheurs ont commenc� � �tudier en profondeur les m�thodes utilis�es dans l'extraction de caract�ristiques, a fait des progr�s rapides, cette partie sera introduite en d�tail au chapitre 3.

3. mod�le acoustique

Le mod�le acoustique est un syst�me de reconnaissance de parole d'un �l�ment tr�s important, la capacit� de faire la distinction entre les diff�rentes unit�s de base est directement li�e � la qualit� du r�sultat de reconnaissance. La reconnaissance vocale est essentiellement un processus de reconnaissance des formes, la question fondamentale est la classification des d�cisions de reconnaissance et de classification mod�le.

En r�gle g�n�rale, dans les mots isol�s, petit vocabulaire de reconnaissance dynamique temps classificateurs (DTW) ont de bons r�sultats de reconnaissance, et la vitesse de reconnaissance, les frais g�n�raux du syst�me est faible, la reconnaissance vocale est algorithme de correspondance tr�s r�ussie. Cependant, un grand vocabulaire, la reconnaissance vocale ind�pendante du locuteur lorsque, l'effet de reconnaissance DTW sera une forte baisse, cette fois en utilisant un mod�le de Markov cach� (HMM) form�s � reconna�tre l'effet sera am�lior�e de mani�re significative, �tant donn� que la reconnaissance vocale classique g�n�ralement continue mod�le de m�lange gaussien GMM � la fonction de caract�risation de densit� de sortie d'�tat, que l'on appelle cadre GMM-HMM.

Pendant ce temps, avec le d�veloppement de la profondeur de l'apprentissage, le r�seau de neurones est accompli par la profondeur du mod�le acoustique, un soi-disant cadre DNN-HMM pour remplacer le cadre GMM-HMM traditionnel, dans la reconnaissance vocale a �galement obtenu de bons r�sultats, le premier le chapitre 3 pr�sente, pour le premier mod�le de m�lange de gaussiennes chapitre - introduit la th�orie de base du mod�le de Markov cach� (GMM-HMM) est.

3,1 mod�le de m�lange gaussien

Pour un vecteur al�atoire x, si elle est conforme � l'�quation de la fonction de densit� de probabilit� conjointe 9/2, il est dit d'ob�ir � la distribution gaussienne, et appel� x ~ N (, ).

Dans lequel, est la distribution souhait�e, est la matrice de covariance de la distribution. distribution gaussienne a une forte capacit� � se rapprocher des donn�es r�elles, mais aussi facile � calculer, il est largement appliqu� dans diverses disciplines. Cependant, il y a encore beaucoup de types de donn�es ne sont pas d�crites par une distribution gaussienne. � ce moment, nous pouvons d�crire ces distribution de donn�es � l'aide d'une distribution gaussienne multiples mixtes, une pluralit� de composants responsables de diff�rentes sources de donn�es potentielles, respectivement. A cette �poque, conform�ment � la fonction de densit� variable al�atoire.

Dans lequel, M �tant le nombre de composants, il est g�n�ralement d�termin�e par la taille du probl�me.

Nous croyons que la personne concern�e, ledit mod�le de distribution gaussienne mixte utilis� pour le mod�le de m�lange de gaussiennes. mod�le gaussien de m�lange est largement utilis� dans de nombreux syst�mes de reconnaissance vocale de mod�le acoustique. Compte tenu du nombre de dimensions dans le vecteur de reconnaissance de la parole est relativement importante, nous supposons distribution gaussienne normalement covariance matrice m mixte est une matrice diagonale. Cela permettra non seulement de r�duire consid�rablement le nombre de param�tres, et peut am�liorer le calcul de l'efficacit�.

Utiliser le mod�le de m�lange de gaussiennes a plusieurs avantages pour le mod�le de vecteur de caract�ristiques � court terme: Tout d'abord, le mod�le de m�lange de gaussiennes a une forte capacit� de mod�lisation, aussi longtemps que le nombre total de suffisamment de composants, le mod�le de m�lange gaussien peut �tre une pr�cision arbitraire pour se rapprocher d'une distribution de probabilit� fonction, en plus, l'algorithme EM peut �tre facilement converg� sur le mod�le aux donn�es de formation. Pour la vitesse de calcul et surajustement et d'autres questions, il a �galement d�velopp� un GMM et sous-espace mod�le gaussien m�lange param�tres (sous-espace GMM) li�s � r�soudre. En plus d'utiliser l'algorithme EM pour l'ext�rieur d'estimation du maximum de vraisemblance, on peut aussi utiliser la fonction d'erreur et les mots discriminants ou taux d'erreur de phon�me est directement li�e � la formation d'un mod�le de m�lange de gaussiennes, peut grandement am�liorer les performances du syst�me. Ainsi, jusqu'� ce que la profondeur de appara�t la technologie des r�seaux de neurones dans le mod�le acoustique, un mod�le de m�lange de gaussiennes a �t� le choix des vecteurs de caract�ristiques de mod�lisation � court terme.

Cependant, un m�lange de gaussiennes mod�le a �galement un s�rieux inconv�nient: mod�le de m�lange de gaussiennes pour un espace vectoriel � proximit� du collecteur non lin�aire sur la capacit� de mod�lisation des donn�es (collecteur) tr�s faible. Par exemple, supposons que certaines des donn�es sont distribu�es sur les deux c�t�s d'une surface sph�rique, et est tr�s proche sph�rique. Si vous utilisez un mod�le de classification appropri�, nous pouvons seulement besoin quelques param�tres que vous pouvez s�parer la zone de donn�es des deux c�t�s de la sph�re. Cependant, si un mod�le de m�lange de gaussiennes illustrant leur r�partition r�elle, nous devons �tre tr�s bien une composante de distribution gaussienne d�crit avec suffisamment de pr�cision. Ce mod�le nous pousse � rechercher une utilisation plus efficace de la classification des informations vocales.

3.2 Les mod�les de Markov cach�s

Nous consid�rons maintenant une s�quence al�atoire de discr�te, si la probabilit� de transition en conformit� avec la propri�t� de Markov, et l'�tat sera bient�t pass� �tat ind�pendant, il revendiqu�e comme une cha�ne de Markov (Markov Chain). Si la probabilit� de transition et ind�pendante du temps, il revendiqu�e comme cha�ne de Markov homog�ne (homog�ne). Bon �tat Markov de sortie et de la correspondance pr�d�finie, pour un �tat donn�, la sortie est observ�e, il n'y a pas al�atoire. Si l'on prolonge la sortie, la sortie de chaque cha�ne de Markov d'�tat est une fonction de distribution de probabilit�. Dans ce cas, la cha�ne de Markov d'�tat ne peut pas �tre directement observ�e, ne peut changer les impacts en ligne avec d'autres variables pour estimer la distribution de probabilit� par le biais d'un Etat. Nous appelons cela le mod�le de Markov cach� � des hypoth�ses de s�quence de donn�es mod�le pour le mod�le de Markov cach�s.

Correspond � un syst�me de reconnaissance vocale, on utilise un mod�le de Markov cach� pour d�crire un changement d'�tat interne sous-phon�me, dans lequel la s�quence de r�soudre le probl�me de la relation de correspondance entre la pluralit� d'unit�s de parole de base.

mod�le de probabilit� sur une p�riode d'un morceau de la parole � l'aide calcul�e mod�les de Markov cach�s dans la t�che de reconnaissance vocale. Et dans la formation, nous avons besoin d'utiliser l'algorithme Baum-Welch Param�tres d'apprentissage mod�les de Markov cach�s, estimation du maximum de vraisemblance (Maximum Likelihood Estimation, MLE). Baum-Welch algorithme est un cas particulier de l'EM (Expectation-Maximization) algorithme, avant et apr�s l'utilisation de l'�l�ment d'information de probabilit� calcul�e s�quentiellement de fa�on it�rative une condition souhait�e de l'�tape les �tapes E et M d'optimiser les conditions souhait�es.

4. Mod�le Langue

Le principal mod�le de langage est utilis� pour d�crire la fa�on dont l'expression du langage humain, en mettant l'accent sur la description du lien intrins�que entre les mots sur la structure de l'arrangement. Dans le processus de d�codage de reconnaissance vocale, le transfert du son dans le dictionnaire de r�f�rence de mot, le transfert de mod�le de r�f�rence linguistique entre le mot, le bon mod�le de langage pour decode non seulement d'am�liorer l'efficacit�, mais aussi d'am�liorer le taux de reconnaissance dans une certaine mesure. Le mod�le de langage en deux cat�gories r�gle mod�le et des mod�les statistiques, mod�le de langage statistique en utilisant des m�thodes statistiques pour caract�riser la probabilit� inh�rente des lois statistiques des unit�s linguistiques, simples et bons r�sultats pratiques et obtenus de sa conception, il a �t� largement utilis� pour la reconnaissance vocale, la machine traduction, reconnaissance des �motions.

Le plus simple et pourtant les mod�les de langues les plus couramment utilis�s sont le mod�le de langage N-gramme (N-gramme Langue mod�le, N-gramme LM). mod�le de langage N-gramme suppos� que le courant dans un environnement donn� ci-dessus, seule la probabilit� courante associ�e au mot devant des mots N-1. Ainsi, une s�quence de mots W1, ..., Wm de la probabilit� P (w1, ..., Wm) peut �tre approch�e en tant que

Afin d'obtenir tous les mots dans la formule de probabilit� donn�e ci-dessus, nous avons besoin d'une certaine quantit� de texte dans la langue � estimer. Les mots peuvent �tre directement au-dessus contenant tous les mots ci-dessus probabilit� est calcul�e dans l'exemple comparatif, � savoir,

Pour les mots dans le texte ne semble pas, nous devons �tre estim�s � l'aide d'une m�thode de lissage, ou estim� que le lissage Bon-Kneser-Ney Turing.

Le d�codage Dictionnaire

Le d�codeur est un composant essentiel de la phase de reconnaissance, par d�codage de parole du mod�le form�, pour obtenir la s�quence la plus probable de mots, la g�n�ration d'une identification ou d'un maillage (Lattice) Le r�sultat de reconnaissance composant interm�diaire pour un traitement ult�rieur. Le d�codeur d'algorithme de base fait partie de l'algorithme de programmation dynamique Viterbi. Parce que le d�codage tr�s grand espace, nous utilisons g�n�ralement la m�thode de passage de jeton largeur de recherche d�fini (passage de jeton) dans l'application pratique.

d�codeur classique g�n�r� dynamiquement (graphique de d�codage) compl�tement d�cod�, l'outil de reconnaissance vocale connu sous le nom HTK (HMM outil Kit) Hvite HDecode et analogues. Une telle atteindre une plus petite empreinte, mais compte tenu de la complexit� des diff�rents composants, le flux de l'ensemble du syst�me encombrant, peu pratique pour mod�le de langage efficace se lier et un mod�le acoustique, bien que plus difficile � d�velopper. Maintenant, le courant d�codeur transducteur d'�tat fini de mise en uvre (Finite State Transducer, FST) sera utilis�e dans une certaine mesure comme un d�codeur de pr�-charge statique de pr�-g�n�r� de la Fig. Ici mod�le de langage, nous pouvons (G), le vocabulaire (L), des informations contextuelles (C), le mod�le de Markov cach� (H) parties sont construites en quatre transducteur standard �tats finis, et par �tat fini norme convertisseur les actionnent combin�s pour construire un sous-�tat du contexte li� au convertisseur de phon�me mot. Ces autres m�thodes utilis�es pour atteindre un certain nombre d'espace m�moire, mais la s�quence d'instructions pour que le d�codeur devient plus ordonn�e, de sorte qu'une construction efficace du d�codeur plus facile. En m�me temps, nous pouvons �tre pr�-optimis� pr�construites transducteur �tat fini, fusion et couper la partie inutile de sorte que l'espace de recherche devient plus raisonnable.

R�sum�:

Dans le pass�, l'utilisation la plus populaire des syst�mes de reconnaissance vocale g�n�ralement MFCC mel coefficients cepstraux ou conversion spectrale relative - pr�diction lin�aire perceptive RASTA-PLP, en tant que vecteur de caract�ristiques, en utilisant un mod�le de m�lange gaussien - mod�les de Markov cach�s comme mod�le acoustique GMM-HMM, le crit�re du maximum de vraisemblance, ML et de l'algorithme de maximisation de l'esp�rance de former ces mod�les.

En troisi�me lieu, la fronti�re de reconnaissance vocale

Retour dans les ann�es quatre-vingt, il y a des chercheurs qui utilisent un r�seau de neurones en tant que classificateur en reconnaissance de la langue. Mais a �t� limit� par la puissance de calcul de la machine, les donn�es vocales rares, et la s�lection de l'unit� de base de la mod�lisation de la parole, entre autres facteurs, et classificateur de r�seau de neurones plus tard est devenu le syst�me de reconnaissance vocale grand public, aussi efficace que d'un m�lange gaussien Mod�le . Mais comme le nouveau si�cle, une nouvelle prise de conscience du r�seau de neurones, balay� � nouveau une vague d'apprentissage en profondeur de la communaut� de la parole, les gens se sont tourn�s vers l'�tude de la profondeur des applications de r�seau de neurones dans la reconnaissance vocale. La profondeur du mod�le de r�seau de neurones est de distinguer (discriminantes) mod�les pour distinguer l'unit� de base diff�rente de cette t�che, il aura besoin d'un mod�le de param�tre de mod�le description compl�te de la production de la distribution (g�n�rative) mod�le gaussien de m�lange n�cessite relativement moins, plus facilement disponibles de bons r�sultats.

Avec l'apprentissage profond chaud des concepts importants tels que le r�seau de neurones artificiels ANN, convolution r�seau de neurones CNN et back-propagation importante BP, nous avons d�j� connu, ce ne sera pas r�p�t� ici.

1. Etude de la profondeur d'extraction de caract�ristiques acoustiques

La m�thode la plus simple d'application de r�seaux de neurones dans un syst�me HMM-GMM classique consiste � utiliser des r�seaux de neurones pour l'apprentissage de la fonction. Ces m�thodes ne modifient pas le cadre actuel de la reconnaissance vocale, le syst�me peut am�liorer les performances sur la base du syst�me ne change pas.

En utilisant l'algorithme d'extraction de caract�ristiques de la parole classique (comme MFCC ou PLP) caract�ristiques extraites d'un seul effet de signal de trame, il est pas bien couvert par des informations de parole active, mais aussi sensibles � la pollution sonore. Pour les caract�ristiques d'un discours d'apprentissage et la reconnaissance vocale est concern�, cet objectif peut se r�sumer comme l'utilisation des caract�ristiques spectrales de l'original ou l'utilisation des caract�ristiques de forme d'onde. Au cours des 30 derni�res ann�es, bien que le spectre de la parole � transformer des informations manquantes des donn�es vocales d'origine, mais plus � fait main � dispose d'un �norme coup de pouce pour promouvoir le syst�me taux de reconnaissance GMM-HMM. L'un des plus grands succ�s transform�e en cosinus non-adaptative, qui favorise la g�n�ration de fonction MFCC. Environ transform�e en cosinus supprime la corr�lation entre les composantes caract�ristiques, il est important matrice de covariance diagonale GMM � utiliser pour le. Cependant, apr�s que la profondeur du mod�le d'apprentissage variante du mod�le GMM, de telle sorte que le retrait de la corr�lation entre les caract�ristiques devient sans objet.

En utilisant l'extraction de caract�ristiques DNN, il y a deux id�es communes: Le premier est le goulot d'�tranglement caract�ristique (bottlenec, BN). Nous devons construire une forme de goulot d'�tranglement du r�seau de neurones, dans lequel il y a une couche cach�e de dimensions relativement plus petites que de nombreuses autres dimensions de la couche cach�e. Ensuite, nous pouvons soit utiliser l'auto-codeur (codeur automatique) du r�seau de formation non supervis�, peut �galement faire la cible de sortie la probabilit� post�rieure du r�seau pour l'�tat, la formation supervis�e par un algorithme BP. Apr�s la formation, la structure du r�seau du goulot d'�tranglement derri�re omis, le r�seau de sortie prend fonctions. BN caract�ristiques ainsi obtenues peuvent �tre consid�r�s comme caract�ristiques de transformation non lin�aire et la r�duction de la dimension. Lors de la construction d'un mod�le acoustique HMM-GMM, nous avons l'habitude BN caract�ristiques traditionnelles et d'autres � court terme des fonctionnalit�s telles que MFCC �piss� ensemble pour apprendre une entr�e mod�le HMM-GMM. Apr�s avoir travaill� la profondeur en utilisant une des caract�ristiques souvent utilis� r�seau de neurones pr�-form�s remplacer r�seau conventionnel BN peu profond en conjonction avec une m�thode de formation discriminante de la performance du syst�me a �t� grandement am�lior�e. Une autre m�thode d'apprentissage des fonctionnalit�s en utilisant la fonction tandem (Tandem). En fonctionnement, caract�ris� en tandem en utilisant un classifieur de r�seau neuronal est d'abord estim� probabilit� post�rieure d'un phon�me, alors le vecteur de sortie r�seau orthogonalisation effectu�e par ACP en tant qu'entr�e de syst�me caract�ristique HMM-GMM. Une telle m�thode tandem est mieux que l'effet direct de l'utilisation de mod�les de r�seaux de neurones et les normes GMM mod�le mixte. Sivadas et al dans la s�rie pr�sentent une structure hi�rarchique du r�seau de neurones unique d'origine pour remplacer une pluralit� de r�seaux neuronaux sont form�s pour avoir des fonctions diff�rentes mais organis� hi�rarchiquement ensemble. Cette m�thode est inf�rieure � la taille des param�tres originaux du temps de formation du r�seau de neurones unique est plus court, tout en obtenant de meilleures performances.

2. l'apprentissage en profondeur et la mod�lisation acoustique

Avec la profondeur du r�le des r�seaux de neurones dans la reconnaissance de la parole est une �tape par �tape creuser plus profond, l'utilisation directe du mod�le hybride HMM-DNN est devenu un meilleur choix. Dans le mod�le de m�lange HMM-DNN, une pluralit� de mod�les diff�rents �tats de GMM, nous avons utilis� par un r�seau de neurones � la place de la profondeur. Nous devons former un objectif de formation en profondeur du r�seau de neurones est d'estimer la probabilit� post�rieure des trames de parole d'entr�e dans chaque �tat de HMM, qui est P (qt = s | xt). Pour �tre en mesure d'estimer correctement la probabilit� a posteriori dans diff�rents �tats, nous avons g�n�ralement besoin par mod�le HMM-GMM et les informations existantes d'alignement forc� (force d'alignement) g�n�r� corpus de formation �tiquet�e comme une formation de r�seau cible. La qualit� de l'information est aussi largement forc� l'alignement form� HMM-DNN affectent la performance du syst�me d'un mod�le hybride, le travail des gens recyclent des informations d'alignement de g�n�ration HMM- en utilisant it�rativement le nouveau mod�le mixte HMM-DNN form�s DNN fa�on mod�le hybride pour am�liorer encore les performances du syst�me. En outre, on utilise souvent les caract�ristiques d'une pluralit� de trames adjacentes en r�seau neuronal composite que les caract�ristiques d'entr�e, une capacit� accrue � utiliser les informations de r�seau voisin.

3. Orientations futures de la recherche

�tude approfondie conjointement avec le syst�me de reconnaissance vocale actuellement utilis� HMM a obtenu de bons r�sultats de reconnaissance, tels que Baidu profonde reconnaissance vocale 2 phrases taux d'erreur de mot est tomb� � 3,7%, le taux d'erreur de mot de reconnaissance vocale Microsoft anglais atteint 5.9 %, et il a pouss� des applications commerciales, la reconnaissance vocale intelligente, mais il y a encore place � l'am�lioration.

Le premier Sommet mondial Machine Intelligence (GMIS 2017) Presque parrain� humain, directeur adjoint de Tencent AI Lab, Seattle Laboratoire d'intelligence artificielle, chef de Dong Yu a fait le th�me de la � recherche de pointe dans le domaine de la reconnaissance vocale � de la parole, � explorer nous avons partag� quatre questions de pointe dans le domaine de la reconnaissance vocale:

Une recherche: s�quence mod�le plus efficace � la s�quence de conversion directe

La reconnaissance vocale est en fait la s�quence de signal vocal en une s�quence de caract�res ou de mots, tant de gens pensent que pour r�soudre ce probl�me, de trouver une s�quence efficace, le mod�le de transformation de s�quence sur elle.

La plupart des �tudes ant�rieures faites en supposant que la question, la s�quence de signal de parole dans lequel plusieurs composants configur�s pour s�quence entre les mots, la s�quence de signal vocal en une s�quence de mots progressivement converti. De nombreuses parties de ces hypoth�ses, comme � court terme et supposent stable hypoth�se d'ind�pendance conditionnelle est raisonnable dans certaines situations, mais dans de nombreux sc�narios monde r�el est probl�matique. L'id�e derri�re la s�quence � la conversion directe du mod�le est que si l'on se d�barrasse de ces composants sont bas�s sur l'hypoth�se en question est con�ue, puis convertir le mod�le de donn�es de l'�cole de formation � remplacer, il est possible de trouver une meilleure fa�on, la s�quence en plus pr�cise. Un autre avantage de le faire est le processus de formation peut �tre simplifi�e.

Recherche II: probl�me de cocktail

Dans un environnement calme du syst�me de reconnaissance vocale est proche du niveau humain. � l'heure actuelle, il existe de nombreuses applications pratiques, mais le syst�me de reconnaissance vocale en cours dans une forte interf�rence du bruit est difficile � mettre aux exigences pratiques. Pour le syst�me auditif humain alors il y a un � effet cocktail party �, nous avons dans le cas d'interf�rence du bruit de fond peut se concentrer dans la conversation d'une personne, et la fonction de ce syst�me auditif humain est actuellement le syst�me de reconnaissance vocale est �galement difficile � r�aliser, les probl�mes seront pris en compte dans le micro champ lointain est plus �vidente, une approche possible consiste � utiliser un r�seau de microphones, en m�me temps du multi-angle positions multiples captur� signal audio pour renforcer l'effet de reconnaissance, mais cela ne peut �tre le plus excellente solution pour l'avenir gr�ce � d'autres recherches sur le cerveau peut conduire � l'inspiration pour nous.

direction de recherche III: mod�le de pr�diction et de l'adaptation continue

Dans le domaine de la reconnaissance vocale, la possibilit� de construire un syst�me de pr�vision a continu� � le faire? Cela continuera en fonction des r�sultats de reconnaissance existants afin d'identifier les am�liorations pour la prochaine fois, et maintenant en reconnaissance vocale, g�n�ralement ou juste faire une simple voix et la correspondance du texte de fa�on � identifier, pour l'utilisation de contact linguistique entre des informations sp�cifiques ou tr�s insuffisante, donc si vous pouvez construire un meilleur mod�le, il peut continuer � faire l'identification. Ce qu'il faut se caract�rise par elle? Adaptation on est capable de le faire tr�s rapidement, de sorte que la prochaine fois que faire la reconnaissance, nous avons une mani�re similaire � l'information comprim�e dans une meilleure fa�on dont le mod�le, la prochaine fois que vous pouvez faire une identification rapide.

directions de recherche quatre: avant et arri�re optimisation conjointe

Traditionnellement, la technique de traitement de signal d'extr�mit� avant utilise g�n�ralement un signal d'information de parole en l'�tat actuel. La machine m�thode d'apprentissage utilise beaucoup d'informations apprises dans le dispositif de formation, mais les informations rarement utilis�es du cadre actuel, il ne pas effectuer la mod�lisation des donn�es, nous avons donc aucun moyen de comparer ces deux m�thodes bien ensemble, c'est une direction, la force actuelle de nombreux organismes de recherche.

De plus, nous avons aucun moyen de mieux int�grer avec le signal arri�re-plan de traitement moteur de reconnaissance vocale front-end pour faire une meilleure optimisation. Parce que peut �tre perdu le traitement du signal frontal information et ne peut pas �tre restaur�e � la fin arri�re. Nous avons donc aucun moyen de faire un syst�me automatis�, mieux en mesure de traiter la distribution des signaux d'information afin que l'extr�mit� avant peut �tre relativement faible perte d'information, de sorte que l'information dans le back-end pour faire un meilleur usage.

Quatri�mement, les ressources recommand�es

station de ressources

J'aime la reconnaissance vocale, � l'int�rieur il y a toutes sortes de ressources � une vari�t� de livres, des cours et un forum d'�change

Livres

Dr. Huang Xuedong Langue Parl�e traitement
Professeur L. Rabiner et professeur de l'Acad�mie nationale d'ing�nierie Zhuangbing Huang co-auteur Principes fondamentaux de la reconnaissance vocale
Universit� de Cambridge l'ancien vice-chancelier, Fellow manuel professeur de l'Acad�mie Royale de bo�te � outils d'ing�nierie britannique Steve Young HTK, HTK livre.

Bo�te � outils

HTK

HTK ( est un outil de reconnaissance vocale tr�s classique mis au point par le pack Universit� de Cambridge, le monde compte environ 100000 utilisateurs professionnels. HTK est �crit en C, le premier code a �t� 20 ans d'histoire. HTK est une histoire sur la soci�t� Cambridge Entropy associ�e, Microsoft avait �t� achet�, apr�s avoir obtenu la parole �quipe Entropy, tour HTK du droit d'auteur de Microsoft � Cambridge retour � l'avenir comme un outil open source libre. Le plus grand avantage est que le code HTK et est tr�s stable, et l'int�gration est la technologie la plus de reconnaissance vocale grand public, et de nombreux pack d'extension de HTK lui-m�me est tr�s classique, comme le plus important de HTS bo�te � outils de parole statistique. Un autre avantage majeur est qu'il a un manuel de documentation relativement plus HTK complet, qui est le livre HTK mentionn� pr�c�demment. L'un des inconv�nients est mis � jour HTK relativement lente, et une partie du code en raison du temps relativement long � �crire, a besoin d'une mise � jour. HTK � la fin de 2015 a �t� mis � jour 3.5 version b�ta inclut la technologie de r�seau de neurones. Un autre inconv�nient est le manque de syst�me de script HTK � utiliser, des exemples d'ensembles de donn�es HTK gestion des ressources accessoires (RM), bien que couvrant la GMM-HMM, formation adaptative, discriminante, DNN et d'autres technologies majeure, mais une partie du script en utilisant tcsh �criture, ne convient pas � utiliser.

Kaldi

Kaldi (Kaldi � GitHub) �crit en C ++ est un ensemble complet d'outils pour objet. Kaldi les noms l�gendaires de Dieu dans le caf� de caf� avec ce nom signifie toolkit l'espoir est dit d'�tre comme le caf� aussi facile, pratique, populaire, l'une des fa�ons de sp�cifiques, y compris la lib�ration de beaucoup plus adapt� aux d�butants pour commencer peuvent ex�cuter des scripts et des exemples, il est dit que de nombreuses entreprises nationales sont la parole ou l'apprentissage directement � partir de la technologie source Kaldi Kaldi. Kaldi a �t� d�velopp� par le Dr Dan Povey avant que Microsoft Institute et la R�publique tch�que, mais l'Universit� d�velopp� conjointement. Il faut aussi mentionner �galement le co-auteur, le Dr Dan Povey HTK, si Kaldi et des id�es techniques htk relativement similaires, mais apr�s plusieurs ann�es de d�veloppement, la technologie int�gr�e Kaldi a plus de HTK. Ceci est en partie � cause de l'autre accord de d�veloppement HTK: En raison d'un accord d'utilisateur Kaldi plus ouvert, si souvent �tre le premier � int�grer un grand nombre de nouvelles technologies. Mais les avantages et les inconv�nients sont souvent associ�s, est due aux plus contributeurs de l'inconv�nient de Kaldi, de sorte que le code branche plus, et parfois des mises � jour de code instables ou probl�matiques, donc si vous utilisez le dernier code souvent de rencontre le probl�me, et il y a parfois des incompatibilit�s avant et apr�s les versions. Il faut donc utiliser Kaldi fonctionnalit� relativement nouvelle, et recommande de comparer plusieurs look branche. Et Kaldi temporairement insuffisantes manuel complet, donc nous pouvons alors consid�rer l'entr�e pour discuter des utilisateurs plus exp�riment�s � poser.

�CNTK

Une autre r�cente nouvelle bo�te � outils de Microsoft fortement recommand� est d�velopp� par le Yudong Bo Shi a men� CNTK (Network Toolkit informatique (CNTK)), sur lequel la fonction de r�seau de neurones est tr�s puissant, il est dit Kaldi mieux que beaucoup sont couramment utilis�s branche de r�seau de neurones . CNTK un point culminant est positionn� sur une combinaison d'une vari�t� de probl�mes, tels que la traduction automatique de reconnaissance vocale, etc. +. Mais cela a aussi conduit � CNTK pas enti�rement outils professionnels Les de reconnaissance vocale, et d'autres outils doivent r�pondre Kaldi. Microsoft est dit �tre optimis� pour CNTK et version mise � jour de l'optimisation future devrait se d�rouler de la qualit� du code source a consid�rablement am�lior� l'efficacit�. De plus, CNTK et sans doute plus paquets qui prennent en charge la meilleure plate-forme Windows, plus en ligne avec les habitudes domestiques.

cours

Universit� de Stanford en Mars a ouvert un cours de � l'apprentissage en profondeur et de traitement du langage naturel �: CS224d: apprentissage en profondeur pour le traitement du langage naturel, les enseignants de jeunes talents Richard Socher, il est lui-m�me allemand, impliqu� dans le traitement du langage naturel au cours de l'universit� , la vache g�ante en Allemagne sp�cialis�e dans la vision du temps de l'�cole d'�tudes sup�rieures et de l'ordinateur, apr�s avoir �tudi� un doctorat � l'Universit� de Stanford, le domaine de l'entra�neur PNL Chris Manning et le b�tail g�ant champ Andrew Ng apprentissage en profondeur, dont la th�se de doctorat est � r�cursive profonde d'apprentissage pour le traitement du langage naturel et vision par ordinateur � carri�re scolaire pendant de nombreuses ann�es peut �tre consid�r� comme une gr�ve parfaite. Apr�s avoir obtenu MetaMind fond� � co-fondateur et directeur technique de l'identit�, comme une �toile dans le domaine de l'intelligence artificielle start-up, fond�e au d�but de MetaMind a pris un 800 millions $ pour pr�occupation de capital-risque.

discours

https://v.qq.com/x/page/b0389gr6qsy.html

r�f�rences:

Wang Meng. Les technologies cl�s de reconnaissance vocale Universit� des sciences et de la technologie �lectronique, 2015.

Chao apprentissage en profondeur. La reconnaissance vocale Universit� de Tsinghua, 2016.

Zhang Jianhua profondeur l'application de reconnaissance vocale bas�e sur la recherche-�tude Universit� de Beijing des Postes et T�l�communications, 2015.

Zhou espoir. Mod�lisation acoustique de la reconnaissance vocale bas�e sur le r�seau de neurones profond Universit� des Sciences et Technologies de Chine, 2014.

Ke Dengfeng, Xu Bo. Probl�mes de reconnaissance vocale de base de l'�ge Internet . La science chinoise: sciences de l'information, 2013, 43 (12): 1578-1597.

GMIS 2017 | Yu Dong, directeur adjoint de Tencent AI Lab: Quatre fronti�res de la recherche de la reconnaissance vocale, Almost Human

Les produits secs contenu plus excitant, alors restez Pr�occup�s Tsinghua - Qingdao Acad�mie des sciences de la plate-forme officielle des donn�es publiques � les donn�es envoy�es THU �

Route de la soie

Apprenez � conna�tre la Chine

Exclusive | lire une reconnaissance vocale de texte (Ressources d'apprentissage ci-joint)