Exclusive | lire une reconnaissance vocale de texte (Ressources d'apprentissage ci-joint)

I. introduction

27 juin, le magazine américain Science et technologie « MIT Technology Review » publié plus intelligent 2017 liste 50 sociétés du monde. IFLYTEK premier rang en Chine, la sixième du monde. Monde en termes IFLYTEK entreprises avant sont: NVIDIA, Spacex, Amazon, 23andMe, Alphabet. « MIT Technology Review, » que « l'assistant vocal de IFLYTEK est la version chinoise de Siri, qui peut transporter traducteur en temps réel est une application exceptionnelle de l'intelligence artificielle pour surmonter le dialecte, l'argot et le bruit de fond, peut-il être chinois précis traduits en une douzaine de langues. part de marché de la technologie de la parole iFLYTEK en Chine de 70 pour cent. « de plus en plus de gens croient que la reconnaissance vocale deviendra une technologie clé de la prochaine génération de la révolution interactive.

En même temps, dans la vie de tous les jours, nous sommes habitués à un tel assistant vocal Siri ou Cortana nous aider à résoudre quelques petits problèmes dans certains cas spécifiques, tels que le développement de tous les jours cette semaine, une brève réponse un message à d'autres lors de la conduite, etc. Cependant, dans la plupart des cas, l'utilisation de l'assistant vocal est pas élevé, selon la firme de recherche CreativeStrategies - 62% des utilisateurs d'Android ont jamais utilisé assistant vocal, un chiffre que les utilisateurs d'Apple est de 70%. La technologie de reconnaissance vocale n'est pas assez avancée, ou les gens ne assistant vocal pas besoin? Le succès d'Amazon Echo peut me donner un peu d'inspiration.

Amazon Echo est amazon en Novembre 2014 a lancé un assistant vocal de famille, peut atteindre, y compris les achats, le contrôle intelligent de la maison, la lecture Kindle, réservation Uber, le suivi (amazon) livraison, commander une pizza, le calendrier, l'arithmétique, la musique de jeu, trouver téléphone, pluie imitate et ainsi de nombreuses fonctionnalités, une fois mis en place pour enflammer l'enthousiasme du marché, selon les institutions de recherche étrangères aux statistiques, en 2015 les ventes Echo d'environ 1,7 millions d'unités en 2016 ont atteint 650 millions d'unités, et à partir de 2017 en Janvier, les ventes mondiales d'Amazon Echo ont plus de 7 millions d'unités, il est prévu cette année dépassera 11 millions d'unités. Selon le rapport de eMarketer, le marché du haut-parleur du renseignement américain, Amazon Echo occupent plus de 70% des parts de marché.

Aussi assistant vocal, Siri pourquoi Echo et la situation est si différente alors, certains chercheurs croient que ce sont principalement deux produits différents en utilisant l'environnement causés. Pour la plupart des gens, sur téléphone portable en public, devant un robot pour parler non seulement le manque d'intimité, tout en un peu malade, et dans la famille, le visage de la famille et les amis, cela peut être évité efficacement, tout en environnement calme plus efficace d'améliorer la rapidité et la précision de la reconnaissance de la machine, on croit, Amazon Echo coupé précisément sur le marché. Cependant, d'autres géants sont des gens qui ne veulent pas, ont lancé leur propre assistant vocal intelligent famille: Apple a lancé le pod Home, et a également introduit une maison de google google il semble, il a été une voix de la guerre Tempête.

En deuxième lieu, les principes de base de la reconnaissance vocale

La reconnaissance de la voix que l'on appelle, un signal vocal est converti en informations textuelles correspondantes, le système comprend principalement une extraction de caractéristiques, un modèle acoustique, le modèle de langue et un dictionnaire et les décodées quatre parties, dans lequel, afin d'extraire plus efficacement la caractéristique assez souvent que l'recueilli le signal de bruit est filtré, le cadrage et l'autre pré-traitement, le signal à analyser est extraite du signal d'origine, puis, les extractions de caractéristiques signal sonore à partir du domaine temporel au domaine de fréquence pour fournir un modèle acoustique approprié du vecteur de caractéristique; chaque vecteur caractéristique de score sur les caractéristiques acoustiques d'un modèle acoustique et calcule ensuite les caractéristiques acoustiques, selon le modèle de langage est la théorie linguistique associée, l'expression possible correspondant au calcul de probabilité de séquence de signal vocal; Enfin, selon le dictionnaire existant des phrases décodage de la séquence peut générer une représentation de texte final.

1. prétraitement du signal acoustique

En principe et la reconnaissance vocale de base, des signaux vocaux pré-traitement est essentiel. Lorsque la mise en correspondance de modèle finale, la caractéristique du signal de parole d'entrée est un paramètre avec les paramètres caractéristiques sont comparées dans la bibliothèque de modèles, par conséquent, possible d'obtenir des paramètres caractéristiques caractérisant les caractéristiques essentielles de l'étape de pré-traitement du signal de parole, il est possible de ces paramètres caractéristiques taux de reconnaissance de la reconnaissance de la parole correspondant.

En premier lieu, la nécessité d'un processus de filtrage signal sonore et d'échantillonnage afin d'exclure signal d'interférence et une fréquence de 50 Hz la fréquence actuelle de parole non humain, le procédé est typiquement un filtre passe-bande, le réglage du filtre de fréquence bague supérieure et inférieure, puis signal lissé après la partie de fréquence requise et à basse fréquence de la section d'engagement, de sorte que le spectre peut être résolu en même SNR, une telle analyse est plus commode;; la mise en oeuvre quantifiées signal discret d'origine cadrage fenêtrage se fait au signal de domaine de fréquence d'origine ayant une courte période de temps variant stationnaire caractéristique, à savoir un signal continu dans une partie stable indépendante de domaine de fréquence avec différentes longueurs fenêtre d'acquisition pour l'analyse, ce procédé est principalement préaccentuation la technologie, et enfin le travail de détection point d'extrémité est requis, à savoir pour les points de début et de fin du signal de parole d'entrée jugées correctement, principalement grâce à l'énergie à court terme (amplitude signal variant dans le même cadre) avec le taux de passage à zéro en moyenne de courte durée (dans le même cadre après des temps d'échantillonnage le signal à zéro), la détermination est effectuée sensiblement, se référer spécifiquement à la fin de la référence [ DOCUMENT.

2. extraction de caractéristiques acoustiques

Après l'achèvement du signal pré-traité, l'ensemble du processus est caractéristiques cruciales opération d'extraction subséquente. La forme d'onde d'origine permet d'identifier et d'obtenir de bons résultats de reconnaissance, après le domaine de fréquence transformé pour caractéristique extraite d'identifier les paramètres et les paramètres des fonctions de reconnaissance vocale peuvent être utilisés doivent répondre aux points suivants:

  • paramètres caractéristiques peuvent essayer de décrire les caractéristiques fondamentales de la parole;

  • Les paramètres à minimiser le couplage entre les composants, pour comprimer les données;

  • Devrait rendre le processus de calcul plus simple des paramètres caractéristiques de l'algorithme est plus efficace. Pitch, paramètres de pic de résonance peut être utilisée en tant que paramètres caractéristiques représentant les caractéristiques de la parole.

Actuellement, les paramètres caractéristiques des organismes de recherche traditionnels les plus couramment utilisés sont les suivants: prédiction linéaire cepstrale Coefficients (LPCC) et Mel cepstrale Coefficients (MFCC). Deux types de paramètres caractéristiques de l'opération sur le signal vocal domaine de cepstre, l'ancien modèle de l'énoncé comme point de départ, la technologie et l'utilisation des coefficients cepstraux LPC. La simulation de modèle auditif celui-ci, le modèle de groupe de la parole par l'intermédiaire du filtre de sortie en tant que caractéristiques acoustiques, et en utilisant une transformée de Fourier discrète (DFT) transformées.

Le pas soi-disant, un moyen de fréquence de vibration de pliage vocales (fréquence fondamentale) du cycle de vibration, parce qu'il est possible de caractériser efficacement les caractéristiques du signal de parole, donc de la reconnaissance vocale de démarrage initial, le point de détection de hauteur est une étude critique, le formant ce qu'on appelle se réfère à la région de l'énergie du signal de parole est concentrée, caractérisé parce que les caractéristiques physiques du canal, et est un déterminant majeur de la condition de paramètre de qualité de la prononciation, par conséquent, également caractéristique très importante. Les détails de la fois la méthode d'extraction des paramètres caractéristiques et la LPCC dominante actuelle, les méthodes MFCC autres détails ne sont pas répétées ici, vous pouvez vous référer à la fin du texte [Référence]. En outre, il y a aussi beaucoup de chercheurs ont commencé à étudier en profondeur les méthodes utilisées dans l'extraction de caractéristiques, a fait des progrès rapides, cette partie sera introduite en détail au chapitre 3.

3. modèle acoustique

Le modèle acoustique est un système de reconnaissance de parole d'un élément très important, la capacité de faire la distinction entre les différentes unités de base est directement liée à la qualité du résultat de reconnaissance. La reconnaissance vocale est essentiellement un processus de reconnaissance des formes, la question fondamentale est la classification des décisions de reconnaissance et de classification modèle.

En règle générale, dans les mots isolés, petit vocabulaire de reconnaissance dynamique temps classificateurs (DTW) ont de bons résultats de reconnaissance, et la vitesse de reconnaissance, les frais généraux du système est faible, la reconnaissance vocale est algorithme de correspondance très réussie. Cependant, un grand vocabulaire, la reconnaissance vocale indépendante du locuteur lorsque, l'effet de reconnaissance DTW sera une forte baisse, cette fois en utilisant un modèle de Markov caché (HMM) formés à reconnaître l'effet sera améliorée de manière significative, étant donné que la reconnaissance vocale classique généralement continue modèle de mélange gaussien GMM à la fonction de caractérisation de densité de sortie d'état, que l'on appelle cadre GMM-HMM.

Pendant ce temps, avec le développement de la profondeur de l'apprentissage, le réseau de neurones est accompli par la profondeur du modèle acoustique, un soi-disant cadre DNN-HMM pour remplacer le cadre GMM-HMM traditionnel, dans la reconnaissance vocale a également obtenu de bons résultats, le premier le chapitre 3 présente, pour le premier modèle de mélange de gaussiennes chapitre - introduit la théorie de base du modèle de Markov caché (GMM-HMM) est.

3,1 modèle de mélange gaussien

Pour un vecteur aléatoire x, si elle est conforme à l'équation de la fonction de densité de probabilité conjointe 9/2, il est dit d'obéir à la distribution gaussienne, et appelé x ~ N (, ).

Dans lequel, est la distribution souhaitée, est la matrice de covariance de la distribution. distribution gaussienne a une forte capacité à se rapprocher des données réelles, mais aussi facile à calculer, il est largement appliqué dans diverses disciplines. Cependant, il y a encore beaucoup de types de données ne sont pas décrites par une distribution gaussienne. À ce moment, nous pouvons décrire ces distribution de données à l'aide d'une distribution gaussienne multiples mixtes, une pluralité de composants responsables de différentes sources de données potentielles, respectivement. A cette époque, conformément à la fonction de densité variable aléatoire.

Dans lequel, M étant le nombre de composants, il est généralement déterminée par la taille du problème.

Nous croyons que la personne concernée, ledit modèle de distribution gaussienne mixte utilisé pour le modèle de mélange de gaussiennes. modèle gaussien de mélange est largement utilisé dans de nombreux systèmes de reconnaissance vocale de modèle acoustique. Compte tenu du nombre de dimensions dans le vecteur de reconnaissance de la parole est relativement importante, nous supposons distribution gaussienne normalement covariance matrice m mixte est une matrice diagonale. Cela permettra non seulement de réduire considérablement le nombre de paramètres, et peut améliorer le calcul de l'efficacité.

Utiliser le modèle de mélange de gaussiennes a plusieurs avantages pour le modèle de vecteur de caractéristiques à court terme: Tout d'abord, le modèle de mélange de gaussiennes a une forte capacité de modélisation, aussi longtemps que le nombre total de suffisamment de composants, le modèle de mélange gaussien peut être une précision arbitraire pour se rapprocher d'une distribution de probabilité fonction, en plus, l'algorithme EM peut être facilement convergé sur le modèle aux données de formation. Pour la vitesse de calcul et surajustement et d'autres questions, il a également développé un GMM et sous-espace modèle gaussien mélange paramètres (sous-espace GMM) liés à résoudre. En plus d'utiliser l'algorithme EM pour l'extérieur d'estimation du maximum de vraisemblance, on peut aussi utiliser la fonction d'erreur et les mots discriminants ou taux d'erreur de phonème est directement liée à la formation d'un modèle de mélange de gaussiennes, peut grandement améliorer les performances du système. Ainsi, jusqu'à ce que la profondeur de apparaît la technologie des réseaux de neurones dans le modèle acoustique, un modèle de mélange de gaussiennes a été le choix des vecteurs de caractéristiques de modélisation à court terme.

Cependant, un mélange de gaussiennes modèle a également un sérieux inconvénient: modèle de mélange de gaussiennes pour un espace vectoriel à proximité du collecteur non linéaire sur la capacité de modélisation des données (collecteur) très faible. Par exemple, supposons que certaines des données sont distribuées sur les deux côtés d'une surface sphérique, et est très proche sphérique. Si vous utilisez un modèle de classification approprié, nous pouvons seulement besoin quelques paramètres que vous pouvez séparer la zone de données des deux côtés de la sphère. Cependant, si un modèle de mélange de gaussiennes illustrant leur répartition réelle, nous devons être très bien une composante de distribution gaussienne décrit avec suffisamment de précision. Ce modèle nous pousse à rechercher une utilisation plus efficace de la classification des informations vocales.

3.2 Les modèles de Markov cachés

Nous considérons maintenant une séquence aléatoire de discrète, si la probabilité de transition en conformité avec la propriété de Markov, et l'état sera bientôt passé état indépendant, il revendiquée comme une chaîne de Markov (Markov Chain). Si la probabilité de transition et indépendante du temps, il revendiquée comme chaîne de Markov homogène (homogène). Bon état Markov de sortie et de la correspondance prédéfinie, pour un état donné, la sortie est observée, il n'y a pas aléatoire. Si l'on prolonge la sortie, la sortie de chaque chaîne de Markov d'état est une fonction de distribution de probabilité. Dans ce cas, la chaîne de Markov d'état ne peut pas être directement observée, ne peut changer les impacts en ligne avec d'autres variables pour estimer la distribution de probabilité par le biais d'un Etat. Nous appelons cela le modèle de Markov caché à des hypothèses de séquence de données modèle pour le modèle de Markov cachés.

Correspond à un système de reconnaissance vocale, on utilise un modèle de Markov caché pour décrire un changement d'état interne sous-phonème, dans lequel la séquence de résoudre le problème de la relation de correspondance entre la pluralité d'unités de parole de base.

modèle de probabilité sur une période d'un morceau de la parole à l'aide calculée modèles de Markov cachés dans la tâche de reconnaissance vocale. Et dans la formation, nous avons besoin d'utiliser l'algorithme Baum-Welch Paramètres d'apprentissage modèles de Markov cachés, estimation du maximum de vraisemblance (Maximum Likelihood Estimation, MLE). Baum-Welch algorithme est un cas particulier de l'EM (Expectation-Maximization) algorithme, avant et après l'utilisation de l'élément d'information de probabilité calculée séquentiellement de façon itérative une condition souhaitée de l'étape les étapes E et M d'optimiser les conditions souhaitées.

4. Modèle Langue

Le principal modèle de langage est utilisé pour décrire la façon dont l'expression du langage humain, en mettant l'accent sur la description du lien intrinsèque entre les mots sur la structure de l'arrangement. Dans le processus de décodage de reconnaissance vocale, le transfert du son dans le dictionnaire de référence de mot, le transfert de modèle de référence linguistique entre le mot, le bon modèle de langage pour decode non seulement d'améliorer l'efficacité, mais aussi d'améliorer le taux de reconnaissance dans une certaine mesure. Le modèle de langage en deux catégories règle modèle et des modèles statistiques, modèle de langage statistique en utilisant des méthodes statistiques pour caractériser la probabilité inhérente des lois statistiques des unités linguistiques, simples et bons résultats pratiques et obtenus de sa conception, il a été largement utilisé pour la reconnaissance vocale, la machine traduction, reconnaissance des émotions.

Le plus simple et pourtant les modèles de langues les plus couramment utilisés sont le modèle de langage N-gramme (N-gramme Langue modèle, N-gramme LM). modèle de langage N-gramme supposé que le courant dans un environnement donné ci-dessus, seule la probabilité courante associée au mot devant des mots N-1. Ainsi, une séquence de mots W1, ..., Wm de la probabilité P (w1, ..., Wm) peut être approchée en tant que

Afin d'obtenir tous les mots dans la formule de probabilité donnée ci-dessus, nous avons besoin d'une certaine quantité de texte dans la langue à estimer. Les mots peuvent être directement au-dessus contenant tous les mots ci-dessus probabilité est calculée dans l'exemple comparatif, à savoir,

Pour les mots dans le texte ne semble pas, nous devons être estimés à l'aide d'une méthode de lissage, ou estimé que le lissage Bon-Kneser-Ney Turing.

Le décodage Dictionnaire

Le décodeur est un composant essentiel de la phase de reconnaissance, par décodage de parole du modèle formé, pour obtenir la séquence la plus probable de mots, la génération d'une identification ou d'un maillage (Lattice) Le résultat de reconnaissance composant intermédiaire pour un traitement ultérieur. Le décodeur d'algorithme de base fait partie de l'algorithme de programmation dynamique Viterbi. Parce que le décodage très grand espace, nous utilisons généralement la méthode de passage de jeton largeur de recherche défini (passage de jeton) dans l'application pratique.

décodeur classique généré dynamiquement (graphique de décodage) complètement décodé, l'outil de reconnaissance vocale connu sous le nom HTK (HMM outil Kit) Hvite HDecode et analogues. Une telle atteindre une plus petite empreinte, mais compte tenu de la complexité des différents composants, le flux de l'ensemble du système encombrant, peu pratique pour modèle de langage efficace se lier et un modèle acoustique, bien que plus difficile à développer. Maintenant, le courant décodeur transducteur d'état fini de mise en uvre (Finite State Transducer, FST) sera utilisée dans une certaine mesure comme un décodeur de pré-charge statique de pré-généré de la Fig. Ici modèle de langage, nous pouvons (G), le vocabulaire (L), des informations contextuelles (C), le modèle de Markov caché (H) parties sont construites en quatre transducteur standard états finis, et par état fini norme convertisseur les actionnent combinés pour construire un sous-état du contexte lié au convertisseur de phonème mot. Ces autres méthodes utilisées pour atteindre un certain nombre d'espace mémoire, mais la séquence d'instructions pour que le décodeur devient plus ordonnée, de sorte qu'une construction efficace du décodeur plus facile. En même temps, nous pouvons être pré-optimisé préconstruites transducteur état fini, fusion et couper la partie inutile de sorte que l'espace de recherche devient plus raisonnable.

Résumé:

Dans le passé, l'utilisation la plus populaire des systèmes de reconnaissance vocale généralement MFCC mel coefficients cepstraux ou conversion spectrale relative - prédiction linéaire perceptive RASTA-PLP, en tant que vecteur de caractéristiques, en utilisant un modèle de mélange gaussien - modèles de Markov cachés comme modèle acoustique GMM-HMM, le critère du maximum de vraisemblance, ML et de l'algorithme de maximisation de l'espérance de former ces modèles.

En troisième lieu, la frontière de reconnaissance vocale

Retour dans les années quatre-vingt, il y a des chercheurs qui utilisent un réseau de neurones en tant que classificateur en reconnaissance de la langue. Mais a été limité par la puissance de calcul de la machine, les données vocales rares, et la sélection de l'unité de base de la modélisation de la parole, entre autres facteurs, et classificateur de réseau de neurones plus tard est devenu le système de reconnaissance vocale grand public, aussi efficace que d'un mélange gaussien Modèle . Mais comme le nouveau siècle, une nouvelle prise de conscience du réseau de neurones, balayé à nouveau une vague d'apprentissage en profondeur de la communauté de la parole, les gens se sont tournés vers l'étude de la profondeur des applications de réseau de neurones dans la reconnaissance vocale. La profondeur du modèle de réseau de neurones est de distinguer (discriminantes) modèles pour distinguer l'unité de base différente de cette tâche, il aura besoin d'un modèle de paramètre de modèle description complète de la production de la distribution (générative) modèle gaussien de mélange nécessite relativement moins, plus facilement disponibles de bons résultats.

Avec l'apprentissage profond chaud des concepts importants tels que le réseau de neurones artificiels ANN, convolution réseau de neurones CNN et back-propagation importante BP, nous avons déjà connu, ce ne sera pas répété ici.

1. Etude de la profondeur d'extraction de caractéristiques acoustiques

La méthode la plus simple d'application de réseaux de neurones dans un système HMM-GMM classique consiste à utiliser des réseaux de neurones pour l'apprentissage de la fonction. Ces méthodes ne modifient pas le cadre actuel de la reconnaissance vocale, le système peut améliorer les performances sur la base du système ne change pas.

En utilisant l'algorithme d'extraction de caractéristiques de la parole classique (comme MFCC ou PLP) caractéristiques extraites d'un seul effet de signal de trame, il est pas bien couvert par des informations de parole active, mais aussi sensibles à la pollution sonore. Pour les caractéristiques d'un discours d'apprentissage et la reconnaissance vocale est concerné, cet objectif peut se résumer comme l'utilisation des caractéristiques spectrales de l'original ou l'utilisation des caractéristiques de forme d'onde. Au cours des 30 dernières années, bien que le spectre de la parole à transformer des informations manquantes des données vocales d'origine, mais plus « fait main » dispose d'un énorme coup de pouce pour promouvoir le système taux de reconnaissance GMM-HMM. L'un des plus grands succès transformée en cosinus non-adaptative, qui favorise la génération de fonction MFCC. Environ transformée en cosinus supprime la corrélation entre les composantes caractéristiques, il est important matrice de covariance diagonale GMM à utiliser pour le. Cependant, après que la profondeur du modèle d'apprentissage variante du modèle GMM, de telle sorte que le retrait de la corrélation entre les caractéristiques devient sans objet.

En utilisant l'extraction de caractéristiques DNN, il y a deux idées communes: Le premier est le goulot d'étranglement caractéristique (bottlenec, BN). Nous devons construire une forme de goulot d'étranglement du réseau de neurones, dans lequel il y a une couche cachée de dimensions relativement plus petites que de nombreuses autres dimensions de la couche cachée. Ensuite, nous pouvons soit utiliser l'auto-codeur (codeur automatique) du réseau de formation non supervisé, peut également faire la cible de sortie la probabilité postérieure du réseau pour l'état, la formation supervisée par un algorithme BP. Après la formation, la structure du réseau du goulot d'étranglement derrière omis, le réseau de sortie prend fonctions. BN caractéristiques ainsi obtenues peuvent être considérés comme caractéristiques de transformation non linéaire et la réduction de la dimension. Lors de la construction d'un modèle acoustique HMM-GMM, nous avons l'habitude BN caractéristiques traditionnelles et d'autres à court terme des fonctionnalités telles que MFCC épissé ensemble pour apprendre une entrée modèle HMM-GMM. Après avoir travaillé la profondeur en utilisant une des caractéristiques souvent utilisé réseau de neurones pré-formés remplacer réseau conventionnel BN peu profond en conjonction avec une méthode de formation discriminante de la performance du système a été grandement améliorée. Une autre méthode d'apprentissage des fonctionnalités en utilisant la fonction tandem (Tandem). En fonctionnement, caractérisé en tandem en utilisant un classifieur de réseau neuronal est d'abord estimé probabilité postérieure d'un phonème, alors le vecteur de sortie réseau orthogonalisation effectuée par ACP en tant qu'entrée de système caractéristique HMM-GMM. Une telle méthode tandem est mieux que l'effet direct de l'utilisation de modèles de réseaux de neurones et les normes GMM modèle mixte. Sivadas et al dans la série présentent une structure hiérarchique du réseau de neurones unique d'origine pour remplacer une pluralité de réseaux neuronaux sont formés pour avoir des fonctions différentes mais organisé hiérarchiquement ensemble. Cette méthode est inférieure à la taille des paramètres originaux du temps de formation du réseau de neurones unique est plus court, tout en obtenant de meilleures performances.

2. l'apprentissage en profondeur et la modélisation acoustique

Avec la profondeur du rôle des réseaux de neurones dans la reconnaissance de la parole est une étape par étape creuser plus profond, l'utilisation directe du modèle hybride HMM-DNN est devenu un meilleur choix. Dans le modèle de mélange HMM-DNN, une pluralité de modèles différents états de GMM, nous avons utilisé par un réseau de neurones à la place de la profondeur. Nous devons former un objectif de formation en profondeur du réseau de neurones est d'estimer la probabilité postérieure des trames de parole d'entrée dans chaque état de HMM, qui est P (qt = s | xt). Pour être en mesure d'estimer correctement la probabilité a posteriori dans différents états, nous avons généralement besoin par modèle HMM-GMM et les informations existantes d'alignement forcé (force d'alignement) généré corpus de formation étiquetée comme une formation de réseau cible. La qualité de l'information est aussi largement forcé l'alignement formé HMM-DNN affectent la performance du système d'un modèle hybride, le travail des gens recyclent des informations d'alignement de génération HMM- en utilisant itérativement le nouveau modèle mixte HMM-DNN formés DNN façon modèle hybride pour améliorer encore les performances du système. En outre, on utilise souvent les caractéristiques d'une pluralité de trames adjacentes en réseau neuronal composite que les caractéristiques d'entrée, une capacité accrue à utiliser les informations de réseau voisin.

3. Orientations futures de la recherche

Étude approfondie conjointement avec le système de reconnaissance vocale actuellement utilisé HMM a obtenu de bons résultats de reconnaissance, tels que Baidu profonde reconnaissance vocale 2 phrases taux d'erreur de mot est tombé à 3,7%, le taux d'erreur de mot de reconnaissance vocale Microsoft anglais atteint 5.9 %, et il a poussé des applications commerciales, la reconnaissance vocale intelligente, mais il y a encore place à l'amélioration.

Le premier Sommet mondial Machine Intelligence (GMIS 2017) Presque parrainé humain, directeur adjoint de Tencent AI Lab, Seattle Laboratoire d'intelligence artificielle, chef de Dong Yu a fait le thème de la « recherche de pointe dans le domaine de la reconnaissance vocale » de la parole, à explorer nous avons partagé quatre questions de pointe dans le domaine de la reconnaissance vocale:

Une recherche: séquence modèle plus efficace à la séquence de conversion directe

La reconnaissance vocale est en fait la séquence de signal vocal en une séquence de caractères ou de mots, tant de gens pensent que pour résoudre ce problème, de trouver une séquence efficace, le modèle de transformation de séquence sur elle.

La plupart des études antérieures faites en supposant que la question, la séquence de signal de parole dans lequel plusieurs composants configurés pour séquence entre les mots, la séquence de signal vocal en une séquence de mots progressivement converti. De nombreuses parties de ces hypothèses, comme à court terme et supposent stable hypothèse d'indépendance conditionnelle est raisonnable dans certaines situations, mais dans de nombreux scénarios monde réel est problématique. L'idée derrière la séquence à la conversion directe du modèle est que si l'on se débarrasse de ces composants sont basés sur l'hypothèse en question est conçue, puis convertir le modèle de données de l'école de formation à remplacer, il est possible de trouver une meilleure façon, la séquence en plus précise. Un autre avantage de le faire est le processus de formation peut être simplifiée.

Recherche II: problème de cocktail

Dans un environnement calme du système de reconnaissance vocale est proche du niveau humain. À l'heure actuelle, il existe de nombreuses applications pratiques, mais le système de reconnaissance vocale en cours dans une forte interférence du bruit est difficile à mettre aux exigences pratiques. Pour le système auditif humain alors il y a un « effet cocktail party », nous avons dans le cas d'interférence du bruit de fond peut se concentrer dans la conversation d'une personne, et la fonction de ce système auditif humain est actuellement le système de reconnaissance vocale est également difficile à réaliser, les problèmes seront pris en compte dans le micro champ lointain est plus évidente, une approche possible consiste à utiliser un réseau de microphones, en même temps du multi-angle positions multiples capturé signal audio pour renforcer l'effet de reconnaissance, mais cela ne peut être le plus excellente solution pour l'avenir grâce à d'autres recherches sur le cerveau peut conduire à l'inspiration pour nous.

direction de recherche III: modèle de prédiction et de l'adaptation continue

Dans le domaine de la reconnaissance vocale, la possibilité de construire un système de prévision a continué à le faire? Cela continuera en fonction des résultats de reconnaissance existants afin d'identifier les améliorations pour la prochaine fois, et maintenant en reconnaissance vocale, généralement ou juste faire une simple voix et la correspondance du texte de façon à identifier, pour l'utilisation de contact linguistique entre des informations spécifiques ou très insuffisante, donc si vous pouvez construire un meilleur modèle, il peut continuer à faire l'identification. Ce qu'il faut se caractérise par elle? Adaptation on est capable de le faire très rapidement, de sorte que la prochaine fois que faire la reconnaissance, nous avons une manière similaire à l'information comprimée dans une meilleure façon dont le modèle, la prochaine fois que vous pouvez faire une identification rapide.

directions de recherche quatre: avant et arrière optimisation conjointe

Traditionnellement, la technique de traitement de signal d'extrémité avant utilise généralement un signal d'information de parole en l'état actuel. La machine méthode d'apprentissage utilise beaucoup d'informations apprises dans le dispositif de formation, mais les informations rarement utilisées du cadre actuel, il ne pas effectuer la modélisation des données, nous avons donc aucun moyen de comparer ces deux méthodes bien ensemble, c'est une direction, la force actuelle de nombreux organismes de recherche.

De plus, nous avons aucun moyen de mieux intégrer avec le signal arrière-plan de traitement moteur de reconnaissance vocale front-end pour faire une meilleure optimisation. Parce que peut être perdu le traitement du signal frontal information et ne peut pas être restaurée à la fin arrière. Nous avons donc aucun moyen de faire un système automatisé, mieux en mesure de traiter la distribution des signaux d'information afin que l'extrémité avant peut être relativement faible perte d'information, de sorte que l'information dans le back-end pour faire un meilleur usage.

Quatrièmement, les ressources recommandées

station de ressources

J'aime la reconnaissance vocale, à l'intérieur il y a toutes sortes de ressources à une variété de livres, des cours et un forum d'échange

Livres

  • Dr. Huang Xuedong Langue Parlée traitement

  • Professeur L. Rabiner et professeur de l'Académie nationale d'ingénierie Zhuangbing Huang co-auteur Principes fondamentaux de la reconnaissance vocale

  • Université de Cambridge l'ancien vice-chancelier, Fellow manuel professeur de l'Académie Royale de boîte à outils d'ingénierie britannique Steve Young HTK, HTK livre.

Boîte à outils

  • HTK

HTK ( est un outil de reconnaissance vocale très classique mis au point par le pack Université de Cambridge, le monde compte environ 100000 utilisateurs professionnels. HTK est écrit en C, le premier code a été 20 ans d'histoire. HTK est une histoire sur la société Cambridge Entropy associée, Microsoft avait été acheté, après avoir obtenu la parole équipe Entropy, tour HTK du droit d'auteur de Microsoft à Cambridge retour à l'avenir comme un outil open source libre. Le plus grand avantage est que le code HTK et est très stable, et l'intégration est la technologie la plus de reconnaissance vocale grand public, et de nombreux pack d'extension de HTK lui-même est très classique, comme le plus important de HTS boîte à outils de parole statistique. Un autre avantage majeur est qu'il a un manuel de documentation relativement plus HTK complet, qui est le livre HTK mentionné précédemment. L'un des inconvénients est mis à jour HTK relativement lente, et une partie du code en raison du temps relativement long à écrire, a besoin d'une mise à jour. HTK à la fin de 2015 a été mis à jour 3.5 version bêta inclut la technologie de réseau de neurones. Un autre inconvénient est le manque de système de script HTK à utiliser, des exemples d'ensembles de données HTK gestion des ressources accessoires (RM), bien que couvrant la GMM-HMM, formation adaptative, discriminante, DNN et d'autres technologies majeure, mais une partie du script en utilisant tcsh écriture, ne convient pas à utiliser.

  • Kaldi

Kaldi (Kaldi · GitHub) écrit en C ++ est un ensemble complet d'outils pour objet. Kaldi les noms légendaires de Dieu dans le café de café avec ce nom signifie toolkit l'espoir est dit d'être comme le café aussi facile, pratique, populaire, l'une des façons de spécifiques, y compris la libération de beaucoup plus adapté aux débutants pour commencer peuvent exécuter des scripts et des exemples, il est dit que de nombreuses entreprises nationales sont la parole ou l'apprentissage directement à partir de la technologie source Kaldi Kaldi. Kaldi a été développé par le Dr Dan Povey avant que Microsoft Institute et la République tchèque, mais l'Université développé conjointement. Il faut aussi mentionner également le co-auteur, le Dr Dan Povey HTK, si Kaldi et des idées techniques htk relativement similaires, mais après plusieurs années de développement, la technologie intégrée Kaldi a plus de HTK. Ceci est en partie à cause de l'autre accord de développement HTK: En raison d'un accord d'utilisateur Kaldi plus ouvert, si souvent être le premier à intégrer un grand nombre de nouvelles technologies. Mais les avantages et les inconvénients sont souvent associés, est due aux plus contributeurs de l'inconvénient de Kaldi, de sorte que le code branche plus, et parfois des mises à jour de code instables ou problématiques, donc si vous utilisez le dernier code souvent de rencontre le problème, et il y a parfois des incompatibilités avant et après les versions. Il faut donc utiliser Kaldi fonctionnalité relativement nouvelle, et recommande de comparer plusieurs look branche. Et Kaldi temporairement insuffisantes manuel complet, donc nous pouvons alors considérer l'entrée pour discuter des utilisateurs plus expérimentés à poser.

  •  CNTK

Une autre récente nouvelle boîte à outils de Microsoft fortement recommandé est développé par le Yudong Bo Shi a mené CNTK (Network Toolkit informatique (CNTK)), sur lequel la fonction de réseau de neurones est très puissant, il est dit Kaldi mieux que beaucoup sont couramment utilisés branche de réseau de neurones . CNTK un point culminant est positionné sur une combinaison d'une variété de problèmes, tels que la traduction automatique de reconnaissance vocale, etc. +. Mais cela a aussi conduit à CNTK pas entièrement outils professionnels Les de reconnaissance vocale, et d'autres outils doivent répondre Kaldi. Microsoft est dit être optimisé pour CNTK et version mise à jour de l'optimisation future devrait se dérouler de la qualité du code source a considérablement amélioré l'efficacité. De plus, CNTK et sans doute plus paquets qui prennent en charge la meilleure plate-forme Windows, plus en ligne avec les habitudes domestiques.

cours

Université de Stanford en Mars a ouvert un cours de « l'apprentissage en profondeur et de traitement du langage naturel »: CS224d: apprentissage en profondeur pour le traitement du langage naturel, les enseignants de jeunes talents Richard Socher, il est lui-même allemand, impliqué dans le traitement du langage naturel au cours de l'université , la vache géante en Allemagne spécialisée dans la vision du temps de l'école d'études supérieures et de l'ordinateur, après avoir étudié un doctorat à l'Université de Stanford, le domaine de l'entraîneur PNL Chris Manning et le bétail géant champ Andrew Ng apprentissage en profondeur, dont la thèse de doctorat est « récursive profonde d'apprentissage pour le traitement du langage naturel et vision par ordinateur « carrière scolaire pendant de nombreuses années peut être considéré comme une grève parfaite. Après avoir obtenu MetaMind fondé à co-fondateur et directeur technique de l'identité, comme une étoile dans le domaine de l'intelligence artificielle start-up, fondée au début de MetaMind a pris un 800 millions $ pour préoccupation de capital-risque.

discours

https://v.qq.com/x/page/b0389gr6qsy.html

références:

Wang Meng. Les technologies clés de reconnaissance vocale Université des sciences et de la technologie électronique, 2015.

Chao apprentissage en profondeur. La reconnaissance vocale Université de Tsinghua, 2016.

Zhang Jianhua profondeur l'application de reconnaissance vocale basée sur la recherche-étude Université de Beijing des Postes et Télécommunications, 2015.

Zhou espoir. Modélisation acoustique de la reconnaissance vocale basée sur le réseau de neurones profond Université des Sciences et Technologies de Chine, 2014.

Ke Dengfeng, Xu Bo. Problèmes de reconnaissance vocale de base de l'âge Internet . La science chinoise: sciences de l'information, 2013, 43 (12): 1578-1597.

GMIS 2017 | Yu Dong, directeur adjoint de Tencent AI Lab: Quatre frontières de la recherche de la reconnaissance vocale, Almost Human

Les produits secs contenu plus excitant, alors restez Préoccupés Tsinghua - Qingdao Académie des sciences de la plate-forme officielle des données publiques « les données envoyées THU »

la force du service de lutte contre le combat en mode combat, 1919 paires de 11150 millions de chiffre d'affaires cette année
Précédent
Luneng 96 minutes Lore soufflés! arbitre Super League et provoqué une polémique énorme, ne comprenait pas le monde
Prochain
Exclusif | Un article pour comprendre le deep learning (avec des ressources d'apprentissage)
Après la première faiblesse de la sécurité nationale exposée, Schmidt a fait un changement, il pourrait durer un casse-tête du championnat!
Microsoft Construire 2017 Jour 2: Windows 10 pour atteindre « multi-plateforme, multi-appareils », MR nouveau en vente cette année
Chef des chasseurs de têtes de données expliquer les grandes données et du personnel d'Amnesty International ont besoin de maîtriser les compétences de base, la carrière et les tendances futures
Restaurant avenir? De la cuisine à la livraison complète par le robot
vague de visualisation flux d'information de la construction d'un monde numérique | exclusif
Yatai 4-1 inversion! 30 ans, ancien hat-trick international en armure, glisser à genoux trop dominateur fêtent
Deuxième Italie et la Chine Culture et Art Festival a eu lieu avec succès à Milan
2017 de science-fiction répertoire de recommandation film blockbuster « Pacific Rim 2 » est reportée à l'année suivante
Luneng 10 dernières minutes 3 fois de suite a subi une pénalité controversée, super arbitres professionnels trop « amateur »!
Exclusive | apprentissage article lu transfert (trousse d'apprentissage ci-joint)
Sécurité nationale donne le coup fou! Zhang Yuning remplacé l'adolescent de moins de 23 ans, quatre minutes sur le banc pour marquer!