la saisie de texte Google Voice sortie � temps r�el hors ligne, ce qui repr�sente seulement 80 Mo! Cependant ......

Auteur | Ambre

Produit | camp de base de la technologie AI (id public n �: rgznai100)

m�thode d'entr�e Google voix peut l'identifier en ligne!

Le tir, mais aussi l'�quipe AI Google. Juste, ils Gboard pour sa m�thode d'entr�e d'un t�l�phone mobile (� ne pas confondre avec Google Pinyin, ah ~) ligne sur les nouvelles fonctionnalit�s: la reconnaissance vocale hors ligne. � l'heure actuelle cette nouvelle fonctionnalit�, disponible uniquement sur ses propres produits t�l�phones s�rie Pixel.

La plupart ont t�l�charg� ou se pr�cipitent pour t�l�charger des la�cs Pixel sur la route, y compris les utilisateurs iOS seront probablement d��us.

Ils ont d�crit la configuration de cette nouvelle fonctionnalit�: la fin, tous les nerfs, les syst�mes de reconnaissance vocale d�ploy�s au niveau local.

Dans son r�cent article � streaming End-to-End reconnaissance vocale pour les appareils mobiles �, ils ont propos� en fonction du mod�le de formation RNN-T (transducteur RNN).

Il est tr�s compact, vous pouvez rencontrer sur le d�ploiement de t�l�phone. Cela signifie que le r�seau ne sera pas trop de retard ou d'un trouble, m�me si l'utilisateur est hors ligne, ce syst�me de reconnaissance vocale est toujours disponible. Le mod�le est toujours un travail de niveau caract�re, m�me si vous parlez, il affichera le caract�re de mot par caract�re, comme si quelqu'un tap� en temps r�el et pr�cis d'�criture d'�coute ce que vous dites dans un clavier virtuel.

Par exemple, les deux images en �cran affiche le cas lorsque la m�me phrase d'entr�e dans les syst�mes de dict�e suivants: c�t� serveur gauche, � droite pour le c�t� local. De quel c�t� de l'exp�rience de reconnaissance vocale mieux?

R�sumer, � hors ligne, sans aucun retard. � Ceci est �galement Google a montr� la grande tuer.

Retard se produit parce que vos donn�es vocales doivent �tre transf�r�es du t�l�phone au serveur, puis r�soudre pour terminer le retour. Cela peut prendre quelques millisecondes ou m�me quelques secondes. En cas de perte de paquets vocaux dans Ethernet, vous avez besoin d'un temps plus long.

Le discours de milliseconde en texte n�cessite une puissance de calcul consid�rable. Ce n'est pas tout simplement entendre le son, puis �crire un mot si simple, mais il faut comprendre le sens d'un discours de la personne, et beaucoup de contexte sur la langue et l'intention impliqu�s.

Au t�l�phone, vous pouvez le faire, mais si oui, �goutter sur batterie.

Un bref historique du mod�le de reconnaissance vocale

En g�n�ral, le syst�me de reconnaissance vocale compos�e de plusieurs parties: un segment audio (typiquement de trame 10 ms) est mis en correspondance avec les mod�les de phon�mes acoustiques, la concat�nation de mod�le de phon�me forme de sondage mots, un mod�le de langage et d'exprimer un mod�le donn�. Dans les premiers syst�mes, ces composants sont l'optimisation relativement ind�pendante.

2014, les chercheurs ont commenc� � se concentrer sur la formation du r�seau de neurones individuels, la forme d'onde audio d'entr�e est mis en correspondance directement � la phrase de sortie. Approche des mod�les d'apprentissage, cette s�quence � s�quence en g�n�rant une s�rie de mots ou Glyphes dans une plage de fonctions audio conduit � la naissance du mod�le bas� sur l'attention et �coute-sort assister (LAS). Bien que ces mod�les ont montr� une grande promesse en termes de pr�cision, mais ils seront g�n�ralement v�rifier la s�quence d'entr�e enti�re, et ne permet pas de sortie lorsque l'entr�e, qui est une transcription vocale en temps r�el de caract�ristique essentielle.

A la m�me technologie de temps, appel� connexionniste classification temporelle (CTC) contribue � r�duire le syst�me d'identification des probl�mes de retard de temps. Ceci est une �tape importante pour la cr�ation plus tard l'architecture RNN-T, il est �galement consid�r� comme une g�n�ralisation de la technologie CCT.

(Note de l'�diteur: CTC, son Connectionist enti�rement appel� temporelle Classfication, propos� par Graves et al 2006, utilis� pour former le r�seau de neurones r�currents (RNN) pour r�soudre le probl�me de la s�quence temporelle variable qui peut �tre utilis� pour la reconnaissance de l'�criture manuscrite en ligne, la reconnaissance vocale ou audio.. phon�mes et d'autres t�ches. d�veloppement � nos jours, la CCT plus un nouveau terme, son utilisation dans l'industrie est tr�s mature. Par exemple, dans une m�thode d'entr�e de reconnaissance vocale en ligne Baidu a r�cemment publi� son dernier mod�le de voix en fonction de la CCT int�gre �galement attention, et d'autres nouvelles technologies.)

Qu'est-ce RNN-T?

RNN-T est un non-utilisation de mod�les de s�quence � s�quence de m�canismes d'attention. Contrairement � la plupart mod�le s�quence � s�quence (typiquement besoin de traiter la s�quence d'entr�e enti�re (� savoir, dans la reconnaissance vocale est une forme d'onde) pour produire une phrase de sortie) diff�rent, RNN-T traiter en continu des �chantillons d'entr�e et d�livre en sortie le flux de symboles.

Sortie caract�res de l'alphabet symbole. sortie RNN-T le caract�res un par un, et entre les espaces dans la bonne position. Elle le fait � travers une boucle de r�troaction, les symboles de formation du mod�le de pr�diction r�introduites celle-ci pour pr�dire le symbole suivant. Comme le montre la figure.

les �chantillons sonores x et y repr�sentent l'entr�e de symbole pr�dite RNN-T. symbole pr�dite (couche de sortie Softmax) est � nouveau aliment� vers le r�seau par le mod�le de pr�diction.

Ce mod�le de formation efficace a �t� tr�s difficile, mais avec le d�veloppement de nouvelles techniques de formation afin de r�duire davantage le mot taux d'erreur de 5%, il devient plus intensive informatiquement. Pour r�soudre ce probl�me, les chercheurs ont mis au point un processus de mise en uvre parall�le, de sorte que la perte de fonction RNN-T en grande quantit� peut fonctionner sur Google Cloud TPU v2. La formation pour atteindre environ 3 fois l'acc�l�ration.

reconnaissance hors-ligne

Dans le moteur de reconnaissance vocale classique, l'acoustique, prononciation de la parole et le mod�le en une combinaison d'une grande recherche graphique (recherche graphique), qui est marqu� avec un bord et des probabilit�s d'unit� de parole.

Lorsque la forme d'onde vocale est pr�sent� au syst�me de reconnaissance, � d�codeur � dans le cas d'un signal d'entr�e donn� va rechercher le trajet de la figure de similarit� le plus �lev�, le chemin d'acc�s et la s�quence de mots de lecture employ�e.

En g�n�ral, le mod�le de d�codeur en utilisant une base de capteur � �tats finis (Finite State Transducer, FST) FIG.

Cependant, en d�pit de la technique de d�codage complexe, recherche graphique est encore tr�s difficile, parce que le mod�le de production presque 2 Go. Ce n'est pas un souhait sur un h�bergement de t�l�phone mobile peut �tre r�alis�, de sorte que cette m�thode n�cessite une connexion en ligne fonctionne correctement.

Afin d'am�liorer l'efficacit� de la reconnaissance vocale, les chercheurs tentent d'h�bergement un nouveau mod�le directement sur l'appareil afin d'�viter les retards et le manque de fiabilit� inh�rente du r�seau de communication.

Ainsi, la fin ne n�cessite pas une recherche sur grand d�codeur de la figure. Au lieu de cela, � travers le d�codeur de recherche de faisceau comprend un r�seau de neurones (recherche par faisceau).

RNN-T a le m�me avec la pr�cision classique du mod�le bas� sur le c�t� serveur, mais le premier est seulement 450 Mo, et une utilisation plus intelligente de param�tres et de dossier d'information. Mais m�me dans les smartphones d'aujourd'hui, 450MB ou prendre beaucoup d'espace, par exemple, est susceptible d'�tre la propagation du signal lent � travers de grands r�seaux.

Ainsi, les chercheurs en utilisant le param�tre de quantification et de m�lange des techniques pour r�duire davantage la taille de base du mod�le. La technologie avait �t� lib�r� au d�but de 2016, et a fourni une bo�te � outils d'optimisation de mod�le open tensorflow la version Lite.

Mod�le pour quantifier fournir une formation par rapport � quatre fois le mod�le en virgule flottante compression pour obtenir une acc�l�ration de quatre fois au moment de l'ex�cution, ce qui rend la voix en temps r�el sur le noyau RNN-T que seul passage plus rapide. Apr�s compression, la taille du mod�le final seulement 80Mo.

Quelle est l'efficacit�?

Google a r�v�l� cette nouvelle fonctionnalit� apr�s, TechCrunch a fait remarquer que, � compte tenu des autres produits Google est presque pas en ligne de travail, alors vous �crire un e-mail en mode hors ligne? Bien s�r, dans le cas de conditions de r�seau pauvres, l'application de la nouvelle fonctionnalit� peut r�soudre les points de douleur de l'utilisateur, mais �videmment, cela est un peu ironique (insipide) ".

Ceci est aussi un temps pour attirer un grand nombre de commentaires des utilisateurs sur HackerNews, ils seront �galement en partie dirig�e contre le soi-disant � hors ligne �:

� Hors ligne mais pas l'attraction principale, mais comme mentionn� dans cet article, de r�duire la latence probl�me est �norme. Ils ne peuvent pas mentionner est l'impact sur les questions de confidentialit�. Cependant, les utilisateurs ne traitent g�n�ralement pas avec le tout, mais si vous avez besoin d'un flux r�gulier de paquets de donn�es avant et en arri�re, la connexion r�seau est tr�s g�nant ".

Cependant, apr�s les tentatives des utilisateurs encore tr�s optimistes: � Je viens chang� mon mod�le de vol g�n�ration pixel1 et essayer l'entr�e vocale et bien s�r, il est hors de travailler tr�s vite ce tr�s impressionnant (je devais essayer.! aussi, mais il ne peut �tre compris dans le pass� une phrase sp�ciale.) comment de bons moyens pour parvenir � cette fonction fait, mais je pense que toute application peut b�n�ficier d'une am�lioration de la voix �.

Pour cette raison, j'ai d�lib�r�ment t�l�charg� le Gboard, mouche audition, Baidu trois m�thode d'entr�e vocale, et prouv� comment ils effet en mode vol.

Round 1:

Gboard: Pixel est actuellement t�l�phone mobile non-voix est pas encore disponible en ligne, et m�me pour certains mod�les ne prennent pas en charge la voix. Cependant, la frappe est tr�s douce et soyeuse.

Round 2:

IFLYTEK: paquets vocaux t�l�chargeables en ligne, mais dans des circonstances normales r�seau ouvert, la vitesse de reconnaissance vocale et la pr�cision est encore assez �lev�.

Round 3:

Baidu: discours en ligne peut �galement �tre t�l�charg�, pas d'�tat de connexion r�seau, l'effet de la reconnaissance vocale est possible.

Je ne sais pas le pays utilisent souvent mouche audition, petits partenaires m�thode d'entr�e Baidu, voir les nouvelles Quelles pens�es? messages de bienvenue.

R�f�rence: https: //ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html

(Cet article technologie AI Stronghold l'article original, reproduit, s'il vous pla�t le contact WeChat 1092722531)

Route de la soie

Apprenez � conna�tre la Chine

la saisie de texte Google Voice sortie � temps r�el hors ligne, ce qui repr�sente seulement 80 Mo! Cependant ......