la saisie de texte Google Voice sortie à temps réel hors ligne, ce qui représente seulement 80 Mo! Cependant ......

Auteur | Ambre

Produit | camp de base de la technologie AI (id public n °: rgznai100)

méthode d'entrée Google voix peut l'identifier en ligne!

Le tir, mais aussi l'équipe AI Google. Juste, ils Gboard pour sa méthode d'entrée d'un téléphone mobile (à ne pas confondre avec Google Pinyin, ah ~) ligne sur les nouvelles fonctionnalités: la reconnaissance vocale hors ligne. À l'heure actuelle cette nouvelle fonctionnalité, disponible uniquement sur ses propres produits téléphones série Pixel.

La plupart ont téléchargé ou se précipitent pour télécharger des laïcs Pixel sur la route, y compris les utilisateurs iOS seront probablement déçus.

Ils ont décrit la configuration de cette nouvelle fonctionnalité: la fin, tous les nerfs, les systèmes de reconnaissance vocale déployés au niveau local.

Dans son récent article « streaming End-to-End reconnaissance vocale pour les appareils mobiles », ils ont proposé en fonction du modèle de formation RNN-T (transducteur RNN).

Il est très compact, vous pouvez rencontrer sur le déploiement de téléphone. Cela signifie que le réseau ne sera pas trop de retard ou d'un trouble, même si l'utilisateur est hors ligne, ce système de reconnaissance vocale est toujours disponible. Le modèle est toujours un travail de niveau caractère, même si vous parlez, il affichera le caractère de mot par caractère, comme si quelqu'un tapé en temps réel et précis d'écriture d'écoute ce que vous dites dans un clavier virtuel.

Par exemple, les deux images en écran affiche le cas lorsque la même phrase d'entrée dans les systèmes de dictée suivants: côté serveur gauche, à droite pour le côté local. De quel côté de l'expérience de reconnaissance vocale mieux?

Résumer, « hors ligne, sans aucun retard. » Ceci est également Google a montré la grande tuer.

Retard se produit parce que vos données vocales doivent être transférées du téléphone au serveur, puis résoudre pour terminer le retour. Cela peut prendre quelques millisecondes ou même quelques secondes. En cas de perte de paquets vocaux dans Ethernet, vous avez besoin d'un temps plus long.

Le discours de milliseconde en texte nécessite une puissance de calcul considérable. Ce n'est pas tout simplement entendre le son, puis écrire un mot si simple, mais il faut comprendre le sens d'un discours de la personne, et beaucoup de contexte sur la langue et l'intention impliqués.

Au téléphone, vous pouvez le faire, mais si oui, égoutter sur batterie.

Un bref historique du modèle de reconnaissance vocale

En général, le système de reconnaissance vocale composée de plusieurs parties: un segment audio (typiquement de trame 10 ms) est mis en correspondance avec les modèles de phonèmes acoustiques, la concaténation de modèle de phonème forme de sondage mots, un modèle de langage et d'exprimer un modèle donné. Dans les premiers systèmes, ces composants sont l'optimisation relativement indépendante.

2014, les chercheurs ont commencé à se concentrer sur la formation du réseau de neurones individuels, la forme d'onde audio d'entrée est mis en correspondance directement à la phrase de sortie. Approche des modèles d'apprentissage, cette séquence à séquence en générant une série de mots ou Glyphes dans une plage de fonctions audio conduit à la naissance du modèle basé sur l'attention et écoute-sort assister (LAS). Bien que ces modèles ont montré une grande promesse en termes de précision, mais ils seront généralement vérifier la séquence d'entrée entière, et ne permet pas de sortie lorsque l'entrée, qui est une transcription vocale en temps réel de caractéristique essentielle.

A la même technologie de temps, appelé connexionniste classification temporelle (CTC) contribue à réduire le système d'identification des problèmes de retard de temps. Ceci est une étape importante pour la création plus tard l'architecture RNN-T, il est également considéré comme une généralisation de la technologie CCT.

(Note de l'éditeur: CTC, son Connectionist entièrement appelé temporelle Classfication, proposé par Graves et al 2006, utilisé pour former le réseau de neurones récurrents (RNN) pour résoudre le problème de la séquence temporelle variable qui peut être utilisé pour la reconnaissance de l'écriture manuscrite en ligne, la reconnaissance vocale ou audio.. phonèmes et d'autres tâches. développement à nos jours, la CCT plus un nouveau terme, son utilisation dans l'industrie est très mature. Par exemple, dans une méthode d'entrée de reconnaissance vocale en ligne Baidu a récemment publié son dernier modèle de voix en fonction de la CCT intègre également attention, et d'autres nouvelles technologies.)

Qu'est-ce RNN-T?

RNN-T est un non-utilisation de modèles de séquence à séquence de mécanismes d'attention. Contrairement à la plupart modèle séquence à séquence (typiquement besoin de traiter la séquence d'entrée entière (à savoir, dans la reconnaissance vocale est une forme d'onde) pour produire une phrase de sortie) différent, RNN-T traiter en continu des échantillons d'entrée et délivre en sortie le flux de symboles.

Sortie caractères de l'alphabet symbole. sortie RNN-T le caractères un par un, et entre les espaces dans la bonne position. Elle le fait à travers une boucle de rétroaction, les symboles de formation du modèle de prédiction réintroduites celle-ci pour prédire le symbole suivant. Comme le montre la figure.

les échantillons sonores x et y représentent l'entrée de symbole prédite RNN-T. symbole prédite (couche de sortie Softmax) est à nouveau alimenté vers le réseau par le modèle de prédiction.

Ce modèle de formation efficace a été très difficile, mais avec le développement de nouvelles techniques de formation afin de réduire davantage le mot taux d'erreur de 5%, il devient plus intensive informatiquement. Pour résoudre ce problème, les chercheurs ont mis au point un processus de mise en uvre parallèle, de sorte que la perte de fonction RNN-T en grande quantité peut fonctionner sur Google Cloud TPU v2. La formation pour atteindre environ 3 fois l'accélération.

reconnaissance hors-ligne

Dans le moteur de reconnaissance vocale classique, l'acoustique, prononciation de la parole et le modèle en une combinaison d'une grande recherche graphique (recherche graphique), qui est marqué avec un bord et des probabilités d'unité de parole.

Lorsque la forme d'onde vocale est présenté au système de reconnaissance, « décodeur » dans le cas d'un signal d'entrée donné va rechercher le trajet de la figure de similarité le plus élevé, le chemin d'accès et la séquence de mots de lecture employée.

En général, le modèle de décodeur en utilisant une base de capteur à états finis (Finite State Transducer, FST) FIG.

Cependant, en dépit de la technique de décodage complexe, recherche graphique est encore très difficile, parce que le modèle de production presque 2 Go. Ce n'est pas un souhait sur un hébergement de téléphone mobile peut être réalisé, de sorte que cette méthode nécessite une connexion en ligne fonctionne correctement.

Afin d'améliorer l'efficacité de la reconnaissance vocale, les chercheurs tentent d'hébergement un nouveau modèle directement sur l'appareil afin d'éviter les retards et le manque de fiabilité inhérente du réseau de communication.

Ainsi, la fin ne nécessite pas une recherche sur grand décodeur de la figure. Au lieu de cela, à travers le décodeur de recherche de faisceau comprend un réseau de neurones (recherche par faisceau).

RNN-T a le même avec la précision classique du modèle basé sur le côté serveur, mais le premier est seulement 450 Mo, et une utilisation plus intelligente de paramètres et de dossier d'information. Mais même dans les smartphones d'aujourd'hui, 450MB ou prendre beaucoup d'espace, par exemple, est susceptible d'être la propagation du signal lent à travers de grands réseaux.

Ainsi, les chercheurs en utilisant le paramètre de quantification et de mélange des techniques pour réduire davantage la taille de base du modèle. La technologie avait été libéré au début de 2016, et a fourni une boîte à outils d'optimisation de modèle open tensorflow la version Lite.

Modèle pour quantifier fournir une formation par rapport à quatre fois le modèle en virgule flottante compression pour obtenir une accélération de quatre fois au moment de l'exécution, ce qui rend la voix en temps réel sur le noyau RNN-T que seul passage plus rapide. Après compression, la taille du modèle final seulement 80Mo.

Quelle est l'efficacité?

Google a révélé cette nouvelle fonctionnalité après, TechCrunch a fait remarquer que, « compte tenu des autres produits Google est presque pas en ligne de travail, alors vous écrire un e-mail en mode hors ligne? Bien sûr, dans le cas de conditions de réseau pauvres, l'application de la nouvelle fonctionnalité peut résoudre les points de douleur de l'utilisateur, mais évidemment, cela est un peu ironique (insipide) ".

Ceci est aussi un temps pour attirer un grand nombre de commentaires des utilisateurs sur HackerNews, ils seront également en partie dirigée contre le soi-disant « hors ligne »:

« Hors ligne mais pas l'attraction principale, mais comme mentionné dans cet article, de réduire la latence problème est énorme. Ils ne peuvent pas mentionner est l'impact sur les questions de confidentialité. Cependant, les utilisateurs ne traitent généralement pas avec le tout, mais si vous avez besoin d'un flux régulier de paquets de données avant et en arrière, la connexion réseau est très gênant ".

Cependant, après les tentatives des utilisateurs encore très optimistes: « Je viens changé mon modèle de vol génération pixel1 et essayer l'entrée vocale et bien sûr, il est hors de travailler très vite ce très impressionnant (je devais essayer.! aussi, mais il ne peut être compris dans le passé une phrase spéciale.) comment de bons moyens pour parvenir à cette fonction fait, mais je pense que toute application peut bénéficier d'une amélioration de la voix ».

Pour cette raison, j'ai délibérément téléchargé le Gboard, mouche audition, Baidu trois méthode d'entrée vocale, et prouvé comment ils effet en mode vol.

Round 1:

Gboard: Pixel est actuellement téléphone mobile non-voix est pas encore disponible en ligne, et même pour certains modèles ne prennent pas en charge la voix. Cependant, la frappe est très douce et soyeuse.

Round 2:

IFLYTEK: paquets vocaux téléchargeables en ligne, mais dans des circonstances normales réseau ouvert, la vitesse de reconnaissance vocale et la précision est encore assez élevé.

Round 3:

Baidu: discours en ligne peut également être téléchargé, pas d'état de connexion réseau, l'effet de la reconnaissance vocale est possible.

Je ne sais pas le pays utilisent souvent mouche audition, petits partenaires méthode d'entrée Baidu, voir les nouvelles Quelles pensées? messages de bienvenue.

Référence: https: //ai.googleblog.com/2019/03/an-all-neural-on-device-speech.html

(Cet article technologie AI Stronghold l'article original, reproduit, s'il vous plaît le contact WeChat 1092722531)

Le développement collaboratif du cinquième anniversaire de Beijing, Tianjin, trois représentants des membres de la CCPPC et de l'APN suggestions et des idées pour l'avenir
Précédent
Guangzhou Automobile Mitsubishi Wilson mesure de la longueur du morceau (D) facilement contrôle / frein à main
Prochain
Acheter SSD ne se soucient que la capacité? Jetez un coup d'il les différences entre les différents maîtres-le!
Bleu Sky Battle | festival, Qianlong vous prendre dans la « déesse verte » tous les jours
Plus « L » des sept confiance? Dongfeng tir réel populaire - T5L populaire
Comment rire quand prendre des photos, de ne pas artificiel naturel?
Huawei dans les plupart des téléphones Android rentables, mais l'iPhone a enlevé 91% des bénéfices de smartphones mondiaux
Ville de choses Zhejiang | que la nouvelle plate-forme dans la subvention nette augmentation des revenus d'environ mensuel de plus de 10.000 voitures le jour revenir?
Les souvenirs! Les deux fois populaire jeu maintenant revenir à
froid en direct Panda, après avoir combattu la Seconde Guerre mondiale que des plumes de poulet en direct partout! | Chatteris
Pékin Lianhuachi Parc de la « expansion » 4,2 hectares, l'établissement d'observation des oiseaux et la station falaise sous-marine
Dans les titres achetés sur le tiroir revenu des produits numériques en quelques coups vous?
Regardez le film Facile à comprendre « la Trie »
Dongcheng Administration générale des communautés sportives activités artisanales pour célébrer « Mars »