la reconnaissance vocale Accent dans le plus grand ennemi du d�veloppement, de nouvelles solutions sont en cours d'�laboration

@ Source Vision Chine

Voix doute l'importance de l'interaction homme-ordinateur, les entreprises nationales et �trang�res, les deux � la vitesse de reconnaissance vocale, les aspects de pr�cision et en plusieurs langues de l'innovation continue, mais quand la machine face � ceux qui ont des accents, il semble pas sensibles: l'accent sera mis non seulement de se concentrer, ne r�pond pas, ou m�me de devenir une entit� distincte, aucune r�ponse. Comment r�soudre le probl�me de la reconnaissance d'accent, il est devenu le centre de la concurrence dans la prochaine �tape de la voix intelligente, mais ce n'est pas seulement une simple augmentation du corpus sera en mesure de mettre � niveau, mais heureusement il y a quelques entreprises ont commenc� par la construction d'un nouveau mod�le de voix, pour r�soudre l'accent probl�me .

Depuis Shoebox d'IBM et de mondes merveilles av�nement Julie Doll de la technologie de reconnaissance vocale a fait de grands progr�s. Il y a des rapports m�me que, d'ici la fin de 2018, Google Google adjoint soutiendra plus de 30 langues. En outre, Qualcomm a mis au point un peut reconna�tre les mots et les phrases d'un dispositif de reconnaissance vocale, jusqu'� taux de pr�cision de 95%. Et Microsoft a surpass�s ses solutions de centre d'appels (service vocal intelligent) est plus pr�cis que les humains ont �largi les services d'appel et plus efficace.

Mais il convient de noter que, bien que sous la b�n�diction de l'apprentissage automatique, la technologie de reconnaissance vocale a fait de grands progr�s, mais maintenant le syst�me de reconnaissance vocale est pas parfait. Par exemple, l'accent diff�rents domaines, de sorte que cette technologie a une forte � r�gion discriminatoire �. En r�gle g�n�rale, l'accent pour l'homme ne sont pas un gros probl�me, et parfois les gens se sentent une sorte de charme exotique, mais la machine, c'est un �cart insurmontable, nous pourrions �tre confront�s dans le processus de son d�veloppement le plus grand d�fi.

Des �tudes ont montr� que l'accent est l'un des d�fis de la technologie de reconnaissance vocale

R�cemment, le Washington Post en collaboration avec Globalme deux langues et Pulse soci�t� de recherche Labs, �quip� d'un probl�me d'accent de la technologie de reconnaissance vocale intelligente du haut-parleur de l'appareil a �t� �tudi�, la gamme �tudi�e de pr�s de 20 villes aux �tats-Unis, plus de 100 participants �mis des milliers de commandes vocales, les r�sultats ont montr� des diff�rences significatives dans ces syst�mes existent dans la compr�hension des gens de diff�rentes parties de la langue.

Par exemple, la pr�cision de Google Accueil Google identifie la reconnaissance intelligente accent haut-parleur Cisjordanie est sup�rieure � 3% l'accent du Sud, l'accent et la pr�cision de l'assistant de reconnaissance vocale Alexa accent Amazon Middle West de 2% inf�rieure de la c�te est. Mais face au plus gros probl�me est de maintenir l'accent non natif: Dans une �tude, le contenu et les mots r�els du groupe de test Alexa identifi�s et les r�sultats ont montr� aucun taux de pr�cision allant jusqu'� 30%. De plus, le visage de l'espagnol et le chinois comme premi�re langue que les gens parlent anglais, ou si Google Accueil Amazon Echo, son taux de reconnaissance est le plus bas, vous le savez, Latino-am�ricain et chinois sont les deux groupes d'immigrants .

Bien que cette �tude est informelle, il y a des restrictions, mais les r�sultats montrent encore que l'accent est toujours l'un des principaux d�fis auxquels sont confront�es les technologies de reconnaissance vocale. � cet �gard, Amazon dit dans une d�claration, � Comme de plus en plus d'�changes de personnes ont des accents diff�rents et Alexa, sera am�lior�e Alexa compr�hension. � Dans le m�me temps, Google a �galement dit que � dans l'expansion de l'ensemble de donn�es en m�me temps, nous continuerons d'am�liorer les capacit�s de reconnaissance vocale de Google Home ".

En fait, pas seulement une partie du bas Amazon Echo et Google Home, l'adoption Cortana Microsoft et Apple Siri est �galement vrai qu'ils ont besoin en temps opportun pour am�liorer sa propre technologie de reconnaissance vocale pour permettre aux utilisateurs de se sentir satisfaits en m�me temps, mais aussi dans le monde � port�e �tendre leur influence.

M�me corpus augment� ne peut pas r�soudre le probl�me de la reconnaissance d'accent

Avec le d�veloppement de l'intelligence artificielle, la voix est devenue l'une des fa�ons de base les gens interagissent avec l'ordinateur, de sorte que m�me avec la compr�hension de tr�s faibles �carts, cela pourrait signifier un �norme obstacle. En d'autres termes, les diff�rences linguistiques peuvent donner � ceux du syst�me de base scientifique et technologique moderne pour apporter des pi�ges potentiels, apr�s tout, en plus de la cuisine et salon, haut-parleur intelligente au lieu de travail de l'utilisateur, les �coles, les banques, les h�pitaux et les h�tels et autres lieux supporter un r�le plus important, en plus du dispositif de commande, mais aussi � l'information de transmission, et faire des travaux de recherche et de r�servation.

Afin d'am�liorer les circonstances d'accent assistant de reconnaissance vocale, comme Amazon et Google investissent des ressources, avec un nouveau syst�me de test de formation linguistique et l'accent, y compris la cr�ation du jeu afin d'encourager l'utilisation des dialectes dans les diff�rentes parties d'une conversation. Et comme des soci�t�s comme IBM et Microsoft, il sera de r�duire le taux d'erreur par assistant vocal corpus Switchboard. Mais il se trouve, le corpus ne peut pas r�soudre compl�tement le probl�me de l'assistant accent de reconnaissance vocale.

� cet �gard, la responsabilit� globale d'Accenture supervision AI Rumman Chowdhury a d�clar�: � les donn�es sont source de confusion, car les donn�es refl�tent l'humanit� de l'algorithme fait le mieux: la recherche de mod�les de comportement humain. �

Cette situation est appel�e algorithme � �cart de l'algorithme �, le degr� de biais pour la r�action des mod�les d'apprentissage de la machine ou les donn�es de conception g�n�r�s. Par exemple, il existe de nombreux rapports montrent que la sensibilit� de la technologie de reconnaissance faciale - en particulier la technologie de reconnaissance d'images Amazon AWS Rekognition-- ont une grande tendance � des pr�jug�s. De plus, l'�cart de l'algorithme appara�t dans d'autres domaines, comme le d�fendeur de pr�dire si les algorithmes de recommandation de contenu dans des applications telles que Google Nouvelles et la criminalit� derri�re l'avenir.

Construire le mod�le de reconnaissance vocale pour am�liorer le dialecte taux de reconnaissance

Bien qu'il y ait eu de nombreux pr�jug�s de l'algorithme propos� g�ant contre des solutions telles que Microsoft, IBM, Facebook, Qualcomm et Accenture ont d�velopp� des outils automatis�s pour la d�tection de biais d'Amnesty International, mais peu d'entreprises pour la technologie de reconnaissance vocale probl�mes d'accent rencontr�s proposent des solutions sp�cifiques. � cet �gard, Speechmatics Nuance et il est devenu l'un des rares personnes.

Speechmetrics est une entreprise sp�cialis�e dans les logiciels de reconnaissance vocale soci�t� de technologie Cambridge, a lanc� a commenc� il y a 12 ans un ambitieux programme visant � d�velopper plus pr�cis que tout autre produit sur le march�, pack de langue plus complet. Il est entendu que le d�but de l'�tude, l'emploi principal de l'entreprise circule la mod�lisation du langage statistique et des r�seaux de neurones, et donc mis au point un mod�le d'apprentissage de la machine peut g�rer la s�quence de sortie de m�moire.

2014, Speechmetrics � travers un corpus de 10 giga-octets pour acc�l�rer les progr�s de la mod�lisation statistique du langage, 2017 avec l'Institut du Qatar recherche (QCRI) pour d�velopper le service de conversion de texte en langue arabe est calcul�, on peut dire que c'est la soci�t� acquise un progr�s marquant.

En Juillet de cette ann�e, la soci�t� a une nouvelle fois d�pass� - d�velopp� avec succ�s un syst�me de reconnaissance vocale mondial anglais, y compris des milliers d'heures de plus de 40 pays de donn�es vocales dans le monde entier et plusieurs dizaines de milliards de mots, que le soutien � tous les grands � accent anglais conversion de texte vocal. De plus, ce syst�me est bas� sur automatique Linguiste de Speechmatic, c'est un cadre AI pour apprendre une nouvelle langue en fonction de la langue en utilisant un mode de reconnaissance de la langue connue.

Dans l'essai d'accent particulier, Global English surperform� Discours API Cloud de Google et le pack de langue Cloud IBM anglais. Speechmatic selon que � l'extr�mit� sup�rieure, la pr�cision du syst�me est plus �lev�e que les autres produits de 23% � 55%.

Mais Speechmatics pas la seule entreprise qui essaie de r�soudre le probl�me de l'identification des accents.

Nuance a son si�ge dans le Massachusetts, il a dit que la compagnie utilise une vari�t� de m�thodes pour faire en sorte que son mod�le de reconnaissance vocale avec la m�me pr�cision peut �tre identifi� environ 80 langues.

Par exemple, dans son mod�le de reconnaissance vocale en anglais, la soci�t� collecte des donn�es vocales et de texte 20 r�gions dialectaux de sp�cifiques, comprenant chacun un mot unique et son dialecte de prononciation. Ainsi, le syst�me de reconnaissance vocale Nuance peut reconna�tre que le mot � Heathrow � de 52 variantes diff�rentes.

R�cemment syst�me de reconnaissance vocale Nuance a �galement �t� grandement am�lior�e. Les nouvelles versions du Dragon est la soci�t� a publi� une suite logicielle voix-texte personnalis�, mod�le d'apprentissage de la machine utilis�e, peut basculer automatiquement entre plusieurs dialectes diff�rents mod�les en fonction de l'accent de l'utilisateur. En outre, par rapport � l'ancienne version est pas de fonction de commutation automatique, la nouvelle version de la pr�cision de reconnaissance anglais avec l'accent espagnol � 22,5% pour le dialecte du sud des �tats-Unis, le taux de pr�cision � 16,5% pour l'accent anglais Asie du Sud le taux de pr�cision plus �lev� de 17,4%.

En fait, les chercheurs ont d�couvert depuis longtemps il y a les probl�mes de reconnaissance vocale d'accent rencontr�s. � cet �gard, les ing�nieurs et linguistes AI ont dit que la formation linguistique non autochtone est souvent difficile, parce que le mod�le entre la langue � plus d'une sorte de fa�ons diff�rentes pour passer. En m�me temps, le contexte est �galement important, m�me si les deux parties modifient �galement les nuances du dialogue. Mais ce qui est certain est que le manque de diversit� des donn�es vocales peuvent finir par inadvertance des � discrimination r�gionale �. En d'autres termes, Plus le nombre d'�chantillons de parole de corpus et de la diversit�, plus pr�cis que le mod�le a �t� - au moins en th�orie .

Bien s�r, ce probl�me ne sont pas seulement les entreprises am�ricaines doivent �tre pris en compte. Baidu senior fellow au bureau de la Silicon Valley de Gregory Diamos a d�clar� que la soci�t� fait face � ses propres d�fis, � savoir le d�veloppement d'une intelligence artificielle de peut �tre compris dans de nombreux dialectes chinois. En outre, de nombreux ing�nieurs ont �galement dit que pour d�velopper le genre d'accent non seulement r�pondre � des questions, mais aussi libre de soci�t� de logiciels de conversation naturelle, est l'un des plus s�rieux d�fis.

En mai de cette ann�e, Google a introduit un syst�me appel� le Duplex, le ton r�aliste de la voix peut �tre appel�e r�servations compl�tes restaurant, tout le processus est � pas lisse voix, � parce que le milieu sera m�lang�, � ah �, � euh � et le ton mot. Dans une certaine mesure, ce peuple de la technologie ont un tel sentiment: cette machine �coute mes paroles. Un utilisateur, il semble pris au pi�ge dans une zone grise, bien que l'on peut comprendre, mais il semble hors de l'air avec le robot.

Selon le cabinet d'�tudes de march� Canalys, en 2019, il y aura pr�s de 100 millions d'unit�s dans les ventes mondiales de haut-parleurs intelligents, et en 2022, environ 55 pour cent des m�nages am�ricains auront un syst�me vocal intelligent. Dans la petite vue Zhijun, en �tudiant un grand nombre de donn�es vocales et mod�les vocaux, la compr�hension de la formation d'un lien clair entre les diff�rents mots, des phrases et des sons, l'intelligence artificielle sera capable de mieux comprendre les diff�rents accents, pour am�liorer la reconnaissance.

Mais ne vous attendez pas une � solution miracle �, apr�s tout, conform�ment au d�veloppement de la technologie maintenant, nous ne pouvons nous attendre � bient�t �tre en mesure de d�velopper un taux de pr�cision tr�s �lev�, mais peut �tre appliqu� � un syst�me de reconnaissance vocale pour tous les utilisateurs de la langue. Aujourd'hui, les utilisateurs peuvent r�pondre aux besoins des accents utilis�s, fera.

Plus de contenu passionnant, l'attention des m�dias titane signal de micro (ID: taimeiti), titane ou t�l�charger les m�dias App

Route de la soie

Apprenez � conna�tre la Chine

la reconnaissance vocale Accent dans le plus grand ennemi du d�veloppement, de nouvelles solutions sont en cours d'�laboration

Des �tudes ont montr� que l'accent est l'un des d�fis de la technologie de reconnaissance vocale

M�me corpus augment� ne peut pas r�soudre le probl�me de la reconnaissance d'accent

Construire le mod�le de reconnaissance vocale pour am�liorer le dialecte taux de reconnaissance