�quipe chinoise � une nouvelle �tude, l'ordinateur � niveau de vocabulaire lecture labiale � pour am�liorer la pr�cision de 84,41%

Ces derni�res ann�es, avec le d�veloppement rapide de la profondeur de l'apprentissage et un large �ventail d'applications potentielles, de plus en plus d'attention par la technologie de lecture labiale bas�e sur la vision informatique, il a de nombreuses applications, telles que la reconnaissance vocale auxiliaire, l'authentification biom�trique dans la pratique, l'aide malentendants et ainsi de suite.

Mais la difficult� est tr�s �lev�e t�che la lecture labiale, est de savoir comment obtenir efficacement un point cl� des informations de mouvement des l�vres, ainsi que la r�sistance � identifier les difficult�s caus�es par le geste, la lumi�re change, l'apparence du haut-parleur perturbations, changement de vitesse de la parole, etc. De plus, comment l'image des l�vres comporte le texte et le vocabulaire de distinguer avec pr�cision entre homophones ou association est aussi un d�fi.

De l'Universit� du Zhejiang, l'Acad�mie chinoise des sciences chercheurs traitement de l'information intelligente et cl� de laboratoire de l'Institut de technologie de l'informatique de ces probl�mes, les caract�ristiques locales et globales de la couche d'information de s�quence de couches dans la retenue mutuelle, afin d'am�liorer les caract�ristiques visuelles et le contenu de la l�vre vocale relation.

En testant sur certains des principaux ensembles de donn�es, l'�quipe m�thode propos�e devrait en m�me temps a une bonne capacit� d'identifier et de robustesse, afin d'obtenir la lecture labiale efficace.

Carte | Niveau de lecture labiale mot est une t�che difficile. (A), le mot de sous-titres de trame r�elle � environ � comprend seulement un cadre � l'�tape de temps T = 12 ~ 19. (B) la m�me �tiquette de mot change toujours avec l'apparition en constante �volution. (Source: arXiv)

branche de la lecture labiale de l'art il y a un niveau technique important vocabulaire de lecture � savoir la l�vre pour cette t�che, la n�cessit� d'une vid�o d'entr�e avec un commentaire pour chaque �tiquette de mot unique, bien qu'il y ait d'autres mots dans la m�me vid�o, comme indiqu� ci-dessus: (a) �chantillons vid�o comprenant un total de 29, a �t� annot�es comme � environ �, mais le mot � environ � trame comprenant seulement le temps de l'�tape r�elle T = 12 ~ 19 du cadre, cela correspond de trame � des intervalles avant et apr�s le mot � juste � et " TEN �plut�t que � sur �. Sur la base de l'�tude de la l�vre visuelle, nous avons toujours difficile de tirer des limites exactes d'un mot.

Cette fonction n�cessite un bon mod�le pour apprendre � lire sur les l�vres caract�ristiques potentielles mais coh�rentes dans la m�me �tiquette de mot r�fl�chi autre vid�o, permettant de se concentrer plus efficacement des images cl�s, et moins d'attention � un autre cadre sans rapport.

En plus des mots de d�fi aux limites impr�cises, les �chantillons vid�o correspondant au m�me mot d'�tiquette est toujours une grande vari�t� et le changement d'apparence, tels que (b), toutes ces caract�ristiques sont n�cessaires pour r�sister au mod�le de s�quence de lecture labiale bruit, capturant ainsi le mode dans les m�mes conditions de parole potentiels diff�rents.

En m�me temps, en raison de la surface effective limit�e de l'action des l�vres, des mots diff�rents Speak peut pr�senter un ph�nom�ne similaire. la pr�sence d'homonymie, diff�rents mots peuvent sembler identiques ou tr�s similaires, a augment� le nombre de difficult�s suppl�mentaires, ces attributs peuvent �tre trouv�s dans la diff�rence exigences du mod�le � grain fine associ�s au niveau de la trame des mots diff�rents pour distinguer chaque mot en particulier.

Pour r�soudre ce probl�me, les chercheurs ont introduit la maximisation de l'information mutuelle (MIM) � diff�rents niveaux pour aider � la robustesse du mod�le d'apprentissage et de repr�sentation distingu�, afin d'obtenir une lecture labiale efficace.

Dans un aspect, en appliquant des contraintes locales afin de maximiser l'information mutuelle (LMIM) dans lequel � chaque pas de temps pour contraindre g�n�r�, une forte corr�lation entre celle-ci et le contenu vocal, augmentant ainsi le mouvement du mod�le de l�vres ont trouv� la possibilit� de bien, nuances entre les mots sonnant similaires, tels que � d�penses � et � passer �, d'autre part, l'introduction de la s�quence d'information mutuelle des contraintes de maximisation (GMIM) au niveau mondial, de sorte que le mod�le peut �tre plus pertinent de faire la distinction entre le contenu de la parole images cl�s et toutes sortes de bruit se produisant au cours de parler moins.

�Carte | architecture de base (Source: arXiv)

En outre, GMIM for�ant le mod�le � apprendre diff�rents �chantillons de mod�le global potentiel compatible avec une �tiquette de mot, tout robuste aux changements de posture, l'�clairage, et d'autres conditions non li�es; LMIM peut am�liorer chaque grains fins pas de temps mots de sport du renforcer davantage les diff�rences entre les diff�rents mots. En combinant ces deux types de contraintes, le mod�le peut automatiquement d�couvrir et cadre efficace important de distinguer entre le mot cible, tout en ignorant autre cadre sans rapport, afin d'am�liorer encore la pr�cision de la reconnaissance.

Carte | identifier les am�liorations aux mots similaires sondage (source: arXiv)

Enfin, l'�quipe en deux donn�es mot-niveau � grande �chelle d�finit LRW et la lecture labiale m�thodes de mod�le de reconnaissance traditionnels l�vre LRW-1000 homologues ont fait une �valuation comparative de l'�chantillon propos� les deux ensembles de donn�es sont d'une vari�t� de collection d'�missions de t�l�vision et les conditions de pr�sentations varient consid�rablement, couvrant un large �ventail de conditions d'�clairage, y compris la condition de parler, la r�solution, la position, le sexe, etc., maquillage.

LRW publi� en 2016, y compris l'�chantillon � l�vres 500 mots, plus de 1000 le nombre de haut-parleurs d'instances, la formation devrait atteindre 488766, le nombre d'instances de chaque ensemble de v�rification et de test pour 25000; LRW-1000 jeu de donn�es est mot-niveau des ensembles de donn�es de r�f�rence d'une grande distribution naturelle, un total de 1000 mots chinois, un total d'environ 718018 �chantillons d'exemple, la dur�e d'environ 57 heures, mais l'ensemble de donn�es est destin� � couvrir les mod�les de la parole naturelle changement dans des conditions diff�rentes d'imagerie et d'inclure des applications pratiques difficult�s rencontr�es.

Carte | par rapport au champ pr�c�dent des plus de r�sultats mod�le test avanc� (Source: arXiv)

Le jeu de donn�es LRW, apr�s l'introduction LMIM, en fonction de la pr�cision au niveau de r�f�rence a augment� d'environ 1,19%, LMIM devrait capturer plus � grains fins et des traits distinctifs de la t�che principale, tout en introduisant GMIM mis pour am�liorer la pr�cision de 84,41%, principalement gr�ce � son accent diff�rent sur diff�rents cadres.

Cependant, dans les donn�es LRW-1000 d�finies en raison de sa voix plus grande aux conditions changeantes, y compris les conditions d'�clairage, la r�solution, l'�ge du haut-parleur, la position, le sexe, le maquillage, l'industrie avait les meilleurs r�sultats des tests de seulement 38,19%. Obtenir de bons r�sultats de reconnaissance sur cet ensemble de donn�es reste un d�fi, de nouveaux mod�les ont acquis une pr�cision de reconnaissance 38,79% de, l�g�rement mieux que les derniers r�sultats disponibles.

Les r�sultats montrent que la m�thode propos�e dans cette �quipe sans l'utilisation de donn�es suppl�mentaires ou d'un mod�le de pr�-formation compl�mentaire, par rapport aux deux autres ensembles de donn�es difficiles mod�le de reconnaissance des l�vres, montrant un nouveau statut de performance en temps r�el de . En outre, l'�quipe a dit, la m�thode peut �galement �tre facilement modifi� comme mod�le pour d'autres t�ches, en fournissant des informations int�ressantes pour l'�tude d'autres t�ches.

Route de la soie

Apprenez � conna�tre la Chine

�quipe chinoise � une nouvelle �tude, l'ordinateur � niveau de vocabulaire lecture labiale � pour am�liorer la pr�cision de 84,41%