Les humains ne peuvent pas lire sur les l�vres? Pour l'apprentissage en profondeur, pr�cision jusqu'� 84,41%

Lire sur les l�vres, ce qui est devant nous un probl�me difficile que la plupart des gens lisent seulement une moyenne d'un dixi�me de la lecture labiale. Ensuite, l'AI peut le faire?

D�s 2016, le laboratoire d'intelligence artificielle � l'Universit� d'Oxford, Google DeepMind et l'Institut canadien d'�tudes avanc�es (ICRA) sur le d�veloppement conjoint d'une combinaison d'�tude technique approfondie du programme de lecture labiale LipNet. Ensuite, pour am�liorer la pr�cision de la lecture labiale ordinateur, il est devenu un d�fi important dans le domaine.

R�cemment, de l'Universit� du Zhejiang, Laboratoire cl� de l'Institut Traitement de l'information intelligente de la technologie informatique, l'�quipe de recherche de l'Universit� Acad�mie chinoise des sciences est co-parrain� par l'introduction mutuelle sur la couche de fonction locale et la s�quence des informations de contrainte globale de la couche, et la voix am�lior�e pr�sente bouche la relation entre le contenu, la pr�cision de la lecture labiale ordinateur jusqu'� 84,41%.

Heure locale le 13 Mars, 2020, des documents li�s � l'information mutuelle efficace pour Maximisation la lecture labiale (lecture labiale maximisation de l'information mutuelle efficace) publi�e sur le site de pr�publication arXiv.

R�soudre les probl�mes � inh�rents � du niveau de vocabulaire de lecture l�vre

Lecture labiale (lecture labiale / discours-lecture), simplement, est d'observer les changements dans la bouche de l'orateur, et � lire � le contenu de son expression. En fait, le processus de lecture labiale est l'utilisation de l'information visuelle suppl�mentaire canal information de canal auditif, il a une signification pratique pour l'audition des groupes les plus faibles de travailleurs dans un environnement bruyant, ainsi que les organismes d'application de la loi.

Dans le contexte de la vision par ordinateur, la profondeur de la lecture labiale comme bas�e sur un mod�le d'apprentissage, plus �tre utilis� pour le contenu de la parole de d�duisent de la vid�o, l'audio peut �tre bas�e sur la reconnaissance vocale auxiliaire, et d'autres authentification biom�trique.

Dans le document, l'�quipe de recherche fait r�f�rence au � niveau de vocabulaire lecture labiale � concept (niveau mot lecture labiale) de. En fait, une branche du niveau de vocabulaire est la lecture labiale lecture labiale, mais aussi l'�quipe de recherche a port� sur la direction de la recherche, il a un probl�me � inh�rent �.

Tout d'abord, m�me s'il y a d'autres mots dans la m�me vid�o, chaque �tiquette d'entr�e vid�o sont utilis�s pour annoter un seul mot. Par exemple, sur la Fig. 29 comprend un cadre total de l'�chantillon vid�o est annot� comme � environ �, mais le cadre r�el � environ � terme comprend seulement une partie de la trame � l'instant T = 12 ~ 19 � l'�tape, � savoir la zone rouge, et mots avant et apr�s la trame correspondant � la zone rouge sont � juste � et � TEN �.

Cet exemple refl�te un vocabulaire de niveau sup�rieur question de la lecture labiale - Mod�le ne peut pas se concentrer compl�tement sur keyframe efficace, et par cons�quent la d�marcation des fronti�res de vocabulaire impr�cis .

En second lieu, exemple d'�cran vid�o dans les m�mes conditions, il y a souvent un changement d'�tiquette . Par exemple, l'�cran de la figure appartiennent � la vid�o label � sur �.

Les deux caract�ristiques au niveau des mots n�cessite mod�le lecture labiale lecture labiale peut r�sister � la s�quence de bruit, capturant ainsi le potentiel dans divers mod�les compatibles avec l'environnement de la voix.

De plus, capturer la bouche de fa�on pr�cise du changement est pas facile - mots de sondage similaires comme la bouche, l'identification homophones sont �galement plus difficile de faire la mise � niveau.

En fait, assurer une bonne performance de l'ordinateur de la lecture labiale, il d�pend en grande partie sur deux points:

Que change la bouche de capture efficacement;
Que ce soit contre le bruit efficace caus� par un changement dans la pose, l'�clairage, l'apparence des haut-parleurs.

L'introduction de diff�rents niveaux de � maximisation de l'information mutuelle �

Lei r�seau appris l'information mutuelle (information mutuelle, MI) pour mesurer la quantit� de la relation de base entre deux variables al�atoires, quand donn� une variable al�atoire, il est toujours utilis� pour calculer une autre variables al�atoires ont la quantit� d'informations. Sur cette base, l'information mutuelle de deux variables al�atoires est toujours utilis� pour mesurer l'interd�pendance entre les deux variables.

Pour r�soudre ces probl�mes, l'�quipe de recherche approche essentiellement deux volets, l'introduction de diff�rents niveaux de � maximisation de l'information mutuelle � (maximisation de l'information mutuelle, MIM), vise � rendre le mod�le avec une meilleure capacit� d'identifier et de robustesse, la lecture labiale pour assurer plus efficace.

Lei Feng r�seau [Note: L'architecture de base]

D'un c�t� L'�quipe de recherche appliqu�e contraintes � de maximisation de l'information mutuelle locale � (maximisation de l'information mutuelle locale, LMIM) limitant fonction g�n�r�e chaque pas de temps, de sorte qu'ils puissent avoir une relation forte avec le contenu de la voix, am�liorant ainsi le mod�le trouv� dans des ajustements fins de la bouche et la capacit� de la diff�rence entre les mots semblables � consonance (tels que � d�penses � et � d�penses �) est.

Lei Feng r�seau [Note: le r�seau de base de formation LMIM]

En revanche L'�quipe de recherche a introduit des contraintes � maximisation de l'information mutuelle globale � (maximisation mondiale d'information mutuelle, GMIM), rend le mod�le plus d'attention � la reconnaissance vocale li�e au contenu des images cl�s, alors que moins d'attention au bruit qui peuvent survenir.

[R�seau de base de formation GMIM]

LRW-1000 � l'aide LRW et �valuation

Pour valider cette approche, l'�quipe de recherche a utilis� deux grands ensembles de donn�es de niveau de vocabulaire pour l'�valuer, il a proc�d� � une analyse d�taill�e de plusieurs autres l�vres mainstream m�thode d'identification de mod�le, par rapport � la ligne de base, y compris LMIM et GMIM comparaison, la profondeur de la visualisation d'apprentissage.

Ce qui suit est l'information sp�cifique des deux ensembles de donn�es:

LRW: sorti en 2016, avec une taille totale de l'�chantillon de 488766, dont 500 niveau de vocabulaire, impliquant plus de 1000 haut-parleurs, de grands discours diff�rences environnementales. La principale m�thode est largement utilis�e ensemble de donn�es de lecture sur les l�vres, d�fiant ensemble de donn�es;
LRW-1000: une taille totale de l'�chantillon de 70000, la longueur totale de temps de 57 heures, y compris le niveau de 1000 mots. L'ensemble des donn�es est destin� � couvrir diff�rents mod�les de la parole et l'�tat de l'�cran, de sorte que combin� avec les d�fis rencontr�s dans les applications pratiques.

�valu�e, l'�quipe se trouve GMIM La pr�cision est am�lior�e � 84,41% , Principalement en raison de ses caract�ristiques diff�rentes dans les diff�rents cadres de l'attention. Par rapport � d'autres m�thodes, en plus de la lecture labiale entr�e de l'information visuelle suppl�mentaire �trang�res, l'�quipe de recherche a �t� jusqu'� pr�sent la meilleure performance (voir ci-dessous) sur des ensembles de donn�es LRW.

En outre, en introduisant LMIM, l'identification de mod�le pour une prononciation similaire au mot qu'il a fait appara�tre une pr�cision plus importante et am�lior�e, par exemple les marques / de d�cision et politique / politique (ci-dessous).

En m�me temps, l'�quipe de recherche de l'effet GMIM �tait d'explorer davantage l'utilisation de la visualisation. Comme on le voit ci-dessous, les diff�rences suivantes entre ces mots pour �largir la gamme de -20 � 20 -40 � 60 - ce qui signifie que, avec l'introduction de GMIM, plus facile de faire la distinction entre les mots.

Visible, sans l'utilisation de donn�es suppl�mentaires ou d'un mod�le de pr�-formation suppl�mentaire, la m�thode ci-dessus de l'�quipe de recherche par rapport � d'autres performances de lecture labiale mainstream du mod�le est en effet plus important, et esp�re que cette m�thode fournit une r�f�rence pour les autres mod�les.

r�f�rences:

https://arxiv.org/abs/2003.06439

https://www.leiphone.com/news/201611/lmrRpn2DdOUoex3E.html

Route de la soie

Apprenez � conna�tre la Chine

Les humains ne peuvent pas lire sur les l�vres? Pour l'apprentissage en profondeur, pr�cision jusqu'� 84,41%

R�soudre les probl�mes � inh�rents � du niveau de vocabulaire de lecture l�vre

L'introduction de diff�rents niveaux de � maximisation de l'information mutuelle �

LRW-1000 � l'aide LRW et �valuation