Les humains ne peuvent pas lire sur les lèvres? Pour l'apprentissage en profondeur, précision jusqu'à 84,41%

Lire sur les lèvres, ce qui est devant nous un problème difficile que la plupart des gens lisent seulement une moyenne d'un dixième de la lecture labiale. Ensuite, l'AI peut le faire?

Dès 2016, le laboratoire d'intelligence artificielle à l'Université d'Oxford, Google DeepMind et l'Institut canadien d'études avancées (ICRA) sur le développement conjoint d'une combinaison d'étude technique approfondie du programme de lecture labiale LipNet. Ensuite, pour améliorer la précision de la lecture labiale ordinateur, il est devenu un défi important dans le domaine.

Récemment, de l'Université du Zhejiang, Laboratoire clé de l'Institut Traitement de l'information intelligente de la technologie informatique, l'équipe de recherche de l'Université Académie chinoise des sciences est co-parrainé par l'introduction mutuelle sur la couche de fonction locale et la séquence des informations de contrainte globale de la couche, et la voix améliorée présente bouche la relation entre le contenu, la précision de la lecture labiale ordinateur jusqu'à 84,41%.

Heure locale le 13 Mars, 2020, des documents liés à l'information mutuelle efficace pour Maximisation la lecture labiale (lecture labiale maximisation de l'information mutuelle efficace) publiée sur le site de prépublication arXiv.

Résoudre les problèmes « inhérents » du niveau de vocabulaire de lecture lèvre

Lecture labiale (lecture labiale / discours-lecture), simplement, est d'observer les changements dans la bouche de l'orateur, et « lire » le contenu de son expression. En fait, le processus de lecture labiale est l'utilisation de l'information visuelle supplémentaire canal information de canal auditif, il a une signification pratique pour l'audition des groupes les plus faibles de travailleurs dans un environnement bruyant, ainsi que les organismes d'application de la loi.

Dans le contexte de la vision par ordinateur, la profondeur de la lecture labiale comme basée sur un modèle d'apprentissage, plus être utilisé pour le contenu de la parole de déduisent de la vidéo, l'audio peut être basée sur la reconnaissance vocale auxiliaire, et d'autres authentification biométrique.

Dans le document, l'équipe de recherche fait référence au « niveau de vocabulaire lecture labiale » concept (niveau mot lecture labiale) de. En fait, une branche du niveau de vocabulaire est la lecture labiale lecture labiale, mais aussi l'équipe de recherche a porté sur la direction de la recherche, il a un problème « inhérent ».

Tout d'abord, même s'il y a d'autres mots dans la même vidéo, chaque étiquette d'entrée vidéo sont utilisés pour annoter un seul mot. Par exemple, sur la Fig. 29 comprend un cadre total de l'échantillon vidéo est annoté comme « environ », mais le cadre réel « environ » terme comprend seulement une partie de la trame à l'instant T = 12 ~ 19 à l'étape, à savoir la zone rouge, et mots avant et après la trame correspondant à la zone rouge sont « juste » et « TEN ».

Cet exemple reflète un vocabulaire de niveau supérieur question de la lecture labiale - Modèle ne peut pas se concentrer complètement sur keyframe efficace, et par conséquent la démarcation des frontières de vocabulaire imprécis .

En second lieu, exemple d'écran vidéo dans les mêmes conditions, il y a souvent un changement d'étiquette . Par exemple, l'écran de la figure appartiennent à la vidéo label « sur ».

Les deux caractéristiques au niveau des mots nécessite modèle lecture labiale lecture labiale peut résister à la séquence de bruit, capturant ainsi le potentiel dans divers modèles compatibles avec l'environnement de la voix.

De plus, capturer la bouche de façon précise du changement est pas facile - mots de sondage similaires comme la bouche, l'identification homophones sont également plus difficile de faire la mise à niveau.

En fait, assurer une bonne performance de l'ordinateur de la lecture labiale, il dépend en grande partie sur deux points:

  • Que change la bouche de capture efficacement;

  • Que ce soit contre le bruit efficace causé par un changement dans la pose, l'éclairage, l'apparence des haut-parleurs.

L'introduction de différents niveaux de « maximisation de l'information mutuelle »

Lei réseau appris l'information mutuelle (information mutuelle, MI) pour mesurer la quantité de la relation de base entre deux variables aléatoires, quand donné une variable aléatoire, il est toujours utilisé pour calculer une autre variables aléatoires ont la quantité d'informations. Sur cette base, l'information mutuelle de deux variables aléatoires est toujours utilisé pour mesurer l'interdépendance entre les deux variables.

Pour résoudre ces problèmes, l'équipe de recherche approche essentiellement deux volets, l'introduction de différents niveaux de « maximisation de l'information mutuelle » (maximisation de l'information mutuelle, MIM), vise à rendre le modèle avec une meilleure capacité d'identifier et de robustesse, la lecture labiale pour assurer plus efficace.

Lei Feng réseau [Note: L'architecture de base]

D'un côté L'équipe de recherche appliquée contraintes « de maximisation de l'information mutuelle locale » (maximisation de l'information mutuelle locale, LMIM) limitant fonction générée chaque pas de temps, de sorte qu'ils puissent avoir une relation forte avec le contenu de la voix, améliorant ainsi le modèle trouvé dans des ajustements fins de la bouche et la capacité de la différence entre les mots semblables à consonance (tels que « dépenses » et « dépenses ») est.

Lei Feng réseau [Note: le réseau de base de formation LMIM]

En revanche L'équipe de recherche a introduit des contraintes « maximisation de l'information mutuelle globale » (maximisation mondiale d'information mutuelle, GMIM), rend le modèle plus d'attention à la reconnaissance vocale liée au contenu des images clés, alors que moins d'attention au bruit qui peuvent survenir.

[Réseau de base de formation GMIM]

LRW-1000 à l'aide LRW et évaluation

Pour valider cette approche, l'équipe de recherche a utilisé deux grands ensembles de données de niveau de vocabulaire pour l'évaluer, il a procédé à une analyse détaillée de plusieurs autres lèvres mainstream méthode d'identification de modèle, par rapport à la ligne de base, y compris LMIM et GMIM comparaison, la profondeur de la visualisation d'apprentissage.

Ce qui suit est l'information spécifique des deux ensembles de données:

  • LRW: sorti en 2016, avec une taille totale de l'échantillon de 488766, dont 500 niveau de vocabulaire, impliquant plus de 1000 haut-parleurs, de grands discours différences environnementales. La principale méthode est largement utilisée ensemble de données de lecture sur les lèvres, défiant ensemble de données;

  • LRW-1000: une taille totale de l'échantillon de 70000, la longueur totale de temps de 57 heures, y compris le niveau de 1000 mots. L'ensemble des données est destiné à couvrir différents modèles de la parole et l'état de l'écran, de sorte que combiné avec les défis rencontrés dans les applications pratiques.

Évaluée, l'équipe se trouve GMIM La précision est améliorée à 84,41% , Principalement en raison de ses caractéristiques différentes dans les différents cadres de l'attention. Par rapport à d'autres méthodes, en plus de la lecture labiale entrée de l'information visuelle supplémentaire étrangères, l'équipe de recherche a été jusqu'à présent la meilleure performance (voir ci-dessous) sur des ensembles de données LRW.

En outre, en introduisant LMIM, l'identification de modèle pour une prononciation similaire au mot qu'il a fait apparaître une précision plus importante et améliorée, par exemple les marques / de décision et politique / politique (ci-dessous).

En même temps, l'équipe de recherche de l'effet GMIM était d'explorer davantage l'utilisation de la visualisation. Comme on le voit ci-dessous, les différences suivantes entre ces mots pour élargir la gamme de -20 à 20 -40 à 60 - ce qui signifie que, avec l'introduction de GMIM, plus facile de faire la distinction entre les mots.

Visible, sans l'utilisation de données supplémentaires ou d'un modèle de pré-formation supplémentaire, la méthode ci-dessus de l'équipe de recherche par rapport à d'autres performances de lecture labiale mainstream du modèle est en effet plus important, et espère que cette méthode fournit une référence pour les autres modèles.

références:

https://arxiv.org/abs/2003.06439

https://www.leiphone.com/news/201611/lmrRpn2DdOUoex3E.html

Zhaozhen Jun: la plus interprétation graphique complète de la « nouvelle pneumonie couronne CT pour le diagnostic précoce et le diagnostic différentiel » (sous)
Précédent
Livre d'aujourd'hui | cible visuelle, l'apprentissage commun, le visage anti-intimidation, dans la méta-apprentissage
Prochain
Deux minutes acquérir des connaissances de l'intelligence artificielle, facile à lire et à comprendre sans en ligne courte série vidéo
2019 Prix Turing, décerné au patrimoine de graphiques
La loi suprême a émis deux avis pour renforcer la mise en uvre de la bonne volonté et de l'application civilisée et promouvoir la participation des avocats (avec du texte intégral)
magazine « Recherche de la vérité » a publié un article important Secrétaire général Xi Jinping
2019 des moyens de subsistance du peuple chinois préoccupations de l'Etat de droit
L'eau était rouge avec le cas du tribunal des litiges d'intérêt public!
Après trois mois passés de 550 millions $ dans un Bloomberg se retirer de l'élection en faveur de Biden
Londres épidémie journal : Johnson tenir, sa fiancée et de l'enfant à naître vous attend
Tour fleurs, sortie en tournée, Family Fun, visite d'escalade ...... attractions Linyi Lan Ling comté ouvert à
Seattle en cas d'épidémie « épidémie »! Le nouveau nombre de morts de la pneumonie couronne est passé à neuf personnes
Surchauffe peur de la honte
Comment écrire un bon débutant point de vue académique international?