Pens�e du chercheur de Jingdong et pr�cipitation de la vision et du langage pendant plusieurs ann�es: de l'auto-coh�rence, de l'interaction � la symbiose

Note de l'�diteur: Si l'on consid�re le d�veloppement rapide de la vision et du langage au cours de ces six ann�es, il semble que ce soit la collision et le m�lange de deux cultures diff�rentes (vision par ordinateur et traitement du langage naturel). L'�volution initiale de chaque culture ici est Auto-coh�rent Autrement dit, �voluer ind�pendamment pour former un syst�me complet de compr�hension visuelle ou de mod�lisation du langage; jusqu'� pr�sent, ce que nous avons inaugur� est l'interculturalisme Interaction Depuis lors, la compr�hension visuelle et la mod�lisation du langage ne sont plus simplement deux modules connect�s en s�rie, mais deviennent un tout favoris� par la transmission mutuelle d'informations; pour l'avenir de la vision et du langage, ils doivent se concentrer sur les deux plus essentiels Et fermer Symbiose Ce qu'il souhaite, c'est se lib�rer des entraves de l'�tiquetage des donn�es, trouver la relation la plus essentielle entre les deux sur une supervision faible et massive et m�me des donn�es non supervis�es, et l'utiliser comme origine, comme "Dao Shengyi, Yisheng deux, deux "Sansheng et Sanshengwangwu" sont g�n�ralement donn�s au mod�le dans diverses t�ches visuelles et linguistiques.

Ce singe � dos de cheval

Disney a fait le meilleur g�teau de tous les temps en utilisant la projection

Petits calamars se balan�ant sur le fond rocheux de l'aquarium

Remarque: Afin de mieux aider les lecteurs � comprendre et � promouvoir le d�veloppement du domaine du langage visuel, nous allons ouvrir notre travail repr�sentatif sur la vision et le langage (LSTM-A, GCN-LSTM, HIP, X-LAN) au cours des derni�res ann�es. Le code source est publi� sur GitHub l'un apr�s l'autre, alors restez � l'�coute!

origine:

La vision et le langage, � savoir la compr�hension du contenu visuel et l'expression du langage naturel, appartenaient � l'origine � deux domaines de recherche diff�rents de la vision par ordinateur (CV) et du traitement du langage naturel (NLP). Cependant, en 2014, le sous-titrage d'image (Image Captioning) a bris� la barri�re entre les deux. Avec le mod�le classique d'encodeur-d�codeur en traduction automatique, la conversion du contenu visuel en expression linguistique a �t� franchie � la fois, ce qui est le domaine du CV et de la PNL. Le successeur a �galement ouvert un nouveau monde de fusion crois�e de diff�rents modes.

Semblable � la conversion entre diff�rentes langues naturelles en traduction automatique, la t�che de g�n�ration de description d'image peut �tre affin�e en Conversion d'un langage visuel (expression de caract�ristique d'image) en langage naturel (phrase de description) . Les prototypes des algorithmes de g�n�ration de description d'images grand public d'aujourd'hui peuvent �tre r�sum�s en deux modules: Encodeur visuel avec D�codeur de langue . Le premier est responsable de la compr�hension du contenu visuel et code le langage visuel en une expression de caract�ristique riche en informations s�mantiques, tandis que le second d�code la description de langue correspondante en fonction de l'expression de caract�ristique cod�e.

Auto-coh�rent:

Le point de d�part de leurs cultures respectives commence avec les tout-petits et forme progressivement un syst�me complet et coh�rent. Il en va de m�me pour la vision et le langage. Dans la vague d'apprentissage en profondeur, la vision et le langage �voluent constamment, comme la compr�hension du contenu visuel (compr�hension visuelle) des textures de bas niveau � la s�mantique de haut niveau, ou l'�volution d'un seul mot � la s�quence de mots enti�re Mod�lisation du langage (Mod�lisation du langage).

Le mod�le visuel et linguistique � ce stade est essentiellement une simple concat�nation de l'encodeur visuel et du d�codeur de langue. En prenant l'exemple de la t�che de g�n�ration de description d'image, la recherche � ce stade se concentre souvent sur la fa�on d'analyser des informations s�mantiques de plus haut niveau � partir du contenu visuel de l'image et d'int�grer ces informations s�mantiques dans le processus de codage visuel pour am�liorer les caract�ristiques visuelles de la sortie de l'encodeur. expression. Cette id�e de recherche est �galement le contexte de notre s�rie de travaux au cours des trois premi�res ann�es, � savoir Les attributs- > Relation- > Structure (hi�rarchie) .

Comme le montre la figure ci-dessus, tout d'abord, en 2017, nous avons essay� d'introduire des attributs s�mantiques de haut niveau dans le processus de codage du contenu visuel. Il contient non seulement des objets saillants dans l'image, mais �galement des informations de sc�ne en arri�re-plan. Apr�s avoir obtenu des attributs s�mantiques de haut niveau, nous pouvons non seulement fusionner les caract�ristiques des attributs s�mantiques dans les caract�ristiques de codage (LSTM-A) au niveau des caract�ristiques, mais �galement �copier� les mots d'attributs s�mantiques reconnus directement dans la description d�cod�e (LSTM-C ). Puis, en 2018, inspir� par l'utilisation de d�tecteurs d'objets de Bottom-Up pour obtenir des caract�ristiques de r�gion d'objet hautes performances, nous avons explor� la relation entre les objets (GCN-LSTM) pour construire des relations s�mantiques et spatiales entre les objets. Figure, favorisant ainsi la compr�hension de l'image. Bien que le graphe de relations entre les objets introduit efficacement les informations s�mantiques de la relation entre les objets, il ne peut toujours pas exprimer pleinement la riche s�mantique contenue dans l'image enti�re. Par cons�quent, en 2019, nous proposons une structure s�mantique arborescente � plusieurs niveaux (HIP), qui comprend des informations s�mantiques de l'instance d'objet apr�s segmentation s�mantique vers la zone d'objet d�tect�e aux diff�rents niveaux de l'image enti�re. Gr�ce � une telle structure arborescente, il est possible de coder la pertinence s�mantique entre diff�rents niveaux de l'objet pour d�coder un texte de description plus pr�cis.

"" Interaction:

La premi�re phase du d�veloppement visuel et langagier est auto-coh�rente. Elle peut �tre consid�r�e comme lhistoire de d�veloppement ind�pendante de chaque culture. Les mod�les dalgorithmes d�riv�s sont �galement pour la plupart une simple concat�nation dencodeurs visuels et de d�codeurs linguistiques. Cependant, aucune culture ne peut �tre seule dans le d�veloppement, et la r�conciliation et l'interaction seront in�vitables. Par cons�quent, la vision et le langage d'aujourd'hui entrent progressivement dans la phase d'interaction, le but est de promouvoir l'interaction d'informations entre l'encodeur visuel et le d�codeur de langage.

Le m�canisme d'attention est le moyen le plus typique d'interaction de l'information entre diff�rentes modalit�s. Il peut d�duire la zone d'image qui a besoin d'attention dans l'encodeur actuel � travers l'�tat cach� du d�codeur � chaque instant, aidant ainsi l'encodeur � mieux comprendre le contenu de l'image. Comme le montre la figure suivante, l'attention douce du m�canisme d'attention pr�coce obtiendra le poids d'attention correspondant � la zone en fonction de la fusion lin�aire de la caract�ristique conditionnelle Q (l'�tat cach� actuel du d�codeur) et de la caract�ristique K de chaque zone locale de l'image, puis de chaque attention Les poids de force agissent sur les caract�ristiques de la r�gion locale V pour r�aliser le codage d'agr�gation des caract�ristiques de l'image. Au cours des deux derni�res ann�es, une vari�t� de m�canismes d'attention am�lior�s ont vu le jour, tels que l'attention descendante (ascendante), l'attention multit�te (transformateur) qui capte plusieurs attentions en m�me temps et l'utilisation du d�clenchement. Filtrage suppl�mentaire de l'attention sur l'attention (AoANet).

Lorsque nous passons en revue le m�canisme d'attention traditionnel, nous pouvons constater qu'il utilise souvent la fusion lin�aire pour effectuer un apprentissage d'interaction de caract�ristiques inter-modales, de sorte que son essence ne fait que tirer parti de l'interaction de caract�ristiques de premier ordre entre diff�rentes modalit�s, ce qui limite consid�rablement le m�canisme d'attention. Le r�le de la vision et du langage dans la t�che complexe de raisonnement cross-modal de contenu. En r�ponse � ce probl�me, dans le dernier travail CVPR 2020 X-LAN, nous avons cr�� un m�canisme d'attention X-Linear attention qui peut atteindre une interaction de fonctionnalit� de haut niveau. Il peut utiliser la technologie de fusion bilin�aire pour extraire des informations d'interaction de caract�ristiques de second ordre et m�me d'ordre sup�rieur entre diff�rentes modalit�s afin d'am�liorer la compr�hension du contenu transmodal.

Dans le m�me temps, l'attention X-Linear peut �tre utilis�e comme un plug-in flexible pour acc�der � divers mod�les de g�n�ration de description d'image populaires, ce qui am�liore consid�rablement les capacit�s d'interaction des fonctionnalit�s de l'encodeur et du d�codeur dans et entre les modalit�s. Nous avons �galement test� le syst�me de g�n�ration de description d'image con�u sur le syst�me d'�valuation en ligne COCO le plus fiable, et nous avons atteint le premier niveau mondial sur plusieurs indicateurs (comme indiqu� ci-dessous).

Symbiose:

Bien que la compr�hension du contenu visuel puisse �tre continuellement am�lior�e avec la conception et l'approfondissement s�mantique de divers r�seaux � hautes performances, la mani�re d'interaction entre la vision et le langage a �galement �volu� de l'attention douce traditionnelle � l'attention X-lin�aire qui capture l'interaction d'informations de haut niveau Cependant, le d�veloppement technique de la vision et du langage ne peut toujours pas �chapper � l'avidit� de l'apprentissage en profondeur pour les donn�es de formation. COCO Plus de 120000 images et environ 600000 phrases �tiquet�es manuellement limitent naturellement le d�veloppement de la technologie de g�n�ration de description d'images. Que ce soit la compr�hension d'un plus grand nombre d'objets, l'expression d'un langage plus large ou la correspondance plus fine et plus essentielle du langage visuel, des donn�es d'annotation visuelles et linguistiques plus fines et � plus grande �chelle sont n�cessaires pour le prendre en charge. Alors, comment briser la barri�re des donn�es du langage visuel? Comment briser le goulot d'�tranglement de l'algorithme actuel?

Lorsque les gens r�fl�chissent sur une certaine culture et sont m�me confus, cela signifie qu'un nouveau point de d�part �mergera. Par cons�quent, � l'heure actuelle, la vision et le langage doivent �galement ouvrir une nouvelle �tape, dont le but est d'explorer les qualit�s symbiotiques les plus essentielles entre les deux sur une plus large gamme de donn�es, favorisant ainsi une conversion plus libre entre les diff�rents modes. Plus pr�cis�ment, nous devons apprendre la relation la plus essentielle entre les deux sur la supervision massive faible et m�me les donn�es de langage visuel non supervis�es, puis donner au mod�le la vitalit� dans diverses t�ches visuelles et linguistiques.

La pr�-formation en langage visuel, qui vient de voir le jour, peut �tre la cl� pour briser le jeu. Donn�es de langage visuel captur�es automatiquement � l'aide de pages Web massives, telles que L�gendes conceptuelles (https://ai.google.com/research/ConceptualCaptions/) et L�gendes automatiques sur GIF (http: //www.auto-video-captions. top / 2020 /), nous pouvons pr�-former un mod�le g�n�ral d'encodeur-d�codeur. C'est pr�cis�ment en raison des traits symbiotiques du langage visuel appris sur des donn�es massives que ce mod�le de pr�-formation peut permettre de mani�re omnidirectionnelle une vari�t� de t�ches de vision et de langage en aval, brisant la limitation des donn�es de formation visuelle et linguistique dans chaque t�che en aval et r�alisant Compr�hension intermodale et conversion entre vision et image de la "Grande Unit�".

� l'heure actuelle, ces technologies de Jingdong AI Research Institute ont �t� appliqu�es � Jingdong. Par exemple, des sc�nes telles que la recherche d'image de produit et la revue d'image essaient �galement d'int�grer la technologie de la vision et du langage dans un dialogue am�lior� multimodal ax� sur les t�ches pour am�liorer l'efficacit� de l'interaction homme-machine et de l'exp�rience utilisateur.

Conclusion: La curiosit� est la source de cr�ativit� des individus ou des organisations.La r�alisation de l'ensemble d'�valuation de g�n�ration de description d'image faisant autorit� COCO met en �vidence le niveau mondial de Jingdong AI Research Institute dans le domaine de la vision et du langage. JD.com utilisera la cha�ne d'approvisionnement intelligente et les "nouvelles infrastructures" comme point de d�part pour aider le gouvernement, les entreprises et les particuliers � effectuer une transformation num�rique, en r�seau et intelligente. Il est devenu le cur de JD.com avec la technologie de d�tail, de logistique et num�rique. La configuration de l'entreprise est le canal principal de la technologie externe de JD.com et de la sortie de service. Un c�t� est bas� sur la strat�gie technologique "ABCDE" et maintient une recherche technologique de pointe et une curiosit�, c'est-�-dire "en utilisant l'intelligence artificielle (IA) comme cerveau, les m�gadonn�es (Big Data) comme oxyg�ne, le cloud (Cloud) comme tronc et l'Internet des objets ( Device) est un nerf sensoriel, avec une exploration continue (Exploration) comme curiosit� ".

Route de la soie

Apprenez � conna�tre la Chine

Pens�e du chercheur de Jingdong et pr�cipitation de la vision et du langage pendant plusieurs ann�es: de l'auto-coh�rence, de l'interaction � la symbiose