Pensée du chercheur de Jingdong et précipitation de la vision et du langage pendant plusieurs années: de l'auto-cohérence, de l'interaction à la symbiose

Note de l'éditeur: Si l'on considère le développement rapide de la vision et du langage au cours de ces six années, il semble que ce soit la collision et le mélange de deux cultures différentes (vision par ordinateur et traitement du langage naturel). L'évolution initiale de chaque culture ici est Auto-cohérent Autrement dit, évoluer indépendamment pour former un système complet de compréhension visuelle ou de modélisation du langage; jusqu'à présent, ce que nous avons inauguré est l'interculturalisme Interaction Depuis lors, la compréhension visuelle et la modélisation du langage ne sont plus simplement deux modules connectés en série, mais deviennent un tout favorisé par la transmission mutuelle d'informations; pour l'avenir de la vision et du langage, ils doivent se concentrer sur les deux plus essentiels Et fermer Symbiose Ce qu'il souhaite, c'est se libérer des entraves de l'étiquetage des données, trouver la relation la plus essentielle entre les deux sur une supervision faible et massive et même des données non supervisées, et l'utiliser comme origine, comme "Dao Shengyi, Yisheng deux, deux "Sansheng et Sanshengwangwu" sont généralement donnés au modèle dans diverses tâches visuelles et linguistiques.

Ce singe à dos de cheval

Disney a fait le meilleur gâteau de tous les temps en utilisant la projection

Petits calamars se balançant sur le fond rocheux de l'aquarium

Remarque: Afin de mieux aider les lecteurs à comprendre et à promouvoir le développement du domaine du langage visuel, nous allons ouvrir notre travail représentatif sur la vision et le langage (LSTM-A, GCN-LSTM, HIP, X-LAN) au cours des dernières années. Le code source est publié sur GitHub l'un après l'autre, alors restez à l'écoute!

origine:

La vision et le langage, à savoir la compréhension du contenu visuel et l'expression du langage naturel, appartenaient à l'origine à deux domaines de recherche différents de la vision par ordinateur (CV) et du traitement du langage naturel (NLP). Cependant, en 2014, le sous-titrage d'image (Image Captioning) a brisé la barrière entre les deux. Avec le modèle classique d'encodeur-décodeur en traduction automatique, la conversion du contenu visuel en expression linguistique a été franchie à la fois, ce qui est le domaine du CV et de la PNL. Le successeur a également ouvert un nouveau monde de fusion croisée de différents modes.

Semblable à la conversion entre différentes langues naturelles en traduction automatique, la tâche de génération de description d'image peut être affinée en Conversion d'un langage visuel (expression de caractéristique d'image) en langage naturel (phrase de description) . Les prototypes des algorithmes de génération de description d'images grand public d'aujourd'hui peuvent être résumés en deux modules: Encodeur visuel avec Décodeur de langue . Le premier est responsable de la compréhension du contenu visuel et code le langage visuel en une expression de caractéristique riche en informations sémantiques, tandis que le second décode la description de langue correspondante en fonction de l'expression de caractéristique codée.

Auto-cohérent:

Le point de départ de leurs cultures respectives commence avec les tout-petits et forme progressivement un système complet et cohérent. Il en va de même pour la vision et le langage. Dans la vague d'apprentissage en profondeur, la vision et le langage évoluent constamment, comme la compréhension du contenu visuel (compréhension visuelle) des textures de bas niveau à la sémantique de haut niveau, ou l'évolution d'un seul mot à la séquence de mots entière Modélisation du langage (Modélisation du langage).

Le modèle visuel et linguistique à ce stade est essentiellement une simple concaténation de l'encodeur visuel et du décodeur de langue. En prenant l'exemple de la tâche de génération de description d'image, la recherche à ce stade se concentre souvent sur la façon d'analyser des informations sémantiques de plus haut niveau à partir du contenu visuel de l'image et d'intégrer ces informations sémantiques dans le processus de codage visuel pour améliorer les caractéristiques visuelles de la sortie de l'encodeur. expression. Cette idée de recherche est également le contexte de notre série de travaux au cours des trois premières années, à savoir Les attributs- > Relation- > Structure (hiérarchie) .

Comme le montre la figure ci-dessus, tout d'abord, en 2017, nous avons essayé d'introduire des attributs sémantiques de haut niveau dans le processus de codage du contenu visuel. Il contient non seulement des objets saillants dans l'image, mais également des informations de scène en arrière-plan. Après avoir obtenu des attributs sémantiques de haut niveau, nous pouvons non seulement fusionner les caractéristiques des attributs sémantiques dans les caractéristiques de codage (LSTM-A) au niveau des caractéristiques, mais également «copier» les mots d'attributs sémantiques reconnus directement dans la description décodée (LSTM-C ). Puis, en 2018, inspiré par l'utilisation de détecteurs d'objets de Bottom-Up pour obtenir des caractéristiques de région d'objet hautes performances, nous avons exploré la relation entre les objets (GCN-LSTM) pour construire des relations sémantiques et spatiales entre les objets. Figure, favorisant ainsi la compréhension de l'image. Bien que le graphe de relations entre les objets introduit efficacement les informations sémantiques de la relation entre les objets, il ne peut toujours pas exprimer pleinement la riche sémantique contenue dans l'image entière. Par conséquent, en 2019, nous proposons une structure sémantique arborescente à plusieurs niveaux (HIP), qui comprend des informations sémantiques de l'instance d'objet après segmentation sémantique vers la zone d'objet détectée aux différents niveaux de l'image entière. Grâce à une telle structure arborescente, il est possible de coder la pertinence sémantique entre différents niveaux de l'objet pour décoder un texte de description plus précis.

"" Interaction:

La première phase du développement visuel et langagier est auto-cohérente. Elle peut être considérée comme lhistoire de développement indépendante de chaque culture. Les modèles dalgorithmes dérivés sont également pour la plupart une simple concaténation dencodeurs visuels et de décodeurs linguistiques. Cependant, aucune culture ne peut être seule dans le développement, et la réconciliation et l'interaction seront inévitables. Par conséquent, la vision et le langage d'aujourd'hui entrent progressivement dans la phase d'interaction, le but est de promouvoir l'interaction d'informations entre l'encodeur visuel et le décodeur de langage.

Le mécanisme d'attention est le moyen le plus typique d'interaction de l'information entre différentes modalités. Il peut déduire la zone d'image qui a besoin d'attention dans l'encodeur actuel à travers l'état caché du décodeur à chaque instant, aidant ainsi l'encodeur à mieux comprendre le contenu de l'image. Comme le montre la figure suivante, l'attention douce du mécanisme d'attention précoce obtiendra le poids d'attention correspondant à la zone en fonction de la fusion linéaire de la caractéristique conditionnelle Q (l'état caché actuel du décodeur) et de la caractéristique K de chaque zone locale de l'image, puis de chaque attention Les poids de force agissent sur les caractéristiques de la région locale V pour réaliser le codage d'agrégation des caractéristiques de l'image. Au cours des deux dernières années, une variété de mécanismes d'attention améliorés ont vu le jour, tels que l'attention descendante (ascendante), l'attention multitête (transformateur) qui capte plusieurs attentions en même temps et l'utilisation du déclenchement. Filtrage supplémentaire de l'attention sur l'attention (AoANet).

Lorsque nous passons en revue le mécanisme d'attention traditionnel, nous pouvons constater qu'il utilise souvent la fusion linéaire pour effectuer un apprentissage d'interaction de caractéristiques inter-modales, de sorte que son essence ne fait que tirer parti de l'interaction de caractéristiques de premier ordre entre différentes modalités, ce qui limite considérablement le mécanisme d'attention. Le rôle de la vision et du langage dans la tâche complexe de raisonnement cross-modal de contenu. En réponse à ce problème, dans le dernier travail CVPR 2020 X-LAN, nous avons créé un mécanisme d'attention X-Linear attention qui peut atteindre une interaction de fonctionnalité de haut niveau. Il peut utiliser la technologie de fusion bilinéaire pour extraire des informations d'interaction de caractéristiques de second ordre et même d'ordre supérieur entre différentes modalités afin d'améliorer la compréhension du contenu transmodal.

Dans le même temps, l'attention X-Linear peut être utilisée comme un plug-in flexible pour accéder à divers modèles de génération de description d'image populaires, ce qui améliore considérablement les capacités d'interaction des fonctionnalités de l'encodeur et du décodeur dans et entre les modalités. Nous avons également testé le système de génération de description d'image conçu sur le système d'évaluation en ligne COCO le plus fiable, et nous avons atteint le premier niveau mondial sur plusieurs indicateurs (comme indiqué ci-dessous).

Symbiose:

Bien que la compréhension du contenu visuel puisse être continuellement améliorée avec la conception et l'approfondissement sémantique de divers réseaux à hautes performances, la manière d'interaction entre la vision et le langage a également évolué de l'attention douce traditionnelle à l'attention X-linéaire qui capture l'interaction d'informations de haut niveau Cependant, le développement technique de la vision et du langage ne peut toujours pas échapper à l'avidité de l'apprentissage en profondeur pour les données de formation. COCO Plus de 120000 images et environ 600000 phrases étiquetées manuellement limitent naturellement le développement de la technologie de génération de description d'images. Que ce soit la compréhension d'un plus grand nombre d'objets, l'expression d'un langage plus large ou la correspondance plus fine et plus essentielle du langage visuel, des données d'annotation visuelles et linguistiques plus fines et à plus grande échelle sont nécessaires pour le prendre en charge. Alors, comment briser la barrière des données du langage visuel? Comment briser le goulot d'étranglement de l'algorithme actuel?

Lorsque les gens réfléchissent sur une certaine culture et sont même confus, cela signifie qu'un nouveau point de départ émergera. Par conséquent, à l'heure actuelle, la vision et le langage doivent également ouvrir une nouvelle étape, dont le but est d'explorer les qualités symbiotiques les plus essentielles entre les deux sur une plus large gamme de données, favorisant ainsi une conversion plus libre entre les différents modes. Plus précisément, nous devons apprendre la relation la plus essentielle entre les deux sur la supervision massive faible et même les données de langage visuel non supervisées, puis donner au modèle la vitalité dans diverses tâches visuelles et linguistiques.

La pré-formation en langage visuel, qui vient de voir le jour, peut être la clé pour briser le jeu. Données de langage visuel capturées automatiquement à l'aide de pages Web massives, telles que Légendes conceptuelles (https://ai.google.com/research/ConceptualCaptions/) et Légendes automatiques sur GIF (http: //www.auto-video-captions. top / 2020 /), nous pouvons pré-former un modèle général d'encodeur-décodeur. C'est précisément en raison des traits symbiotiques du langage visuel appris sur des données massives que ce modèle de pré-formation peut permettre de manière omnidirectionnelle une variété de tâches de vision et de langage en aval, brisant la limitation des données de formation visuelle et linguistique dans chaque tâche en aval et réalisant Compréhension intermodale et conversion entre vision et image de la "Grande Unité".

À l'heure actuelle, ces technologies de Jingdong AI Research Institute ont été appliquées à Jingdong. Par exemple, des scènes telles que la recherche d'image de produit et la revue d'image essaient également d'intégrer la technologie de la vision et du langage dans un dialogue amélioré multimodal axé sur les tâches pour améliorer l'efficacité de l'interaction homme-machine et de l'expérience utilisateur.

Conclusion: La curiosité est la source de créativité des individus ou des organisations.La réalisation de l'ensemble d'évaluation de génération de description d'image faisant autorité COCO met en évidence le niveau mondial de Jingdong AI Research Institute dans le domaine de la vision et du langage. JD.com utilisera la chaîne d'approvisionnement intelligente et les "nouvelles infrastructures" comme point de départ pour aider le gouvernement, les entreprises et les particuliers à effectuer une transformation numérique, en réseau et intelligente. Il est devenu le cur de JD.com avec la technologie de détail, de logistique et numérique. La configuration de l'entreprise est le canal principal de la technologie externe de JD.com et de la sortie de service. Un côté est basé sur la stratégie technologique "ABCDE" et maintient une recherche technologique de pointe et une curiosité, c'est-à-dire "en utilisant l'intelligence artificielle (IA) comme cerveau, les mégadonnées (Big Data) comme oxygène, le cloud (Cloud) comme tronc et l'Internet des objets ( Device) est un nerf sensoriel, avec une exploration continue (Exploration) comme curiosité ".

Un exemple vraiment connu le premier utilisateur a commenté vivo S6
Précédent
Apothéose! 2019 les ventes mondiales annuelles de concurrence AOC moniteur de puissance au premier rang
Prochain
Nikon Z6 vous prendre pour profiter de micro-expérience unique de tir professionnel
Glory Glory 30 séries qui restent la force de battement du soleil est censé passer la nuit IMX700 super grand fond
Xinhua terrasse: brumeux belle image d'une journée de printemps magnifique
Xinhua terrasse: brumeux belle image d'une journée de printemps magnifique
« Grands agriculteurs Xiang Hui vivent » vous emmène dans le Xiangxi Miao rencontre Baojing or thé
Vidéo | Jiaxing tête rose: histoire de poisson rose, il y a un bâton
Un repas mémorable à Shonan
bases d'éducation Shu Xia Patriotisme tour Han maison: Tuez Xia Han, et les gens plus tard
Maintenant, pour le téléphone où acheter abordable? Plus de surprise saison de renouvellement Jingdong
Vraiment se concentrer sur les sports Amazfit PowerBuds examen des écouteurs de sport
X5 martien cuisine intégrée: vous me faire aimer 10 raisons
5GHz Turbo fort invincible! H dixième génération Intel famille de base de processeurs non seulement né pour le jeu