Le dernier champ de vision et langue Recherche et d�veloppement Article aper�u

AI Technology Review par: L'auteur est professeur adjoint � l'Universit� d'Ad�la�de Wu Qi, l'an dernier, il a rappel� les id�es de recherche vision � la langue li�s � la reconnaissance d'image de lui transversal dans des articles exclusifs pour la fourniture de l'IA Technology Review, cette ann�e, il a de nouveau le point sur les t�ches vision et de langue. Texte suit.

Avant-propos:

L'ann�e derni�re, a �crit un � million de mots vision de langue action divaguer �, nous r�sumons notre groupe se concentre autour de quelques id�es et le travail dans la langue de vision. Went participants VALSE, de nombreux �tudiants et enseignants mentionnent l'article, at-il dit par beaucoup d'inspiration. En m�me temps, ont la possibilit� de le faire sur ce rapport annuel vision et de langue VALSE sur le 2.0, il y a l'id�e d'�crire le rapport, il devient pour vous de lire la r�f�rence. Cet article d�crit quelques-unes de l'article 2018 du champ de recevoir plus d'attention, a �t� appel�e vision et langage 2.0, parce que ces articles sont autour une partie de la nouvelle mission et la langue de la vision se d�roulait.

corps:

Tout d'abord, faire quelques informations de fond, quelle est la vision et la langue? Nous savons que Computer Vision (vision informatique) et traitement du langage naturel (PNL) a �t� deux directions de recherche ind�pendants. Vision par ordinateur est l'�tude de la fa�on dont une machine � � voir � la science, l'intelligence artificielle et le traitement du langage naturel est une branche du domaine de la linguistique, principalement pour explorer comment faire la machine � lire � la science et la � �criture �. Ils sont reli�s entre eux lieu, le besoin d'utiliser beaucoup d'apprentissage de la machine, la technologie de reconnaissance des formes, en m�me temps, ils b�n�ficient �galement des progr�s au cours des derni�res ann�es, on peut dire la profondeur du r�seau de neurones Ces deux domaines de l'�tat actuel de l'art, sont bas�es sur les r�seaux de neurones, et de nombreuses t�ches, telles que CV dans la d�tection de reconnaissance d'objets, la PNL dans la traduction automatique, peut-�tre atteint un niveau pratique . Ainsi, d�s le d�but de 2015, il y avait une tendance est de combiner visuel et le langage dans une certaine mesure, ce qui dans un certain nombre de nouvelles applications et d�fis. Par exemple, le sous-titrage de l'image, la r�ponse aux questions visuelle et d'autres t�ches vision et de langue plus classique.

Avec l'introduction de ces efforts, la vision et la langue est devenue une recherche de plus en plus populaire et grand public. Cette figure montre la pr�sentation papier CVPR des statistiques 2019, nous pouvons voir les comptes vision de langue pour 4% de toute soumission, plus encore que le suivi plus traditionnel, la reconnaissance de l'action devrait �tre �lev�. Montre que de plus en plus de gens sont pr�occup�s par la recherche et dans ce sens.

Autour du sous-titrage d'image et VQA, il existe de nombreuses m�thodes classiques ont �t� propos�es, par exemple, emprunt�s � la traduction automatique du mod�le s�quence � s�quence, qui est le mod�le cnn-RNN, � l'introduction de l'attention (m�canismes attentionnels), et nous proposons � attributs en tant que couche interm�diaire pour g�n�rer des sous-titres plus pr�cis et des r�ponses, puis plus tard MCB, r�seau modulaire et CVPR 18 ans d'attention ascendante, il est moyen tr�s classique et efficace. Mais nous avons �galement constat� que, malgr� le nombre croissant de m�thodes, mod�les et plus complexes, ce qui porte l'am�lioration est tr�s limit�e. Par exemple, dans le tableau des leaders sous-titrage d'image MS COCO, essentiellement apr�s l'attention ascendante, pas grande am�lioration. Regardez VQA, a VQA-d�fi chaque ann�e, nous pouvons voir la comparaison de 17 ans et les r�sultats de 18 ans est venu dans la premi�re �quipe presque une diff�rence de moins de deux points. Bien s�r, les donn�es elles-m�mes mises � part ces deux probl�mes de c�t� (biais de donn�es VQA est relativement importante, sous-titrage et une �valuation pr�cise plus difficile), de nombreux chercheurs ont commenc� � se rendre compte que la l�gende de langue de vision et non seulement juste autour du VQA, parce que la t�che et les limites donn�es, peut �tre l'espace excav� est devenu plus petit et plus petit.

Depuis le d�but de 17 ans, nous continuons de voir des nouvelles t�ches dans la langue de vision sont mis en avant, comme la plus �tudi�e r�f�rence la compr�hension de l'expression, aussi appel�e visuelle mise � la terre, bien que 14 ans ont des concepts similaires ont �t� propos�s, mais essentiellement la m�thode depuis le d�but de 17 ans �tait associ�e � plus haut. Dans cette t�che, �tant donn� une p�riode d'une image et d'expression, qui est d�crit en langage naturel, nous nous attendons � une r�gion, la r�gion peut correspondre avec pr�cision � cette description.

Il y a dialogue visuel, le dialogue visuel, la machine doit �tre en mesure de se d�ployer autour d'une question d'image et le format de r�ponse du dialogue. En plus du texte � l'image / vid�o g�n�ration, l�gende de l'image est de faire le contraire, pour g�n�rer les images correspondantes et vid�o � travers le langage. Bien que ces t�ches semblent tr�s � fantaisie �, mais en fait sont le sous-titrage d'image et variantes VQA. Par exemple, l'expression se r�f�rant, est la r�gion d'image - correspondant de la phrase. est un dialogue visuel VQA multi-tour. Essentiellement, le changement n'est pas grande, donc nous voyons cette m�thode dans le sous-titrage d'image et VQA peut fonctionner dans ces t�ches sont �galement de bons r�sultats.

Mais depuis le d�but de 18 ans, le champ de vision de langue des diff�rentes t�ches, afin que nous puissions avoir dans la voie de nouvelles perc�es. Je mets ces nouvelles t�ches appel�es vision et langage 2.0. Ces nouvelles t�ches peuvent �tre divis�es en trois zones. La premi�re t�che a �t� principalement gravitent autour des aspects du sous-titrage d'image . le sous-titrage d'image pass� est essentiellement d'aller tout droit, pour donner une image, g�n�rer une l�gende, pour g�n�rer cette l�gende est pr�occup� par l'image d'eux quel objet, quel style de l�gende, est un style de donn�es de formation de d�cider, ne peuvent pas librement le contr�le . Maintenant, nous voulons �tre en mesure de g�n�rer divers, voire contr�lables la l�gende. Le soi-disant divers, que nous voulons g�n�rer des contraintes de donn�es de sous-titrage de formation, comme la pr�occupation r�cente du sous-titrage roman d'objet, est l'objet d�crit n'a jamais �t� un cas o� l'ensemble de la formation. Le soi-disant contr�lable, nous esp�rons que nous pouvons contr�ler la g�n�ration des sous-titres, tels que le style (humour / officiel / parl�, etc.) et de se concentrer sur l'objet et la zone est d�crite, par exemple, nous pouvons d�cider de g�n�rer une l�gende d�crivant l'arri�re-plan de l'image ou au premier plan d'une description un objet peut �tre d�termin� de niveau d�tail dans la description de celui-ci.

Une autre direction est le raisonnement, qui est, le raisonnement visuel. Nous savons que l'int�rieur VQA, l'approche la plus commune est par fonction l'int�gration (comme cnn-RNN), chemin de bout en bout pour former un r�seau de neurones, ce qui a conduit au milieu du processus est une bo�te noire, nous ne savons pas le raisonnement sp�cifique Quel processus Oui. M�me si nous avons l'attention (m�canisme de l'attention), est seulement une partie du processus fait un certain degr� de l'intelligibilit�, comme l'attention �tait concentr�e mod�le peut r�fl�chir sur quels objets dans l'image en r�ponse � une question. Mais pour de telles applications VQA, le processus de raisonnement est essentiel. Donc, pour cette direction, r�cemment, nous avons eu des nouvelles donn�es et t�ches, telles que jeu de donn�es CleVR, Visual Commonsense Raisonnement et ensembles de donn�es une nouvelle AOQ Chris Manning a r�cemment propos�.

La troisi�me direction, je le mets r�sum� comme embodie d �, qui est, la sc�ne sp�cifique � la langue de vision de certains d'entre eux, ne repose plus sur les images statiques ou ne peuvent pas interagir avec la vid�o, mais peut interagir avec une partie de la sc�ne r�elle ou virtuelle. Par exemple, propos� en 18 ans et d'assurance qualit� QA incarn� interactive, est d'�mettre VQA plac� sous un sc�nario, les besoins des agents pour r�pondre aux questions et m�me mouvement dans la sc�ne Interagir. En m�me temps, notre groupe a propos� en 18 ans une bas�s sur la vision - langue, et Embodied � distance a r�cemment propos� de faire r�f�rence expression des t�ches, toutes ces langues de vision des t�ches de navigation (Vision et langue Navigation) sur un sp�cifique sc�nes devaient aller.

Ensuite, nous avons une partie des travaux des trois aspects du repr�sentant introduit l'ann�e derni�re pour examiner ces t�ches et m�thodes du pass� diff�rent.

1. Roman objet Sous-titrage

Ici, nous voulons donner la premi�re pr�sentation du travail vient de Georgia Tech, ils ont propos� de nouvelles donn�es, ainsi que les t�ches, appel�es le sous-titrage roman d'objet. Avec l'image traditionnelle diff�rence sous-titrage est que l�, il avait une limite, cette limite l'objet appara�t dans le test ench�sser, jamais �t� d�crit dans lequel l'ensemble de la formation. En fait, ce concept est similaire au concept d'apprentissage z�ro-shot . Dans ce travail, ils ont mis les donn�es en trois parties, � savoir, en domaine, quasi-domaine et hors domaine, peut faciliter l'image mod�le sous-titrage des tests plus complets. Dans le domaine est l'objet qui est les probl�mes de sous-titrage d'images classiques qui sont apparues dans l'ensemble de la formation. Pr�s de domaine fait r�f�rence � l'image des objets les plus frappants est l'objet roman, c'est pas dans l'ensemble de la formation est apparue, et il peut y avoir d'autres objets d�crits dans les donn�es de formation. Hors domaine est le plus dur de tous les objets de l'image ne les ont pas dans l'ensemble de la formation. Avant que j'avais en fait un cadre similaire, mais la plupart d'entre eux sont la s�paration des diff�rentes s�paration des donn�es sous-titrage image coco. Et ces donn�es fournit une nouvelle dimension, tout en offrant un domaine diff�rent de test, fournit une analyse plus compl�te d'un sous-titrage d'image mod�le.

Pour cette t�che, il y a des nouvelles m�thodes ont �t� propos�es, qui, parler b�b� de neurones est un bon travail. Ce travail a �galement de Georgia Tech, a �t� propos� par Jiasen Lu, est CVPR 2018 dans un document. Dans ce travail, qui, Babytalk mod�le qui a inspir� + sous-titrage cod� g�n�r� par le biais de remplissage dans les espaces vides avant de mettre le sous-titrage de l'image nouveau-objet est divis� en deux �tapes: la premi�re �tape consiste � g�n�rer un mod�le. Cependant, en utilisant diff�rents d�finis � l'avance au d�but du Babytalk bon mod�le, o� le mod�le est g�n�r� automatiquement en fonction de l'image. Dans chaque g�n�ration est un mot, il a fait un jugement sur le mot doit �tre d�riv� du texte ou d'une image. Mot du texte sur la formation d'un mod�le, comme l'image ci-dessous, le mod�le est g�n�r� < r�gion-17 > �Il est assis � une < region-123 > �avec < r�gion 3 > r�gion-17 ici est en fait une � l'int�rieur de l'image d'une proposition de la r�gion.

Il a ensuite appel� la deuxi�me �tape de remplissage dans les fentes, qui est, remplir le vide. Il est all� � classer ceux identifi�s ci-dessus avec une r�gion en dehors du classificateur form�, alors le r�sultat de l'�tape de reconnaissance de mod�le remplissage g�n�r� � l'int�rieur . Cette fois-ci, la g�n�ration de sous-titrage en fait ne d�pend pas de savoir si l'objet cible est d�crit, mais plut�t compter sur la formation externe un classificateur, qui est, aussi longtemps que suffisamment vu classificateur de l'objet peut �tre, sans correspondant donn�es de l�gende. Ce r�sultat comme la r�gion ci-dessus 17 est identifi� chiot, la derni�re l�gende est g�n�r�e Un chiot est assis � une table avec un g�teau.

Une autre id�e est pr�sent�e par Peter Anu Anderson, appel� la recherche de faisceau contraint. Dans le sous-titrage d'image dans une affaire commune est � la recherche de faisceau. Que nous g�n�rons un mot dans le temps choisi, non seulement pour s�lectionner le plus probable que l'un, mais pour s�lectionner le candidat le plus probable en tant que b a, b est la taille du faisceau, puis le long de cette b un candidat, puis continuer � chercher bas les b-meilleurs mots candidats. Ici, ce travail pr�sente une recherche de faisceau contraint, qui est, avant de faire la recherche de faisceau, il extraira quelques images d'entre eux commencent tag. Cette balise est un cours de formation externe, certains peuvent ne pas appara�tre dans l'image les sous-titrer la formation mis hors �tiquette. Il utilise ensuite ces balises cr�e une machine � �tats finis (machine � �tats finis), puis les directions de recherche de faisceau selon une machine � �tats finis, tels que la g�n�ration de sous-titrage, assez pour correspondre � la structure grammaticale appropri�e et peut contenir l'�tiquette souhait�e.

2. Raisonnement visuelle

Introduction au travail sur le roman sous-titrage d'objets, nous allons pr�senter ici une partie des travaux associ�s au raisonnement visuel. En parlant de raisonnement visuel, je dois mentionner 17 ans de CleVR (compositionnelle Langue et Raisonnement visuelle primaire), ce sont les premi�res donn�es d�finies sp�cifiquement pour des t�ches de raisonnement visuel �tablies. Les donn�es de cette image est principalement compos�e d'un certain nombre de diff�rentes tailles, couleurs, formes, mat�riaux compos�s de la g�om�trie, bien que la composition d'image est simple, mais le probl�me lui-m�me est plus complexe, la n�cessit� de faire un raisonnement plus complexe. Par exemple, la premi�re question est ici le num�ro de la figure de gros objets et des billes de m�tal sont les m�mes? � Pour r�pondre � cette question, nous devons d'abord identifier les objets de grande taille ainsi que des billes m�talliques (visuellement), le nombre de chacun � �tre calcul� s�par�ment, le jugement final ne soit pas �gal au nombre de deux, qui est, pour r�pondre � cette question nous avons besoin d'un raisonnement en trois �tapes.

En plus de fournir des images de CleVR de donn�es - question - r�ponse au-del� de cette marque, a �galement �voqu� le processus de raisonnement logique (appel� la fonction) �tiquetage, par exemple au-dessus de ce probl�me n�cessite un processus en trois �tapes de raisonnement, il y aura trois fonctions marqu�es reli� � un cha�nage . Tel est le raisonnement expos� au sol v�rit�, nous sommes non seulement en mesure de v�rifier si les r�ponses types aux questions, mais aussi �tre en mesure d'�valuer vraiment si le mod�le a une assez forte capacit� de raisonnement. Cet article se trouve �galement pr�senter une bonne mod�le dans les donn�es VQA traditionnelles (telles que MCB) sur CleVR n'a pas �t� bonne, ce qui indique la structure VQA traditionnelle et il n'y a aucun moyen gr�ce � une formation de bout en bout pour avoir la capacit� � la raison, le besoin le nouveau mod�le est en mesure de compl�ter le raisonnement appropri�.

Une fois que les donn�es pr�sent�es, il y a beaucoup de nouvelles m�thodes ont �t� propos�es, telles que le r�seau modulaire sur l'ex�cution des t�ches est tr�s bonne. Nous sommes l� pour choisir l'un des m�thodes plus c�l�bre appel�e MAC (m�moire, attention et composition) sont introduits. MAC est faite par domaine PNL de Chris Manning g�ant, est l'article ICLR18.

MAC fournit un raisonnement diff�rentiables pleine structure modulaire. Un r�seau MAC est divis� en trois parties, l'image d'entr�e est principalement responsable du codage et des probl�mes. MAC partie de l'unit� r�currente est de plusieurs fois le raisonnement MAC par l'unit� de base et l'agencement empil�. La section de sortie finale est caract�ris�e par la combinaison de raisonnement la r�ponse. Ici est un �l�ment cl� des neurones dits MAC. neurones MAC compos� de trois op�randes fonctionnant en s�rie: l'�tat de contr�le des mises � jour de l'unit� de commande, de participer � certaines parties en question � r�pondre � chaque it�ration, unit� de lecture et de l'�tat de la m�moire sous le contr�le de l'�tat du guide, � l'information extrait; Ecrire Cela signifie que l'int�gration de ces informations r�cup�r�es dans l'�tat de la m�moire, la r�ponse calcul it�ratif. L'avantage de ce mod�le est que le processus � raisonnement � utilise une information d'image m�canisme d'attention douce extrait plusieurs tours, le processus complet diff�rentiables, l'inconv�nient est que tout le processus ou � bo�te noire �, ne peut pas donner un processus de raisonnement explicite.

Dans une r�cente CVPR19, Chris Manning a �galement propos� un nouvel ensemble de donn�es, appel� AOQ, peut �tre consid�r� comme une version r�elle de l'CleVR d'image. Parce que CleVR parmi les objets sont une g�om�trie simple relativement simple, sous forme. AOQ en utilisant une image r�elle commune en entr�e, et le type de probl�me CleVR est tr�s similaire, nous avons besoin d'une forte capacit� de raisonnement visuel pour pouvoir complet . Par exemple, voici la question: � Prenez la petite fille laiss� la nourriture � Hambourg sur l'objet rouge est la couleur, jaune ou brun? �. R�pondez � cette question, nous avons besoin de solides comp�tences de raisonnement spatial et logique. En outre, CleVR similaire, ces donn�es fournit �galement la cha�ne logique n�cessaire �tiquet�e.

Un autre travail connexe et le raisonnement, aussi appara�tront sur CVPR19 derniers travaux, appel� le magn�toscope, Visual Commonsense Raisonnement.

Il travail int�ressant de, il donnera les images � la r�gion, au probl�me, le mod�le doit choisir une des questions multiples choix r�ponse correcte. Mais en choisissant la bonne r�ponse, il est �galement n�cessaire de s�lectionner la raison donn�e cette r�ponse. Ils appellent cette capacit� est appel�e Cognition, il est la capacit� cognitive. Par exemple, la figure paire d'entre eux, la question est, pourquoi la personne 4, montrant personne 1. La bonne r�ponse est, il dit une personne 1 personne 3 pancake heures. S�lectionn� cette r�ponse parce que, personne 3 donne ce repas de table, elle ne peut pas savoir qui ce point. Nous pouvons voir que la r�ponse � cette question, il faut non seulement la perception visuelle, mais aussi le bon sens, le raisonnement et la capacit� cognitive. Il est tr�s difficile. Cet article fournit �galement une base simple. mod�le est divis� en trois �tapes: (1) mise � la terre, comprendre la signification des questions et des r�ponses, (2) en contexte, l'image combin�e, des questions, des r�ponses, comprendra en outre que, comme les referents clairs; (3) le raisonnement, le raisonnement r�gion visuelle le lien intrins�que entre les deux. En fait, notre groupe ont �t� pr�occup�s par la fa�on dont le bon sens � l'int�rieur de la langue de vision, comme FVQA 17 ans propos�. Ce travail est tourn� vers l'avenir, mais je pense personnellement que cette t�che � la vision de la langue actuelle �tait trop difficile, parce que nous n'avons pas encore tr�s complet de la base de connaissances de bon sens, et la taille des donn�es ne suffit pas pour nous faire apprendre au sens commun souhait�, m�me d'apprendre, mais aussi un overfitting. Je pense que le raisonnement, il devrait �tre mis de c�t� le bon sens et m�me la meilleure connaissance du domaine, ne le faites sur visuel, similaire � CleVR et AOQ.

3. Vision Embodied et langue

Dans les derniers mots � la vision de langue d'action � o� ramble nous l'avons mentionn�, la langue de la vision et l'action se combinent est un sens tr�s populaire et prometteur, y compris notre groupe, y compris de nombreux grands groupes dans ce sens sur une action.

Tout d'abord, nous introduisons VQA incarn�s. �Cette t�che est l'int�gration de l'information multimodale exige la planification de trajectoire (navigation) et l'exploration en proposant d'�tre plac� dans un texte de la question sur la base de l'agent de l'environnement virtuel dans l'environnement spatial virtuel pour atteindre la position cible et des questions r�ponses. Par exemple, un probl�me ici est que la voiture est de quelle couleur? Mais l'agent � l'emplacement actuel et ne peut pas voir la voiture, il doit tout d'abord la planification du chemin, atteindre l'emplacement de la voiture se trouve, de ce fait d'autres r�ponses. Cela n�cessite l'agent de comprendre leur environnement, planification de chemin et ont une certaine capacit� � explorer, en m�me temps, �tre en mesure de r�pondre � des questions. Ensuite, l'article de CVPR19 est Licheng Yu qu'ils font est bas� sur Embodied VQA, d'�mettre un nouvel ordre de difficult�, appel� MT-LQE. Dans cette t�che que la question ne concerne pas un seul objet, mais les diff�rents objets dans des pi�ces diff�rentes, par exemple lorsque le probl�me est la commode de la chambre et salle de bain vanit� est une couleur il?

Un autre tr�s int�ressant les directions que nous avons pr�sent� au CVPR 18 ans Vision et langue Navigation (https://bringmeaspoon.org/). Dans cette t�che que nous offrons une v�ritable sc�nes d'int�rieur de tir en fonction des environnements virtuels qui contiennent � l'int�rieur des chambres diff�rentes (telles que cuisine, chambre, salon) et des articles. Apr�s un agent plac� dans cet environnement, nous donnerons des instructions de navigation d�taill�es fond�es sur le langage naturel, comme sortant d'une pi�ce, allez dans une salle, rencontre un objet dans quelle direction tourner, o� arr�ter, etc. . Ensuite, nous avons besoin de cet agent est en mesure de suivre les instructions, les instructions d�crites selon le chemin pour atteindre la destination correspondant. Cela n�cessite la langue et les images en m�me temps la compr�hension du mod�le, l'emplacement et la langue parmi les points cl�s d�crits, entre localiser l'image r�elle de la sc�ne, puis effectuer l'action correspondante. Ces donn�es ont �galement �t� beaucoup d'attention apr�s la sortie, nous avons �galement tenu un d�fi correspondant.

Nous savons que l'intelligence artificielle de mettre en place un objectif � long terme est d'�tre en mesure d'observer une compr�hension de l'environnement et de communiquer avec les humains, la mise en uvre des commandes li�es au robot intelligent. Vision par ordinateur est l'�glise principale du robot de percevoir, de voir l'environnement et la PNL donne le robot la capacit� de comprendre et la langue de produits. expression r�f�rentielle peut �tre utilis� comme un simple mod�le d'action langage de la vision, la vision est des images statiques, langage de requ�te est saisie, l'action est un simple pointage ou op�ration de d�tection. Et la navigation vision en langue peu plus compliqu�e, l'entr�e visuelle dans un environnement dynamique, la langue devient une longue instructions de navigation, l'op�ration est devenue une s�rie de mouvement longitudinal de l'op�ration gauche et � droite. Mais la t�che pense r�ellement � ce sujet est r�el pas particuli�rement r�aliste, qui est la raison pour laquelle nous donnons un robot si des instructions complexes pour l'aider � planifier le chemin de celui-ci. Et se r�f�rant expression n'est pas tr�s r�aliste, est la raison pour laquelle nous pouvons voir clairement l'image de l'objet, mais aussi des robots nous aider � pr�ciser ce? En r�alit�, nous voulons vraiment est une instruction simple avec un but, par exemple pour permettre au robot de trouver une certaine destination, il observe encore l'objet, qui est, des objets distants. Par exemple, Apportez-moi un coussin de la salle de s�jour est tr�s capable de couper dans la sc�ne r�elle devaient aller.

Ainsi, cette ann�e, en fonction des t�ches de navigation figurant ci-dessus, nous vous proposons une t�che � une combinaison de navigation et d'expression se r�f�rant, appel� RERERE: distance Embodied expressions r�f�rentielles dans des environnements r�els � l'int�rieur. Dans cette t�che qui, de m�me que nous allons l'agent plac� un point de d�part de la sc�ne, avec le dernier article pour un guide de navigation tr�s long est diff�rent est que nous sommes ici pour commander plus raffin�, et comprend deux t�ches en m�me temps, un la navigation vers une destination, comme d�crit dans un article correspondant est trouv�. Par exemple, dans l'exemple de la figure. � Allez dans l'escalier au niveau un et apportez-moi l'image de fond qui est � c�t� du haut des escaliers. � Nous ne donnons que la destination de l'�l�ment se trouve, sans donner un chemin sp�cifique, ce qui est plus conforme � nos habitudes humaines. Quant � la destination de l'objet, nous serons sous la forme de description en langage naturel est donn�, il est possible de le distinguer d'autres objets.

En m�me temps, qui, dans ce travail, nous proposons un mod�le du navigateur pointeur � la navigation combin�e � une expression r�f�rentielle. Bien s�r, par rapport � la performance humaine, il y a un �cart.

R�sum�:

Pour r�sumer, tout d'abord de tout ce que nous voyons sur les t�ches linguistiques de la vision classique, comme le sous-titrage d'image et VQA, peut augmenter l'espace est tr�s faible, les donn�es ont pass� par la violence � apprendre stade. Le v�ritable d�fi est en fait d�compos� dans certains domaines, tels que la diversit�, la contr�labilit�, le raisonnement et la fa�on dont l'application dans la langue de vision dans la sc�ne r�elle d'entre eux. 18 ans, nous avons fait beaucoup d'int�ressant, stimulant nouvelle t�che, je crois que les prochaines ann�es il y aura beaucoup de nouvelles m�thodes ont �t� propos�es pour r�pondre � ces nouveaux d�fis. bienvenue aussi que nous pouvons nous concentrer sur notre navigation visuelle incarn�e + r�f�rence t�ches d'expression propos�s et la recherche de nouveaux algorithmes sur ces nouvelles donn�es et t�ches.

Enfin, faire de la publicit�, nous avons un ensemble de lieux doctorat r�compense collective deux directions vision et de langue, si vous �tes int�ress� dans cette direction, vous pouvez me contacter (Dr Qi Wu, qi.wu01@adelaide.edu.au) .

A propos de l'auteur:

Dr Wu Qi est actuellement l'Universit� d'Ad�la�de, en Australie (Universit� d'Ad�la�de) Ma�tre de conf�rences (Professeur adjoint), Centre de Vision Australie (Centre Australie Vision Robotique) Chercheur associ� (adjoint du chef de projet), les projets Australian National Fund exceptionnelle des jeunes personne (Australian Research Council DECRA Fellow), Russell Australian Academy of science Award (JG Russell Award) gagnant, 2018 NVIDIA Pioneering laur�ats des Prix de recherche. Dr Wu Qi a obtenu en 2015 un doctorat � l'Universit� de Bath, Royaume-Uni, en travaillant sur la vision par ordinateur, la recherche particuli�re Vision langue int�r�t dans des domaines connexes, y compris le sous-titrage de l'image, la r�ponse aux questions visuelle, dialogue visuel et ainsi de suite. A publi� plus de trente articles sur CVPR, ICCV, ECCV, AAAI, TPAMI et d'autres r�unions et publications. Comme CVPR, ICCV, ECCV, NIPS, TPAMI, IJCV, TIP, TNN et d'autres intervenants de conf�rences et revues.

Cliquez sur Lire l'original , Rejoindra le groupe de t�te CVPR Bourse

Route de la soie

Apprenez � conna�tre la Chine

Le dernier champ de vision et langue Recherche et d�veloppement Article aper�u