Le dernier champ de vision et langue Recherche et développement Article aperçu

AI Technology Review par: L'auteur est professeur adjoint à l'Université d'Adélaïde Wu Qi, l'an dernier, il a rappelé les idées de recherche vision à la langue liés à la reconnaissance d'image de lui transversal dans des articles exclusifs pour la fourniture de l'IA Technology Review, cette année, il a de nouveau le point sur les tâches vision et de langue. Texte suit.

Avant-propos:

L'année dernière, a écrit un « million de mots vision de langue action divaguer », nous résumons notre groupe se concentre autour de quelques idées et le travail dans la langue de vision. Went participants VALSE, de nombreux étudiants et enseignants mentionnent l'article, at-il dit par beaucoup d'inspiration. En même temps, ont la possibilité de le faire sur ce rapport annuel vision et de langue VALSE sur le 2.0, il y a l'idée d'écrire le rapport, il devient pour vous de lire la référence. Cet article décrit quelques-unes de l'article 2018 du champ de recevoir plus d'attention, a été appelée vision et langage 2.0, parce que ces articles sont autour une partie de la nouvelle mission et la langue de la vision se déroulait.

corps:

Tout d'abord, faire quelques informations de fond, quelle est la vision et la langue? Nous savons que Computer Vision (vision informatique) et traitement du langage naturel (PNL) a été deux directions de recherche indépendants. Vision par ordinateur est l'étude de la façon dont une machine à « voir » la science, l'intelligence artificielle et le traitement du langage naturel est une branche du domaine de la linguistique, principalement pour explorer comment faire la machine « lire » la science et la « écriture ». Ils sont reliés entre eux lieu, le besoin d'utiliser beaucoup d'apprentissage de la machine, la technologie de reconnaissance des formes, en même temps, ils bénéficient également des progrès au cours des dernières années, on peut dire la profondeur du réseau de neurones Ces deux domaines de l'état actuel de l'art, sont basées sur les réseaux de neurones, et de nombreuses tâches, telles que CV dans la détection de reconnaissance d'objets, la PNL dans la traduction automatique, peut-être atteint un niveau pratique . Ainsi, dès le début de 2015, il y avait une tendance est de combiner visuel et le langage dans une certaine mesure, ce qui dans un certain nombre de nouvelles applications et défis. Par exemple, le sous-titrage de l'image, la réponse aux questions visuelle et d'autres tâches vision et de langue plus classique.

Avec l'introduction de ces efforts, la vision et la langue est devenue une recherche de plus en plus populaire et grand public. Cette figure montre la présentation papier CVPR des statistiques 2019, nous pouvons voir les comptes vision de langue pour 4% de toute soumission, plus encore que le suivi plus traditionnel, la reconnaissance de l'action devrait être élevé. Montre que de plus en plus de gens sont préoccupés par la recherche et dans ce sens.

Autour du sous-titrage d'image et VQA, il existe de nombreuses méthodes classiques ont été proposées, par exemple, empruntés à la traduction automatique du modèle séquence à séquence, qui est le modèle cnn-RNN, à l'introduction de l'attention (mécanismes attentionnels), et nous proposons à attributs en tant que couche intermédiaire pour générer des sous-titres plus précis et des réponses, puis plus tard MCB, réseau modulaire et CVPR 18 ans d'attention ascendante, il est moyen très classique et efficace. Mais nous avons également constaté que, malgré le nombre croissant de méthodes, modèles et plus complexes, ce qui porte l'amélioration est très limitée. Par exemple, dans le tableau des leaders sous-titrage d'image MS COCO, essentiellement après l'attention ascendante, pas grande amélioration. Regardez VQA, a VQA-défi chaque année, nous pouvons voir la comparaison de 17 ans et les résultats de 18 ans est venu dans la première équipe presque une différence de moins de deux points. Bien sûr, les données elles-mêmes mises à part ces deux problèmes de côté (biais de données VQA est relativement importante, sous-titrage et une évaluation précise plus difficile), de nombreux chercheurs ont commencé à se rendre compte que la légende de langue de vision et non seulement juste autour du VQA, parce que la tâche et les limites données, peut être l'espace excavé est devenu plus petit et plus petit.

Depuis le début de 17 ans, nous continuons de voir des nouvelles tâches dans la langue de vision sont mis en avant, comme la plus étudiée référence la compréhension de l'expression, aussi appelée visuelle mise à la terre, bien que 14 ans ont des concepts similaires ont été proposés, mais essentiellement la méthode depuis le début de 17 ans était associée à plus haut. Dans cette tâche, étant donné une période d'une image et d'expression, qui est décrit en langage naturel, nous nous attendons à une région, la région peut correspondre avec précision à cette description.

Il y a dialogue visuel, le dialogue visuel, la machine doit être en mesure de se déployer autour d'une question d'image et le format de réponse du dialogue. En plus du texte à l'image / vidéo génération, légende de l'image est de faire le contraire, pour générer les images correspondantes et vidéo à travers le langage. Bien que ces tâches semblent très « fantaisie », mais en fait sont le sous-titrage d'image et variantes VQA. Par exemple, l'expression se référant, est la région d'image - correspondant de la phrase. est un dialogue visuel VQA multi-tour. Essentiellement, le changement n'est pas grande, donc nous voyons cette méthode dans le sous-titrage d'image et VQA peut fonctionner dans ces tâches sont également de bons résultats.

Mais depuis le début de 18 ans, le champ de vision de langue des différentes tâches, afin que nous puissions avoir dans la voie de nouvelles percées. Je mets ces nouvelles tâches appelées vision et langage 2.0. Ces nouvelles tâches peuvent être divisées en trois zones. La première tâche a été principalement gravitent autour des aspects du sous-titrage d'image . le sous-titrage d'image passé est essentiellement d'aller tout droit, pour donner une image, générer une légende, pour générer cette légende est préoccupé par l'image d'eux quel objet, quel style de légende, est un style de données de formation de décider, ne peuvent pas librement le contrôle . Maintenant, nous voulons être en mesure de générer divers, voire contrôlables la légende. Le soi-disant divers, que nous voulons générer des contraintes de données de sous-titrage de formation, comme la préoccupation récente du sous-titrage roman d'objet, est l'objet décrit n'a jamais été un cas où l'ensemble de la formation. Le soi-disant contrôlable, nous espérons que nous pouvons contrôler la génération des sous-titres, tels que le style (humour / officiel / parlé, etc.) et de se concentrer sur l'objet et la zone est décrite, par exemple, nous pouvons décider de générer une légende décrivant l'arrière-plan de l'image ou au premier plan d'une description un objet peut être déterminé de niveau détail dans la description de celui-ci.

Une autre direction est le raisonnement, qui est, le raisonnement visuel. Nous savons que l'intérieur VQA, l'approche la plus commune est par fonction l'intégration (comme cnn-RNN), chemin de bout en bout pour former un réseau de neurones, ce qui a conduit au milieu du processus est une boîte noire, nous ne savons pas le raisonnement spécifique Quel processus Oui. Même si nous avons l'attention (mécanisme de l'attention), est seulement une partie du processus fait un certain degré de l'intelligibilité, comme l'attention était concentrée modèle peut réfléchir sur quels objets dans l'image en réponse à une question. Mais pour de telles applications VQA, le processus de raisonnement est essentiel. Donc, pour cette direction, récemment, nous avons eu des nouvelles données et tâches, telles que jeu de données CleVR, Visual Commonsense Raisonnement et ensembles de données une nouvelle AOQ Chris Manning a récemment proposé.

La troisième direction, je le mets résumé comme embodie d », qui est, la scène spécifique à la langue de vision de certains d'entre eux, ne repose plus sur les images statiques ou ne peuvent pas interagir avec la vidéo, mais peut interagir avec une partie de la scène réelle ou virtuelle. Par exemple, proposé en 18 ans et d'assurance qualité QA incarné interactive, est d'émettre VQA placé sous un scénario, les besoins des agents pour répondre aux questions et même mouvement dans la scène Interagir. En même temps, notre groupe a proposé en 18 ans une basés sur la vision - langue, et Embodied à distance a récemment proposé de faire référence expression des tâches, toutes ces langues de vision des tâches de navigation (Vision et langue Navigation) sur un spécifique scènes devaient aller.

Ensuite, nous avons une partie des travaux des trois aspects du représentant introduit l'année dernière pour examiner ces tâches et méthodes du passé différent.

1. Roman objet Sous-titrage

Ici, nous voulons donner la première présentation du travail vient de Georgia Tech, ils ont proposé de nouvelles données, ainsi que les tâches, appelées le sous-titrage roman d'objet. Avec l'image traditionnelle différence sous-titrage est que là, il avait une limite, cette limite l'objet apparaît dans le test enchâsser, jamais été décrit dans lequel l'ensemble de la formation. En fait, ce concept est similaire au concept d'apprentissage zéro-shot . Dans ce travail, ils ont mis les données en trois parties, à savoir, en domaine, quasi-domaine et hors domaine, peut faciliter l'image modèle sous-titrage des tests plus complets. Dans le domaine est l'objet qui est les problèmes de sous-titrage d'images classiques qui sont apparues dans l'ensemble de la formation. Près de domaine fait référence à l'image des objets les plus frappants est l'objet roman, c'est pas dans l'ensemble de la formation est apparue, et il peut y avoir d'autres objets décrits dans les données de formation. Hors domaine est le plus dur de tous les objets de l'image ne les ont pas dans l'ensemble de la formation. Avant que j'avais en fait un cadre similaire, mais la plupart d'entre eux sont la séparation des différentes séparation des données sous-titrage image coco. Et ces données fournit une nouvelle dimension, tout en offrant un domaine différent de test, fournit une analyse plus complète d'un sous-titrage d'image modèle.

Pour cette tâche, il y a des nouvelles méthodes ont été proposées, qui, parler bébé de neurones est un bon travail. Ce travail a également de Georgia Tech, a été proposé par Jiasen Lu, est CVPR 2018 dans un document. Dans ce travail, qui, Babytalk modèle qui a inspiré + sous-titrage codé généré par le biais de remplissage dans les espaces vides avant de mettre le sous-titrage de l'image nouveau-objet est divisé en deux étapes: la première étape consiste à générer un modèle. Cependant, en utilisant différents définis à l'avance au début du Babytalk bon modèle, où le modèle est généré automatiquement en fonction de l'image. Dans chaque génération est un mot, il a fait un jugement sur le mot doit être dérivé du texte ou d'une image. Mot du texte sur la formation d'un modèle, comme l'image ci-dessous, le modèle est généré < région-17 >  Il est assis à une < region-123 >  avec < région 3 > région-17 ici est en fait une à l'intérieur de l'image d'une proposition de la région.

Il a ensuite appelé la deuxième étape de remplissage dans les fentes, qui est, remplir le vide. Il est allé à classer ceux identifiés ci-dessus avec une région en dehors du classificateur formé, alors le résultat de l'étape de reconnaissance de modèle remplissage généré à l'intérieur . Cette fois-ci, la génération de sous-titrage en fait ne dépend pas de savoir si l'objet cible est décrit, mais plutôt compter sur la formation externe un classificateur, qui est, aussi longtemps que suffisamment vu classificateur de l'objet peut être, sans correspondant données de légende. Ce résultat comme la région ci-dessus 17 est identifié chiot, la dernière légende est générée Un chiot est assis à une table avec un gâteau.

Une autre idée est présentée par Peter Anu Anderson, appelé la recherche de faisceau contraint. Dans le sous-titrage d'image dans une affaire commune est à la recherche de faisceau. Que nous générons un mot dans le temps choisi, non seulement pour sélectionner le plus probable que l'un, mais pour sélectionner le candidat le plus probable en tant que b a, b est la taille du faisceau, puis le long de cette b un candidat, puis continuer à chercher bas les b-meilleurs mots candidats. Ici, ce travail présente une recherche de faisceau contraint, qui est, avant de faire la recherche de faisceau, il extraira quelques images d'entre eux commencent tag. Cette balise est un cours de formation externe, certains peuvent ne pas apparaître dans l'image les sous-titrer la formation mis hors étiquette. Il utilise ensuite ces balises crée une machine à états finis (machine à états finis), puis les directions de recherche de faisceau selon une machine à états finis, tels que la génération de sous-titrage, assez pour correspondre à la structure grammaticale appropriée et peut contenir l'étiquette souhaitée.

2. Raisonnement visuelle

Introduction au travail sur le roman sous-titrage d'objets, nous allons présenter ici une partie des travaux associés au raisonnement visuel. En parlant de raisonnement visuel, je dois mentionner 17 ans de CleVR (compositionnelle Langue et Raisonnement visuelle primaire), ce sont les premières données définies spécifiquement pour des tâches de raisonnement visuel établies. Les données de cette image est principalement composée d'un certain nombre de différentes tailles, couleurs, formes, matériaux composés de la géométrie, bien que la composition d'image est simple, mais le problème lui-même est plus complexe, la nécessité de faire un raisonnement plus complexe. Par exemple, la première question est ici le numéro de la figure de gros objets et des billes de métal sont les mêmes? « Pour répondre à cette question, nous devons d'abord identifier les objets de grande taille ainsi que des billes métalliques (visuellement), le nombre de chacun à être calculé séparément, le jugement final ne soit pas égal au nombre de deux, qui est, pour répondre à cette question nous avons besoin d'un raisonnement en trois étapes.

En plus de fournir des images de CleVR de données - question - réponse au-delà de cette marque, a également évoqué le processus de raisonnement logique (appelé la fonction) étiquetage, par exemple au-dessus de ce problème nécessite un processus en trois étapes de raisonnement, il y aura trois fonctions marquées relié à un chaînage . Tel est le raisonnement exposé au sol vérité, nous sommes non seulement en mesure de vérifier si les réponses types aux questions, mais aussi être en mesure d'évaluer vraiment si le modèle a une assez forte capacité de raisonnement. Cet article se trouve également présenter une bonne modèle dans les données VQA traditionnelles (telles que MCB) sur CleVR n'a pas été bonne, ce qui indique la structure VQA traditionnelle et il n'y a aucun moyen grâce à une formation de bout en bout pour avoir la capacité à la raison, le besoin le nouveau modèle est en mesure de compléter le raisonnement approprié.

Une fois que les données présentées, il y a beaucoup de nouvelles méthodes ont été proposées, telles que le réseau modulaire sur l'exécution des tâches est très bonne. Nous sommes là pour choisir l'un des méthodes plus célèbre appelée MAC (mémoire, attention et composition) sont introduits. MAC est faite par domaine PNL de Chris Manning géant, est l'article ICLR18.

MAC fournit un raisonnement différentiables pleine structure modulaire. Un réseau MAC est divisé en trois parties, l'image d'entrée est principalement responsable du codage et des problèmes. MAC partie de l'unité récurrente est de plusieurs fois le raisonnement MAC par l'unité de base et l'agencement empilé. La section de sortie finale est caractérisée par la combinaison de raisonnement la réponse. Ici est un élément clé des neurones dits MAC. neurones MAC composé de trois opérandes fonctionnant en série: l'état de contrôle des mises à jour de l'unité de commande, de participer à certaines parties en question à répondre à chaque itération, unité de lecture et de l'état de la mémoire sous le contrôle de l'état du guide, à l'information extrait; Ecrire Cela signifie que l'intégration de ces informations récupérées dans l'état de la mémoire, la réponse calcul itératif. L'avantage de ce modèle est que le processus « raisonnement » utilise une information d'image mécanisme d'attention douce extrait plusieurs tours, le processus complet différentiables, l'inconvénient est que tout le processus ou « boîte noire », ne peut pas donner un processus de raisonnement explicite.

Dans une récente CVPR19, Chris Manning a également proposé un nouvel ensemble de données, appelé AOQ, peut être considéré comme une version réelle de l'CleVR d'image. Parce que CleVR parmi les objets sont une géométrie simple relativement simple, sous forme. AOQ en utilisant une image réelle commune en entrée, et le type de problème CleVR est très similaire, nous avons besoin d'une forte capacité de raisonnement visuel pour pouvoir complet . Par exemple, voici la question: « Prenez la petite fille laissé la nourriture à Hambourg sur l'objet rouge est la couleur, jaune ou brun? ». Répondez à cette question, nous avons besoin de solides compétences de raisonnement spatial et logique. En outre, CleVR similaire, ces données fournit également la chaîne logique nécessaire étiquetée.

Un autre travail connexe et le raisonnement, aussi apparaîtront sur CVPR19 derniers travaux, appelé le magnétoscope, Visual Commonsense Raisonnement.

Il travail intéressant de, il donnera les images à la région, au problème, le modèle doit choisir une des questions multiples choix réponse correcte. Mais en choisissant la bonne réponse, il est également nécessaire de sélectionner la raison donnée cette réponse. Ils appellent cette capacité est appelée Cognition, il est la capacité cognitive. Par exemple, la figure paire d'entre eux, la question est, pourquoi la personne 4, montrant personne 1. La bonne réponse est, il dit une personne 1 personne 3 pancake heures. Sélectionné cette réponse parce que, personne 3 donne ce repas de table, elle ne peut pas savoir qui ce point. Nous pouvons voir que la réponse à cette question, il faut non seulement la perception visuelle, mais aussi le bon sens, le raisonnement et la capacité cognitive. Il est très difficile. Cet article fournit également une base simple. modèle est divisé en trois étapes: (1) mise à la terre, comprendre la signification des questions et des réponses, (2) en contexte, l'image combinée, des questions, des réponses, comprendra en outre que, comme les referents clairs; (3) le raisonnement, le raisonnement région visuelle le lien intrinsèque entre les deux. En fait, notre groupe ont été préoccupés par la façon dont le bon sens à l'intérieur de la langue de vision, comme FVQA 17 ans proposé. Ce travail est tourné vers l'avenir, mais je pense personnellement que cette tâche à la vision de la langue actuelle était trop difficile, parce que nous n'avons pas encore très complet de la base de connaissances de bon sens, et la taille des données ne suffit pas pour nous faire apprendre au sens commun souhaité, même d'apprendre, mais aussi un overfitting. Je pense que le raisonnement, il devrait être mis de côté le bon sens et même la meilleure connaissance du domaine, ne le faites sur visuel, similaire à CleVR et AOQ.

3. Vision Embodied et langue

Dans les derniers mots « la vision de langue d'action » où ramble nous l'avons mentionné, la langue de la vision et l'action se combinent est un sens très populaire et prometteur, y compris notre groupe, y compris de nombreux grands groupes dans ce sens sur une action.

Tout d'abord, nous introduisons VQA incarnés.  Cette tâche est l'intégration de l'information multimodale exige la planification de trajectoire (navigation) et l'exploration en proposant d'être placé dans un texte de la question sur la base de l'agent de l'environnement virtuel dans l'environnement spatial virtuel pour atteindre la position cible et des questions réponses. Par exemple, un problème ici est que la voiture est de quelle couleur? Mais l'agent à l'emplacement actuel et ne peut pas voir la voiture, il doit tout d'abord la planification du chemin, atteindre l'emplacement de la voiture se trouve, de ce fait d'autres réponses. Cela nécessite l'agent de comprendre leur environnement, planification de chemin et ont une certaine capacité à explorer, en même temps, être en mesure de répondre à des questions. Ensuite, l'article de CVPR19 est Licheng Yu qu'ils font est basé sur Embodied VQA, d'émettre un nouvel ordre de difficulté, appelé MT-LQE. Dans cette tâche que la question ne concerne pas un seul objet, mais les différents objets dans des pièces différentes, par exemple lorsque le problème est la commode de la chambre et salle de bain vanité est une couleur il?

Un autre très intéressant les directions que nous avons présenté au CVPR 18 ans Vision et langue Navigation (https://bringmeaspoon.org/). Dans cette tâche que nous offrons une véritable scènes d'intérieur de tir en fonction des environnements virtuels qui contiennent à l'intérieur des chambres différentes (telles que cuisine, chambre, salon) et des articles. Après un agent placé dans cet environnement, nous donnerons des instructions de navigation détaillées fondées sur le langage naturel, comme sortant d'une pièce, allez dans une salle, rencontre un objet dans quelle direction tourner, où arrêter, etc. . Ensuite, nous avons besoin de cet agent est en mesure de suivre les instructions, les instructions décrites selon le chemin pour atteindre la destination correspondant. Cela nécessite la langue et les images en même temps la compréhension du modèle, l'emplacement et la langue parmi les points clés décrits, entre localiser l'image réelle de la scène, puis effectuer l'action correspondante. Ces données ont également été beaucoup d'attention après la sortie, nous avons également tenu un défi correspondant.

Nous savons que l'intelligence artificielle de mettre en place un objectif à long terme est d'être en mesure d'observer une compréhension de l'environnement et de communiquer avec les humains, la mise en uvre des commandes liées au robot intelligent. Vision par ordinateur est l'église principale du robot de percevoir, de voir l'environnement et la PNL donne le robot la capacité de comprendre et la langue de produits. expression référentielle peut être utilisé comme un simple modèle d'action langage de la vision, la vision est des images statiques, langage de requête est saisie, l'action est un simple pointage ou opération de détection. Et la navigation vision en langue peu plus compliquée, l'entrée visuelle dans un environnement dynamique, la langue devient une longue instructions de navigation, l'opération est devenue une série de mouvement longitudinal de l'opération gauche et à droite. Mais la tâche pense réellement à ce sujet est réel pas particulièrement réaliste, qui est la raison pour laquelle nous donnons un robot si des instructions complexes pour l'aider à planifier le chemin de celui-ci. Et se référant expression n'est pas très réaliste, est la raison pour laquelle nous pouvons voir clairement l'image de l'objet, mais aussi des robots nous aider à préciser ce? En réalité, nous voulons vraiment est une instruction simple avec un but, par exemple pour permettre au robot de trouver une certaine destination, il observe encore l'objet, qui est, des objets distants. Par exemple, Apportez-moi un coussin de la salle de séjour est très capable de couper dans la scène réelle devaient aller.

Ainsi, cette année, en fonction des tâches de navigation figurant ci-dessus, nous vous proposons une tâche à une combinaison de navigation et d'expression se référant, appelé RERERE: distance Embodied expressions référentielles dans des environnements réels à l'intérieur. Dans cette tâche qui, de même que nous allons l'agent placé un point de départ de la scène, avec le dernier article pour un guide de navigation très long est différent est que nous sommes ici pour commander plus raffiné, et comprend deux tâches en même temps, un la navigation vers une destination, comme décrit dans un article correspondant est trouvé. Par exemple, dans l'exemple de la figure. « Allez dans l'escalier au niveau un et apportez-moi l'image de fond qui est à côté du haut des escaliers. » Nous ne donnons que la destination de l'élément se trouve, sans donner un chemin spécifique, ce qui est plus conforme à nos habitudes humaines. Quant à la destination de l'objet, nous serons sous la forme de description en langage naturel est donné, il est possible de le distinguer d'autres objets.

En même temps, qui, dans ce travail, nous proposons un modèle du navigateur pointeur à la navigation combinée à une expression référentielle. Bien sûr, par rapport à la performance humaine, il y a un écart.

Résumé:

Pour résumer, tout d'abord de tout ce que nous voyons sur les tâches linguistiques de la vision classique, comme le sous-titrage d'image et VQA, peut augmenter l'espace est très faible, les données ont passé par la violence à apprendre stade. Le véritable défi est en fait décomposé dans certains domaines, tels que la diversité, la contrôlabilité, le raisonnement et la façon dont l'application dans la langue de vision dans la scène réelle d'entre eux. 18 ans, nous avons fait beaucoup d'intéressant, stimulant nouvelle tâche, je crois que les prochaines années il y aura beaucoup de nouvelles méthodes ont été proposées pour répondre à ces nouveaux défis. bienvenue aussi que nous pouvons nous concentrer sur notre navigation visuelle incarnée + référence tâches d'expression proposés et la recherche de nouveaux algorithmes sur ces nouvelles données et tâches.

Enfin, faire de la publicité, nous avons un ensemble de lieux doctorat récompense collective deux directions vision et de langue, si vous êtes intéressé dans cette direction, vous pouvez me contacter (Dr Qi Wu, qi.wu01@adelaide.edu.au) .

A propos de l'auteur:

Dr Wu Qi est actuellement l'Université d'Adélaïde, en Australie (Université d'Adélaïde) Maître de conférences (Professeur adjoint), Centre de Vision Australie (Centre Australie Vision Robotique) Chercheur associé (adjoint du chef de projet), les projets Australian National Fund exceptionnelle des jeunes personne (Australian Research Council DECRA Fellow), Russell Australian Academy of science Award (JG Russell Award) gagnant, 2018 NVIDIA Pioneering lauréats des Prix de recherche. Dr Wu Qi a obtenu en 2015 un doctorat à l'Université de Bath, Royaume-Uni, en travaillant sur la vision par ordinateur, la recherche particulière Vision langue intérêt dans des domaines connexes, y compris le sous-titrage de l'image, la réponse aux questions visuelle, dialogue visuel et ainsi de suite. A publié plus de trente articles sur CVPR, ICCV, ECCV, AAAI, TPAMI et d'autres réunions et publications. Comme CVPR, ICCV, ECCV, NIPS, TPAMI, IJCV, TIP, TNN et d'autres intervenants de conférences et revues.

Cliquez sur Lire l'original , Rejoindra le groupe de tête CVPR Bourse

Le Magicien d'Oz [03] Fengling bois chaque femme - Heilongjiang Beaux-Arts Publishing House 2011 Zhao Ji Zhao sont peints [sur]
Précédent
Zhang Ying Ying montre le premier jour du procès, les accusés encourent la peine de mort accusé, le jury est une grande incertitude
Prochain
« Juin » Bien avant la tournée de vacances Harbin compagnie pour montrer l'amour aux enfants ayant des besoins spéciaux
lutte pour le pouvoir Huang Wei - Nouveau 1955 Chen Lvping peint Publishing Beaux-Arts Maison
cents abricots seront - Culture chinoise Maison d'édition 2009 peinture Wang Xuecheng
L'histoire comparative jugée pour voir le fonds d'obligations convertibles en cours peut acheter?
Qian Wang Chao a tiré - Zhejiang People édition des beaux-arts Maison 1980 DAI REN peint
Liuzuo Hu n'a pas menti! Un plus 7 débuts Pro: premier roi national bien mérité!
Jouer à Roi Dragon - Édition des Beaux-Arts de Zhejiang gens Maison 1980 Dai Honghai peint
Kuni Zhenjiang - Beaux-Arts de Zhejiang populaire Maison d'édition 1980 Dai Honghai peint
Le présent et le futur sort de Yang, la marge brute adjoint des Affaires étrangères est nettement inférieur à la démission des liquidités
Quels sont les plus ennuyeux de fumer place? « Les violateurs de fumer « rapport gnaw? Venez voir
Le Magicien d'Oz [02] prédication dragon - Heilongjiang Beaux-Arts Publishing House 2011 Zhao Ji Zhao ont été peints
Meurtre au Soleil - China Film Press 1983 [at] films de détective classique