La reconnaissance d'image de l'avenir: opportunit�s et d�fis

Dans le domaine de la vision par ordinateur, reconnaissance d'images � pas de g�ant ces derni�res ann�es, mais avant encore largement utilis�, il y a encore de nombreux d�fis que nous devons r�soudre. Dans cet article, le groupe Visual Computing aux chercheurs de Microsoft Research Asia ont ratiss� nos d�fis d'apprentissage en profondeur actuellement rencontr�s dans la reconnaissance de l'image et les orientations de recherche futures ont une valeur.

La reconnaissance d'image pour l'homme est une chose tr�s facile, mais en termes de la machine, qui a �galement connu de longues ann�es.

Dans le domaine de la vision par ordinateur, reconnaissance d'image au cours des derni�res ann�es de d�veloppement � pas de g�ant. Par exemple, dans l'objet de r�f�rence de d�tection PASCAL COV, la performance du d�tecteur de la pr�cision moyenne de hausse de 30% � plus de 90% aujourd'hui. Pour la classification d'images, � contester ensemble de donn�es IMAGEnet, la performance actuelle des algorithmes avanc�s encore plus que les humains.

application � haute valeur de la technologie de reconnaissance d'image qui va vous arriver � mes c�t�s, tels que la surveillance vid�o, pilote automatique intelligent et des soins m�dicaux, et la force motrice derri�re les derni�res avanc�es en mati�re de reconnaissance d'image ce sont l'apprentissage en profondeur. �tude approfondie de succ�s principalement en raison de trois aspects: la g�n�ration de grands ensembles de donn�es, un mod�le de d�veloppement puissant et un grand nombre de ressources informatiques disponibles. Pour une vari�t� de t�ches de reconnaissance d'image, les profondeurs con�ues r�seau de neurones est all� bien au-del� de celles qui sont fond�es sur les caract�ristiques pr�c�demment d'image artificiellement con�ue.

Bien que jusqu'� pr�sent l'apprentissage en profondeur dans la reconnaissance de l'image qu'il a d�j� connu un grand succ�s, mais encore avant qu'il ne soit largement utilis�, il y a encore de nombreux d�fis que nous devons faire face. En m�me temps, nous voyons aussi beaucoup de recherche a une valeur future.

Un d�fi: comment am�liorer la capacit� de g�n�ralisation du mod�le

La technologie de reconnaissance d'image avant de pouvoir �tre largement utilis�, un d�fi important est, comment pouvons-nous savoir qu'un mod�le n'a pas paru dans la sc�ne a encore une bonne capacit� de g�n�ralisation.

Dans la pratique actuelle, l'ensemble des donn�es ont �t� divis�s au hasard en un ensemble de formation et un ensemble de test, le mod�le � former et en cons�quence �valu� sur cet ensemble de donn�es. Notez que, dans cette approche, comme dans l'ensemble de la formation et un ensemble de test a une distribution de donn�es, car ils sont tous ayant une sc�ne similaire du contenu et de l'�tat d'imagerie des donn�es �chantillonn�es.

Cependant, dans les applications pratiques, des images de test peuvent provenir lorsque la distribution des donn�es est diff�rente de la formation. Ces donn�es n'ont pas vu les donn�es de formation peuvent varier en perspective, la taille de l'�chelle, la configuration de la sc�ne, les attributs de la cam�ra.

Dans une �tude, cette diff�rence dans la pr�cision de la distribution des donn�es peut conduire � une vari�t� de mod�le de r�seau de profondeur g�n�re consid�rablement r�duit. La sensibilit� aux changements naturels dans le mod�le actuel de distribution des donn�es peut devenir un probl�me s�rieux pour les applications critiques telles que la conduite automatique.

D�fi: Comment tirer profit des petites et donn�es � grande �chelle

Un autre d�fi important que nous devons faire face est de savoir comment mieux utiliser les donn�es de formation � petite �chelle. Bien que l'apprentissage en profondeur gr�ce � l'utilisation d'un grand nombre de donn�es �tiquet�es dans une vari�t� de t�ches sont un grand succ�s, mais les technologies existantes souvent parce que quelques exemples d'�tiquettes disponibles dans un petit sc�nario de l'accident de donn�es. Ce sc�nario est commun�ment appel� � l'apprentissage petit �chantillon (apprentissage quelques-shot) �, et doivent �tre examin�es avec soin dans des applications pratiques. Par exemple, un robot m�nager devrait �tre achev� cette t�che: montrer qu'un nouvel objet et l'affichage une seule fois, apr�s quoi il sera en mesure d'identifier l'objet. On peut accomplir cette t�che naturellement, m�me apr�s que l'objet a �t� utilis�, et par exemple, est un tapis pli� vers le haut. Comment donner les questions de recherche sur les r�seaux de neurones tels que la g�n�ralisation humaine est ouverte.

� l'autre extr�me est de savoir comment utiliser les donn�es � l'�chelle ultra-large d'am�liorer efficacement les performances des algorithmes de reconnaissance. Pour le pilote automatique telles que les applications critiques, les erreurs de reconnaissance d'image co�t est tr�s �lev�. Par cons�quent, les chercheurs ont cr�� un ensembles de donn�es tr�s volumineux, l'ensemble de donn�es contient des centaines de millions d'images avec annotation riche, et ils esp�rent utiliser les donn�es � l'exactitude du mod�le a �t� consid�rablement am�lior�e.

Cependant, l'algorithme ne fait pas bon usage de ces donn�es ultra-grande �chelle. Sur les 300 millions, il contient des images marque de jeu de donn�es JFT, diverses propri�t�s de la profondeur du r�seau augmente � mesure que la quantit� de donn�es de formation, ne montrant qu'une am�lioration de la grandeur logarithmique (Figure 1). Dans le cas de donn�es � grande �chelle, les donn�es de formation continue d'augmenter les revenus provoqu�e deviendra de plus en plus �vident que c'est une question importante � r�soudre.

La figure d�tect�e sur une donn�e de la mise � ex�cution JFT-300M sur les exemples de formation ont augment� plusieurs fois pour am�liorer la paire. L'axe x est la taille des donn�es de l'�chelle logarithmique. L'axe des y est la performance de d�tection de cible. � gauche sur l'ensemble de test @ COCO mAP utilisation minival index, le droit d'utiliser des indicateurs de mAP@0.5~~number=plural sur la teneur en COV 2007 PASCAL ensemble de test. Deux courbes rouges et bleues repr�sentent deux mod�les diff�rents.

Trois d�fis: une compr�hension globale de la sc�ne

En plus de ceux qui ont trait aux donn�es de la formation et la g�n�ralisation du probl�me, il y a un autre important sujet de recherche est une compr�hension globale de la sc�ne. En plus d'identifier et de localiser des objets dans la sc�ne, les humains peuvent aussi �tre inf�r�e relation entre l'objet et l'objet, une partie du niveau global, la sc�ne en trois dimensions et les attributs des objets de mise en page.

Pour acqu�rir une compr�hension plus large de la sc�ne aidera ces applications telles que le robot interactif, car ces applications n�cessitent souvent des informations autres que l'identification d'objet et de l'emplacement. Cette t�che implique non seulement la perception de la sc�ne, mais aussi la n�cessit� de comprendre la perception du monde r�el. Pour atteindre cet objectif, nous avons un long chemin � parcourir. Un exemple d'une compr�hension globale de la segmentation de sc�ne panoramique, repr�sent�e sur la figure.

Figure II (a) l'image, (b) segmentation s�mantique: l'identification ciel, l'herbe et d'autres mat�riaux routiers forme non d�nombrable pas fixe (Stuff), m�thode de marquage g�n�ralement marqu� � chaque pixel, (c) diviser Exemple: et le nombre de division peut �tre ind�pendamment et al, outil instances d'animal ou un objet (instance d'objet), typiquement avec une zone de d�limitation ou de marquage des masques de segmentation de la cible, (d) de panorama divisant:. g�n�rer un uniforme, la segmentation de l'image globale, la reconnaissance que la mati�re, mais aussi identifier l'objet.

Quatri�me d�fi: Design Automation r�seau

Le dernier d�fi remarquable est de rendre l'automatisation de la conception du r�seau. Ces derni�res ann�es, la reconnaissance de l'image dans ce foyer sur le terrain � la conception de la mise � jour de meilleures caract�ristiques de conception de l'architecture r�seau. Cependant, la conception de l'architecture de r�seau est un processus fastidieux, il faut g�rer un grand nombre d'ultra-param�tres et choix de conception. Tuning ces �l�ments n�cessite des ing�nieurs exp�riment�s passent beaucoup de temps et d'efforts.

Plus important encore, l'architecture optimale architecture optimis�e et une t�che � une autre t�che peut �tre compl�tement diff�rent. Bien que notre �tude de l'architecture neuronale recherche automatique a d�j� commenc�, mais ils sont encore dans les premi�res �tapes et ne fonctionne que sur la t�che de classification d'image. La m�thode actuelle de l'espace de recherche est tr�s �troite, car ils recherchent la combinaison optimale d'un module de r�seau local existant (par exemple la profondeur de convolution et reli�s de fa�on d�tachable � l'identit�), et ne peut pas d�couvrir le nouveau module. On ne sait pas si ces m�thodes existantes comp�tentes � des t�ches plus complexes.

diagramme d'architecture abstraite Figure III algorithme de recherche de nerf. Tout d'abord, la strat�gie de recherche de l'espace de recherche pr�d�fini A s�lectionner un cadre, cette strat�gie d'�valuation du cadre pour �valuer et passer l'�valuation de la performance de A � la strat�gie de recherche.

En d�pit de ces d�fis dans le domaine de la reconnaissance d'image, mais nous croyons encore � la grande �tude approfondie potentiel dans le domaine de la reconnaissance d'image. Les occasions abondent pour r�soudre ces probl�mes, le regard let � quelques directions de recherche dont:

Une direction: l'int�gration du sens commun

domaine de la reconnaissance d'image ont une direction de recherche important est le bon sens dans la profondeur de l'apprentissage. � l'heure actuelle, l'apprentissage en profondeur, principalement en techniques purement bas�es sur les donn�es sont utilis�es. Dans l'apprentissage en profondeur, le r�seau de neurones en utilisant l'ensemble de la formation d'�chantillons marqu�s d'une fonction non lin�aire de l'apprentissage, l'apprentissage � la fonction apr�s ce r�le sera aux pixels d'image dans le test. Informations � l'ext�rieur de l'ensemble de la formation qui n'a pas �t� utilis�.

En revanche, la reconnaissance de l'objet humain est non seulement bas�e sur un �chantillon ont vu, mais aussi en fonction de leurs connaissances sur le monde r�el. Les gens sont capables de raisonner sur ce qu'ils voient, afin d'�viter des r�sultats de reconnaissance illogique. En outre, face � quelque chose de nouveau ou d�pass� les attentes, les humains peuvent ajuster rapidement leurs connaissances pour expliquer cette nouvelle exp�rience. Comment obtenir en r�seau profondeur, il repr�sente le bon sens et utiliser le raisonnement de bon sens est un d�fi.

Direction Deux: raisonnement g�om�trique

reconnaissance d'image JI et le raisonnement g�om�trique est un autre potentiel direction. Le principal mod�le de reconnaissance d'image ne consid�re que l'apparence � deux dimensions, mais les humains peuvent percevoir la mise en sc�ne en trois dimensions et d'en d�duire ses cat�gories s�mantiques intrins�ques. mise en page en trois dimensions ne peut �tre obtenu � partir de la vision binoculaire, vous pouvez �galement obtenir des commentaires du raisonnement g�om�trique � deux dimensions, tout comme il l'avait fait en regardant des images. identification photographique commune et le raisonnement g�om�trique offre des avantages pour les deux parties.

La d�termination de la mise en page de raisonnement g�om�trique en trois dimensions peut aider dans le cas de la perspective invisible, l'apparition de la d�formation du guide et de la reconnaissance. Il peut �galement �liminer la s�mantique de mise en page d�raisonnables, et aider � identifier la fonction ou la forme en trois dimensions d�finies par cat�gories. Par exemple, il y a une diff�rence �norme canap� en apparence dans la classe. Cependant, ils partagent des attributs communs qui peuvent les aider � identifier. Ils ont par exemple un si�ge horizontal, pour supporter une surface arri�re. D'autre part, il peut �tre identifi� de l'espace s�mantique solution normalis�e raisonnement g�om�trique. Par exemple, si le chien est identifi� dans une sc�ne, il se conforme � la structure en trois dimensions appropri�e du mod�le de forme en trois dimensions du chien.

La figure quatre cadres reconstruits � partir de deux points de vue diff�rents d'un point de sc�ne vid�o nuage dynamique complexe

Direction III: mod�lisation de la relation

Relation mod�lisation a �galement un grand potentiel de recherche. Vous voulez une compr�hension globale de la sc�ne, sur la relation entre les entit�s cibles pr�sentes dans la sc�ne et la mod�lisation de l'interaction est tr�s importante (figure IV). Consid�rons deux images, chaque image contient un homme et un cheval. Si un spectacle surfe sur une personne de cheval, un autre spectacle est de marcher sur les chevaux des gens, deux images apparemment exprim� un sens compl�tement diff�rent. De plus, la relation entre la sc�ne de mod�lisation pour extraire la structure sous-jacente peut aider � compenser l'incertitude actuelle vague de la profondeur de l'apprentissage en raison des donn�es limit�es et les nouveaux enjeux. Bien que les gens ont essay� de r�soudre cette mod�lisation de la relation probl�me, mais cette recherche est encore au stade pr�liminaire, et il y a encore beaucoup � explorer l'espace.

r�seaux FIG cinq de d�tection de cible. Dans lequel l'objet de regard est repr�sent�, montre que les caract�ristiques g�om�triques de l'objet

Direction quatre: apprendre � apprendre

Il y a aussi mentionner que l'apprentissage vaut la direction de yuans, son objectif est d'apprendre le processus d'apprentissage. Cette question a r�cemment attir� une attention consid�rable, et l'architecture de recherche nerveuse peut �galement �tre consid�r�e comme l'une de ses applications.

Cependant, en raison du m�canisme actuel de l'apprentissage mod�lisation des processus, la repr�sentation et l'algorithme recherche encore relativement peu �lev�, m�ta-apprentissage est encore � ses d�buts. recherche d'architecture neurale, par exemple, il ne se limite pas � une simple combinaison de modules de r�seau existants. Yuan apprenants ne peuvent pas saisir l'intuition subtile et la perspicacit� n�cessaire pour cr�er un nouveau module de r�seau. Avec l'avancement de l'apprentissage de yuans, le potentiel de l'architecture automatique peut �tre enti�rement lib�r�, puis obtenir beaucoup plus que la conception de l'architecture de r�seau manuel.

Progr�s Figure VI m�ta-apprentissage de r�cent. De gauche � droite sont l'apprentissage de yuans optimisation ultra-param�tre, la recherche d'architecture neuronale, moins la classification d'images �chantillon.

C'est un moment excitant d'�tre engag� dans la reconnaissance d'image, un champ de la promotion du d�veloppement, la possibilit� d'influencer l'�re future de l'application. Nous attendons avec impatience les progr�s � venir, et nous nous r�jouissons de ces nouvelles technologies � fa�on profonde et magique pour changer nos vies.

Source: titres Microsoft Research AI

Auteur: G�n�ration saison, Lin c�t�, Guo Baining

- [FIN] -

Route de la soie

Apprenez � conna�tre la Chine

La reconnaissance d'image de l'avenir: opportunit�s et d�fis