La reconnaissance d'image de l'avenir: opportunités et défis

Dans le domaine de la vision par ordinateur, reconnaissance d'images à pas de géant ces dernières années, mais avant encore largement utilisé, il y a encore de nombreux défis que nous devons résoudre. Dans cet article, le groupe Visual Computing aux chercheurs de Microsoft Research Asia ont ratissé nos défis d'apprentissage en profondeur actuellement rencontrés dans la reconnaissance de l'image et les orientations de recherche futures ont une valeur.

La reconnaissance d'image pour l'homme est une chose très facile, mais en termes de la machine, qui a également connu de longues années.

Dans le domaine de la vision par ordinateur, reconnaissance d'image au cours des dernières années de développement à pas de géant. Par exemple, dans l'objet de référence de détection PASCAL COV, la performance du détecteur de la précision moyenne de hausse de 30% à plus de 90% aujourd'hui. Pour la classification d'images, à contester ensemble de données IMAGEnet, la performance actuelle des algorithmes avancés encore plus que les humains.

application à haute valeur de la technologie de reconnaissance d'image qui va vous arriver à mes côtés, tels que la surveillance vidéo, pilote automatique intelligent et des soins médicaux, et la force motrice derrière les dernières avancées en matière de reconnaissance d'image ce sont l'apprentissage en profondeur. étude approfondie de succès principalement en raison de trois aspects: la génération de grands ensembles de données, un modèle de développement puissant et un grand nombre de ressources informatiques disponibles. Pour une variété de tâches de reconnaissance d'image, les profondeurs conçues réseau de neurones est allé bien au-delà de celles qui sont fondées sur les caractéristiques précédemment d'image artificiellement conçue.

Bien que jusqu'à présent l'apprentissage en profondeur dans la reconnaissance de l'image qu'il a déjà connu un grand succès, mais encore avant qu'il ne soit largement utilisé, il y a encore de nombreux défis que nous devons faire face. En même temps, nous voyons aussi beaucoup de recherche a une valeur future.

Un défi: comment améliorer la capacité de généralisation du modèle

La technologie de reconnaissance d'image avant de pouvoir être largement utilisé, un défi important est, comment pouvons-nous savoir qu'un modèle n'a pas paru dans la scène a encore une bonne capacité de généralisation.

Dans la pratique actuelle, l'ensemble des données ont été divisés au hasard en un ensemble de formation et un ensemble de test, le modèle à former et en conséquence évalué sur cet ensemble de données. Notez que, dans cette approche, comme dans l'ensemble de la formation et un ensemble de test a une distribution de données, car ils sont tous ayant une scène similaire du contenu et de l'état d'imagerie des données échantillonnées.

Cependant, dans les applications pratiques, des images de test peuvent provenir lorsque la distribution des données est différente de la formation. Ces données n'ont pas vu les données de formation peuvent varier en perspective, la taille de l'échelle, la configuration de la scène, les attributs de la caméra.

Dans une étude, cette différence dans la précision de la distribution des données peut conduire à une variété de modèle de réseau de profondeur génère considérablement réduit. La sensibilité aux changements naturels dans le modèle actuel de distribution des données peut devenir un problème sérieux pour les applications critiques telles que la conduite automatique.

Défi: Comment tirer profit des petites et données à grande échelle

Un autre défi important que nous devons faire face est de savoir comment mieux utiliser les données de formation à petite échelle. Bien que l'apprentissage en profondeur grâce à l'utilisation d'un grand nombre de données étiquetées dans une variété de tâches sont un grand succès, mais les technologies existantes souvent parce que quelques exemples d'étiquettes disponibles dans un petit scénario de l'accident de données. Ce scénario est communément appelé « l'apprentissage petit échantillon (apprentissage quelques-shot) », et doivent être examinées avec soin dans des applications pratiques. Par exemple, un robot ménager devrait être achevé cette tâche: montrer qu'un nouvel objet et l'affichage une seule fois, après quoi il sera en mesure d'identifier l'objet. On peut accomplir cette tâche naturellement, même après que l'objet a été utilisé, et par exemple, est un tapis plié vers le haut. Comment donner les questions de recherche sur les réseaux de neurones tels que la généralisation humaine est ouverte.

À l'autre extrême est de savoir comment utiliser les données à l'échelle ultra-large d'améliorer efficacement les performances des algorithmes de reconnaissance. Pour le pilote automatique telles que les applications critiques, les erreurs de reconnaissance d'image coût est très élevé. Par conséquent, les chercheurs ont créé un ensembles de données très volumineux, l'ensemble de données contient des centaines de millions d'images avec annotation riche, et ils espèrent utiliser les données à l'exactitude du modèle a été considérablement améliorée.

Cependant, l'algorithme ne fait pas bon usage de ces données ultra-grande échelle. Sur les 300 millions, il contient des images marque de jeu de données JFT, diverses propriétés de la profondeur du réseau augmente à mesure que la quantité de données de formation, ne montrant qu'une amélioration de la grandeur logarithmique (Figure 1). Dans le cas de données à grande échelle, les données de formation continue d'augmenter les revenus provoquée deviendra de plus en plus évident que c'est une question importante à résoudre.

La figure détectée sur une donnée de la mise à exécution JFT-300M sur les exemples de formation ont augmenté plusieurs fois pour améliorer la paire. L'axe x est la taille des données de l'échelle logarithmique. L'axe des y est la performance de détection de cible. À gauche sur l'ensemble de test @ COCO mAP utilisation minival index, le droit d'utiliser des indicateurs de mAP@0.5~~number=plural sur la teneur en COV 2007 PASCAL ensemble de test. Deux courbes rouges et bleues représentent deux modèles différents.

Trois défis: une compréhension globale de la scène

En plus de ceux qui ont trait aux données de la formation et la généralisation du problème, il y a un autre important sujet de recherche est une compréhension globale de la scène. En plus d'identifier et de localiser des objets dans la scène, les humains peuvent aussi être inférée relation entre l'objet et l'objet, une partie du niveau global, la scène en trois dimensions et les attributs des objets de mise en page.

Pour acquérir une compréhension plus large de la scène aidera ces applications telles que le robot interactif, car ces applications nécessitent souvent des informations autres que l'identification d'objet et de l'emplacement. Cette tâche implique non seulement la perception de la scène, mais aussi la nécessité de comprendre la perception du monde réel. Pour atteindre cet objectif, nous avons un long chemin à parcourir. Un exemple d'une compréhension globale de la segmentation de scène panoramique, représentée sur la figure.

Figure II (a) l'image, (b) segmentation sémantique: l'identification ciel, l'herbe et d'autres matériaux routiers forme non dénombrable pas fixe (Stuff), méthode de marquage généralement marqué à chaque pixel, (c) diviser Exemple: et le nombre de division peut être indépendamment et al, outil instances d'animal ou un objet (instance d'objet), typiquement avec une zone de délimitation ou de marquage des masques de segmentation de la cible, (d) de panorama divisant:. générer un uniforme, la segmentation de l'image globale, la reconnaissance que la matière, mais aussi identifier l'objet.

Quatrième défi: Design Automation réseau

Le dernier défi remarquable est de rendre l'automatisation de la conception du réseau. Ces dernières années, la reconnaissance de l'image dans ce foyer sur le terrain à la conception de la mise à jour de meilleures caractéristiques de conception de l'architecture réseau. Cependant, la conception de l'architecture de réseau est un processus fastidieux, il faut gérer un grand nombre d'ultra-paramètres et choix de conception. Tuning ces éléments nécessite des ingénieurs expérimentés passent beaucoup de temps et d'efforts.

Plus important encore, l'architecture optimale architecture optimisée et une tâche à une autre tâche peut être complètement différent. Bien que notre étude de l'architecture neuronale recherche automatique a déjà commencé, mais ils sont encore dans les premières étapes et ne fonctionne que sur la tâche de classification d'image. La méthode actuelle de l'espace de recherche est très étroite, car ils recherchent la combinaison optimale d'un module de réseau local existant (par exemple la profondeur de convolution et reliés de façon détachable à l'identité), et ne peut pas découvrir le nouveau module. On ne sait pas si ces méthodes existantes compétentes à des tâches plus complexes.

diagramme d'architecture abstraite Figure III algorithme de recherche de nerf. Tout d'abord, la stratégie de recherche de l'espace de recherche prédéfini A sélectionner un cadre, cette stratégie d'évaluation du cadre pour évaluer et passer l'évaluation de la performance de A à la stratégie de recherche.

En dépit de ces défis dans le domaine de la reconnaissance d'image, mais nous croyons encore à la grande étude approfondie potentiel dans le domaine de la reconnaissance d'image. Les occasions abondent pour résoudre ces problèmes, le regard let à quelques directions de recherche dont:

Une direction: l'intégration du sens commun

domaine de la reconnaissance d'image ont une direction de recherche important est le bon sens dans la profondeur de l'apprentissage. À l'heure actuelle, l'apprentissage en profondeur, principalement en techniques purement basées sur les données sont utilisées. Dans l'apprentissage en profondeur, le réseau de neurones en utilisant l'ensemble de la formation d'échantillons marqués d'une fonction non linéaire de l'apprentissage, l'apprentissage à la fonction après ce rôle sera aux pixels d'image dans le test. Informations à l'extérieur de l'ensemble de la formation qui n'a pas été utilisé.

En revanche, la reconnaissance de l'objet humain est non seulement basée sur un échantillon ont vu, mais aussi en fonction de leurs connaissances sur le monde réel. Les gens sont capables de raisonner sur ce qu'ils voient, afin d'éviter des résultats de reconnaissance illogique. En outre, face à quelque chose de nouveau ou dépassé les attentes, les humains peuvent ajuster rapidement leurs connaissances pour expliquer cette nouvelle expérience. Comment obtenir en réseau profondeur, il représente le bon sens et utiliser le raisonnement de bon sens est un défi.

Direction Deux: raisonnement géométrique

reconnaissance d'image JI et le raisonnement géométrique est un autre potentiel direction. Le principal modèle de reconnaissance d'image ne considère que l'apparence à deux dimensions, mais les humains peuvent percevoir la mise en scène en trois dimensions et d'en déduire ses catégories sémantiques intrinsèques. mise en page en trois dimensions ne peut être obtenu à partir de la vision binoculaire, vous pouvez également obtenir des commentaires du raisonnement géométrique à deux dimensions, tout comme il l'avait fait en regardant des images. identification photographique commune et le raisonnement géométrique offre des avantages pour les deux parties.

La détermination de la mise en page de raisonnement géométrique en trois dimensions peut aider dans le cas de la perspective invisible, l'apparition de la déformation du guide et de la reconnaissance. Il peut également éliminer la sémantique de mise en page déraisonnables, et aider à identifier la fonction ou la forme en trois dimensions définies par catégories. Par exemple, il y a une différence énorme canapé en apparence dans la classe. Cependant, ils partagent des attributs communs qui peuvent les aider à identifier. Ils ont par exemple un siège horizontal, pour supporter une surface arrière. D'autre part, il peut être identifié de l'espace sémantique solution normalisée raisonnement géométrique. Par exemple, si le chien est identifié dans une scène, il se conforme à la structure en trois dimensions appropriée du modèle de forme en trois dimensions du chien.

La figure quatre cadres reconstruits à partir de deux points de vue différents d'un point de scène vidéo nuage dynamique complexe

Direction III: modélisation de la relation

Relation modélisation a également un grand potentiel de recherche. Vous voulez une compréhension globale de la scène, sur la relation entre les entités cibles présentes dans la scène et la modélisation de l'interaction est très importante (figure IV). Considérons deux images, chaque image contient un homme et un cheval. Si un spectacle surfe sur une personne de cheval, un autre spectacle est de marcher sur les chevaux des gens, deux images apparemment exprimé un sens complètement différent. De plus, la relation entre la scène de modélisation pour extraire la structure sous-jacente peut aider à compenser l'incertitude actuelle vague de la profondeur de l'apprentissage en raison des données limitées et les nouveaux enjeux. Bien que les gens ont essayé de résoudre cette modélisation de la relation problème, mais cette recherche est encore au stade préliminaire, et il y a encore beaucoup à explorer l'espace.

réseaux FIG cinq de détection de cible. Dans lequel l'objet de regard est représenté, montre que les caractéristiques géométriques de l'objet

Direction quatre: apprendre à apprendre

Il y a aussi mentionner que l'apprentissage vaut la direction de yuans, son objectif est d'apprendre le processus d'apprentissage. Cette question a récemment attiré une attention considérable, et l'architecture de recherche nerveuse peut également être considérée comme l'une de ses applications.

Cependant, en raison du mécanisme actuel de l'apprentissage modélisation des processus, la représentation et l'algorithme recherche encore relativement peu élevé, méta-apprentissage est encore à ses débuts. recherche d'architecture neurale, par exemple, il ne se limite pas à une simple combinaison de modules de réseau existants. Yuan apprenants ne peuvent pas saisir l'intuition subtile et la perspicacité nécessaire pour créer un nouveau module de réseau. Avec l'avancement de l'apprentissage de yuans, le potentiel de l'architecture automatique peut être entièrement libéré, puis obtenir beaucoup plus que la conception de l'architecture de réseau manuel.

Progrès Figure VI méta-apprentissage de récent. De gauche à droite sont l'apprentissage de yuans optimisation ultra-paramètre, la recherche d'architecture neuronale, moins la classification d'images échantillon.

C'est un moment excitant d'être engagé dans la reconnaissance d'image, un champ de la promotion du développement, la possibilité d'influencer l'ère future de l'application. Nous attendons avec impatience les progrès à venir, et nous nous réjouissons de ces nouvelles technologies à façon profonde et magique pour changer nos vies.

Source: titres Microsoft Research AI

Auteur: Génération saison, Lin côté, Guo Baining

- [FIN] -

2 IPC pour revenir à l'époque, les porcs chinois ou sur le point de déplacer le fromage de pétrodollars
Précédent
top cool piscine dix mondiale, l'observation a voulu sauter immédiatement dans l'eau
Prochain
La trésorerie est le point de roi ou inflexion a eu lieu, l'argent chinois est venu au fond du prix?
Brave! Sans peur! A partir!
mal conduite avec facultés affaiblies aux autres, afin de freiner le département de police de la circulation, même ces avertissements veut sortir!
The Guardian rappelle, « tout le monde » a la responsabilité!
Octobre neuf ville elopement le plus approprié, peu de gens Jingmei, choisissez quelques jours pour passer du temps tranquillement
Obtenir le plus bas à 150000, gars dur SUV essentiel! Quelle est votre regard plat
Panda vivent hors de la ligne d'assemblage, Sicong trop peu fiable!
Chine guerre puce AI démarrage difficile
Deux heures du matin, mon père à la gare en attendant fille pick regarder RAN larmes ......
Pourquoi tant de gens comme une transmission manuelle? Utilisateur: personne pour emprunter la voiture, vraiment personne à emprunter!
Désolé, vous ne méritez pas cercle d'amis desséchant la beauté
Voulez-vous être le premier dans le monde peut-il être si facile! Neymar est un regard sur la façon dont elle est violée illimitée!