Apprendre objet visuel AI raisonnement, « supplément de cerveau » voit pas | Li Jia Li Feifei et autres papiers CVPR

Li Lin à partir du bas de la non-Temple en retrait

Qubit produit | Numéro public QbitAI

Les humains ont une capacité très puissante: supplément de cerveau.

Ce yeux humains photo, un petit morceau de maculage brun le coin inférieur gauche est un vrai cheval - cette position et scènes, bien sûr, surfe elle!

Mais pour la plupart de l'algorithme, il y a les vues de deux personnes, deux personnes, qui sait ce que le coin inférieur gauche de ce groupe est chose, qui sait ce que les deux d'entre eux dans le sec ~ ~ it ~

Un document CVPR 2018 fraîchement cuits Au-delà de Visual itératives Raisonnement Convolutions , Ils essaient de « supplément de cerveau » humain à la capacité de l'algorithme.

Cerveau remplira algorithme

L'étude réalisée par l'Université Carnegie Mellon (CMU) et Google ont co auteurs Facebook chercheur Chen Xinlei (thèse de doctorat a été achevée avant sa remise des diplômes), Li Jia Google et Li Feifei, et Chenxin Lei mentor Abhinav Gupta.

Ils ont étudié la capacité « supplément de cerveau », selon les documents officiels arguments académiques plus rigoureux, il est un espace de raisonnement visuel et sémantique. Avec cette capacité, l'ordinateur sera en mesure d'identifier plus précisément les objets dans une image.

Par exemple, face à un tel scénario, il n'y a pas de place algorithme de raisonnement sémantique ne peut compter que sur la forme du contour du véhicule pour l'identifier est une voiture ou en bus, dans les fenêtres ci-dessus, ne reconnaissent que ceux qui ne sont pas obscurci.

Avec le raisonnement spatial, et trois fenêtres dans une rangée a été obscurci les objets qui vivent localement, seront considérés comme une fenêtre, avec le raisonnement sémantique, Tongshen ci-dessus est également éclairée carton jaune du bus, il sera reconnu comme un autobus scolaire , le raisonnement spatial et sémantique ensemble, l'algorithme peut reconnaître les fenêtres de la voiture que l'ombre vague, en fait, est personnel.

look Let à des exemples plus spécifiques de:

Par exemple, sur la carte, « souris » bleu foncé marqué est pas du réseau de neurones ordinaire, et cette nouvelle approche fera le cerveau peut reconnaître dehors. Il est très vague dans la figure, la résolution est très faible, on peut en déduire en fonction des objets environnants.

La machine à laver selon la fig., Peut être déduite de détergent bleu profond rainure marqué.

Aussi une image, le cerveau remplira les algorithmes qui reconnaissent des objets, plus encore que le réseau de neurones moyenne. Autrement dit, il est la capacité de chaque bloc d'objets et mieux identifiés à partir de l'image.

Les auteurs ont utilisé une très « hors de la boîte et reconnaissance d'objets » tâche de classification des secteurs du papier, au cerveau font de cet algorithme sous RAN:

Par rapport au réseau neuronal convolutif classique, les données de modèle définies sur le ADE, chaque groupe moyen pour améliorer la précision de 8,4%, tout en augmentant le réseau ne peut améliorer la profondeur d'environ 1%. Le jeu de données COCO, ce modèle peut améliorer la précision de 3,7%.

Comment faire?

Ils sont convolution ordinaire réseau de neurones, associé à un cadre de raisonnement visuel qui se compose de deux modules de base: un module local, savoir avant d'utiliser la mémoire spatiale pour stocker, l'inférence de réseau de neurones à convolution; une est globale module, sur la base de la figure raisonnement, et la région de cette classe en tant que noeuds dans le graphe, par un raisonnement pour transmettre des informations entre eux.

Dans le détail, le module global a trois composantes, la connaissance de mappage de la catégorie à un noeud, à un noeud dans la zone d'image, la relation spatiale entre la région figures région limite, et une allocation de région pour la classe attribuée FIG.

En fin de compte, tous les modules chacun des mécanismes de prévision et de l'attention itération combinés pour obtenir les résultats des prévisions finales.

Faits saillants Failed

Bien sûr, quand il y a des échecs.

Par exemple, mettre une table de chevet pourrait télécommande il, l'algorithme et la convolution générale réseau de neurones en obtenir moins.

Apprendre Dieu (qui)

Quatre auteurs de ce document dans le secondaire et tertiaire comme vous sont très familiers avec les deux déesses Li Jia et Li Feifei vous, secteur maintenant cloud computing de Google. Deux de l'histoire et les réalisations, n'a probablement pas besoin d'un qubit dire à nouveau.

Quatre pour Abhinav Gupta est professeur agrégé de sciences informatiques à l'Université Carnegie Mellon, principalement dans l'étude de la façon de caractériser entre le monde visuel et le langage visuel, le comportement et la façon de contact entre l'objet et d'autres questions.

Un pour Chenxin Lei, est l'un des nombreux étudiants sera probablement adorer de Dieu une école modèle.

Le petit frère en Février de cette année à l'Université Carnegie Mellon (CMU) a obtenu un doctorat, il est maintenant chercheur Facebook Institut AI. En tant que premier cycle à l'Université du Zhejiang, il a publié plus haut Papers AAAI, CVPR, CIKM attente.

Au cours de l'étude de doctorat, il a travaillé dans Microsoft Research, groupe Google VisCAM et Google Cloud interne de l'équipe AI.

Sa thèse de doctorat d'apprentissage visuel des connaissances, a étudié l'importance des images de fond dans un processus de compréhension de l'image du système de vision par ordinateur. Le présent document examine systématiquement la façon explicite l'apprentissage, évolutif automatisé informatique et implicite connaissance visuelle, ainsi que la connaissance de la façon d'utiliser le raisonnement visuel.

Ici, vous pouvez en apprendre systématiquement sur le culte de Dieu: http: //xinleic.xyz/

La chose la plus importante est

adresses Dissertation, bien sûr, essentiel ~ https: //www.arxiv-vanity.com/papers/1803.11189/

Et petit frère adresse de thèse de doctorat: http: //xinleic.xyz/papers/thesis.pdf

- FIN -

recrutement sincère

Qubits recrutent éditeur / journaliste, basé à Zhongguancun de Beijing. Nous attendons de talent, des étudiants enthousiastes de nous rejoindre! Détails, s'il vous plaît interface de dialogue qubit numéro public (QbitAI), réponse mot "recrutement".

Qubit QbitAI · manchettes sur la signature de

' « suivre les nouvelles technologies AI dynamiques et de produits

Déplacé! Tennis de table est une petite histoire -
Précédent
L'histoire du jeu le plus réaliste! Smashed fait 5,6 milliards, ce qui est presque proche de la réalité du NPC QI
Prochain
80000 pour acheter une « Mercedes » à la maison arrière Bel un visage, peur de rencontrer des gens qui comprennent la voiture!
Comme la jeunesse européenne internationale était l'objectif national de naturalisation de football, le chômage maintenant déchiré
8 Nanping 14 dans une roue de cycle 1-3, Xu Xin Fan Zhendong lose, Kai victoire circonférentielle!
Les développeurs tensorflow seront Sommet: soutien Swift, un meilleur support pour JavaScript
Histoire des plus chaotiques au jeu Netease! Les joueurs sont entrés dans le jeu, il était de tuer Dieu installé niveau complet NPC service complet!
Cette voiture semble poulet faible, obtenu dans la voiture, mais surpris, la valeur de qualité intérieure 150000!
monde Février classement: "Ma dingning" chef, Zhang Jike Liu Shiwen temporairement "disparaître"!
Faire long a annoncé 1,5 milliard d'euros d'investissement AI, DeepMind seront bientôt embrassaient Paris
Le jeu le plus réussi de la Chine! NetEase fortune invoquée, et maintenant tourner réellement le feu de 15 ans enlevé
70000 quatre voitures nues seul à traîner plus tôt que la GS4, Guangzhou Auto était piétinant inquiet, pourquoi personne ne achète?
« Fu », mais trois générations, l'équipe Maldini III C est à peine un abri
Liu Shiwen, Rao Jingwen cent pour cent tranquillité d'esprit et le club champion de Wuhan de l'histoire!