Tout comme le monde physique, comme la façon dont il est difficile de prédire l'homme? Les nouvelles méthodes d'apprentissage de la machine à surmonter ce problème est

( « MIT Technology Review » dans la version anglaise de l'APP est maintenant en ligne, l'utilisateur technologie abonnement annuel Anglais en classe hebdomadaire en direct, la science et la technologie ainsi que les communautés d'apprentissage en anglais oh ~)

Un merci spécial à MIT étudiant au doctorat Wu Jiajun a contribué à cet article

Massachusetts Institute of Technology (MIT) professeur de sciences du cerveau et cognitives Joshua Tenenbaum (Josh Tenenbaum) est le cerveau de l'école, la pensée, la machine Research Center (Centre de cerveaux, les esprits et machines) développement de la recherche intelligente directeur. Le Cross College, plateforme de recherche interdisciplinaire dédié à l'exploration, l'interprétation et copie l'intelligence humaine.

, Le Tenenbaum et son étudiant au doctorat Wu Jiajun Dans l'Assemblée générale Neural Information Processing Systems (PNM) de cette année a publié quatre documents, Discute l'agent ce qui doit la capacité cognitive de base pour être en mesure d'explorer le monde, y compris la distinction entre les différents objets, et l'objet va déduire quelle réponse à apporter à la quantité physique appliquée.

Les chercheurs croient que la capacité de construire un système informatique appartenant à l'étape précédente à pas, ils finiront par être en mesure d'aider à trouver sur le développement intellectuel de l'humanité à diverses étapes de ce que l'information est de savoir comment traiter le problème. Dans ce processus, les chercheurs peuvent même trouver des idées nouvelles pour le système de vision du robot de recherche.

" Le thème commun de tous ces projets de recherche est d'essayer de se sentir vraiment l'ordinateur physique « Tenenbaum estime que » Pour ce faire, l'ordinateur doit d'abord rétablir la pleine forme en trois dimensions de l'objet, et l'analyse de ces objets vivants dans la scène et leurs relations, ainsi que ses propriétés physiques telles que la masse et la friction, après de déduire comment ces objets changeront au fil du temps. Jiajun de quatre documents discuté la question. Trois documents où discuter de la façon de déduire la structure physique de l'objet à partir des données visuelles et audio, l'autre est discuté de la façon de prédire la performance de l'objet dans ladite base de données. Ensemble, nous pouvons commencer à construire certains modèles de calcul de la cognition humaine pour mieux décrire le monde physique. "

La ligne à deux voies

Un autre facteur dans les quatre documents ensemble, ils utilisent une méthodes d'apprentissage de la machine. l'apprentissage de la machine est un moyen de laisser l'ordinateur analyser de grandes quantités de données pour faire une formation technique pour effectuer des tâches informatiques. Dans un système d'apprentissage de la machine traditionnelle pour les données de formation est marquée à l'avance, le système essaiera de figurer ces données avec laquelle l'étiquette est associée l'analyse de l'apprentissage. L'évaluation d'un apprentissage standard de la machine, l'ordinateur correctement marqué à l'avance le volume de données non marquées .

Dans leur article, système de formation est utilisé pour déduire le modèle physique du monde - déduit comme la forme en trois dimensions d'une la plupart du temps caché de la vue de l'objet. Après l'utilisation du modèle est inversé, la sortie du modèle de système en utilisant la resynthèse de données d'entrée, et par la mesure des données originales et des données reconstruites pour correspondre au système d'évaluation du niveau déduit.

Par exemple, le modèle en trois dimensions la construction d'un besoin d'un abri pour analyser tous les objets de blocage et de libération, mais aussi de filtrer les textures visuelles, les reflets et les ombres de l'objet, et d'être en mesure de déduire la forme de l'objet en dehors du champ de vision. Lorsque le modèle du système Wu Jiajun et Tenenbaum, le système doivent également tourner dans un espace à trois dimensions de modèle à un emplacement sur l'image, et d'ajouter de la texture visuelle au modèle, jusqu'à ce que finalement à peu près les données d'image d'entrée.

En fait, quatre documents chercheurs ont discuté de la complexité du modèle en deux dimensions à déduire de données d'image. Ces documents co-auteur, ainsi que quatre autres chercheurs du MIT, y compris l'ingénierie électrique et informatique professeur William Freeman (William Freeman), ainsi que des chercheurs de DeepMind, Université de Shanghai des sciences et de la technologie et de l'Université Jiaotong de Shanghai .

Diviser pour mieux régner

La théorie est basée sur un MIT neuroscientifique très influent David Marr (David Marr) Le système mis en place. Mar mort prématurée en 1980, seulement 35 ans. Selon l'hypothèse de Marr, le cerveau lors de l'interprétation d'une scène visuelle, va d'abord créer un 2.5D « croquis » est utilisé pour représenter visible à la surface de l'objet. Puis, à partir de la 2.5 dimensions « projet » sur (au lieu de l'information visuelle originale basée sur la scène), le cerveau continue à déduire la forme tridimensionnelle complète de l'objet vu.

" Ces deux questions sont difficiles, mais au moins nous avons une bonne façon de les briser « Wu Jiajun a dit, » de sorte que vous pouvez traiter des problèmes à la fois, plutôt que de les résoudre, ce sera plus difficile. "

Figure Shuwujiajun 2010, est diplômé de la Haute école Attaché à East China Normal University deuxième, a remporté l'Olympiade nationale en informatique prix a marché à l'Université de Tsinghua, a étudié à l'École des sciences informatiques et d'information traversant la classe expérimentale (les fameuses classes Yao). Il est étudiant au doctorat de quatrième année au MIT, a publié plus de 20 articles sur CVPR, NIPS, ECCV, PAMI et d'autres conférences et revues, a remporté la bourse d'études de classe, l'Université de Tsinghua, Baidu bourse, bourses Facebook

Wu Jiajun et ses collaborateurs comprenant un modèle de données en trois dimensions de l'objet en utilisant l'image de l'image visuelle et le système de formation. Précis modèle en trois dimensions pour construire des images réelles de l'objet prendra trop de temps, donc dans les premières étapes, les chercheurs ont utilisé les données pour former le système. Dans lequel, à partir des données d'image obtenues par le rendu modèle en trois dimensions. L'ensemble du processus de création des données et créer film d'animation par ordinateur sur le même.

Une fois le système de formation pour apprendre les données combinées, la précision peut être plus élevé et les données du système en utilisant la formation proprement dite et l'apprentissage. Système d'évaluation final de l'exactitude du système d'apprentissage rebuild comparaison des données d'entrée régénéré.

Lorsque le système d'évaluation, les chercheurs ont utilisé une méthode d'évaluation commune et nommé birapport. En vertu de cette mesure, leur système est meilleur que la génération précédente. D'autre part, en raison du rapport de la croix et pas bien décrire les détails locaux du modèle, Wu Jiajun et ses collègues utilisent également la méthode de crowdsourcing, ce qui permet aux utilisateurs d'évaluer la précision du modèle de l'objet source dans la reconstruction de l'image. 74% des participants estiment que les résultats de reconstruction du nouveau système est mieux que la génération précédente.

Yong est conduite de flux de temps

Dans Wu Jiajun et Tenenbaum, un autre document Freeman, ils ont formé un système pour analyser le bruit des chutes d'objets, pour en déduire la forme de l'objet, le matériau et la hauteur de sa chute. Impliqué dans l'étude ainsi que le MIT, l'Université de Cambridge et de l'Université de Shanghai des chercheurs de technologie. En outre, le système est formé pour générer un modèle abstrait d'un objet, puis, à son tour, utilisez le modèle pour simuler le son en cas de chute d'une certaine hauteur, il sera généré. La similitude entre le son synthétisé et la source sonore, en fonction de la performance finale du système.

Enfin, dans leur quatrième dans le document, co-Wu Jiajun, Tenenbaum, Freeman, DeepMind et de l'Université d'Oxford pour construire un système qui a commencé à imiter l'intuition humaine sur la façon de comprendre le rôle des objets physiques. Supposons que le point de départ de cette étude est le résultat final de ces trois derniers documents décrits: le système a été supposé que la forme tridimensionnelle de l'objet est dérivée.

Le papier utilisé dans des formes simples d'objets étudiés: Ball et cubes . Les chercheurs ont formé leur système pour effectuer deux tâches, avant tout est de permettre au système d'estimer dans la table de billard vitesse de Voyage, de performance et de prévoir la piscine après la collision. Une autre tâche est d'analyser la pile de cubes d'images fixes, et de prévoir ces cubes ne tombent pas, si l'automne, le cube tombe où.

Wu Jiajun a proposé ce qu'il appelle scène XML  Caractérisation du langage, peut être décrire quantitativement les positions relatives des objets dans la scène visuelle. Dans l'étude, les résultats du système d'apprentissage d'abord pour décrire les données entrées dans cette langue, le système sera fourni pour décrire un « moteur physique », le moteur physique peut être appliquée à l'étude de la force physique sur les objets à construire le mode. Les deux moteurs de l'animation par ordinateur physique aussi une partie importante de l'informatique scientifique, dans une animation par ordinateur est utilisé pour déplacer un moteur physique, la génération d'un objet qui tombe comme des vêtements, dans le calcul scientifique, moteur physique ont été utilisés à grande échelle de simulation de la physique.

Après la fin de la prédiction de balle de moteur physique et le mouvement du cube, l'information sera envoyée au moteur de rendu d'image. le moteur de rendu génère la sortie sera à nouveau comparée à l'image source. Comme les méthodes utilisées dans l'étude de la reconstruction visuelle, les chercheurs ont d'abord données synthétisées avec le système de formation, puis d'affiner la précision, en utilisant des données réelles pour former leur système.

Dans les tests, le nouveau système a également de meilleures performances que les systèmes existants. Dans les expériences de prédire le mouvement de billard, le nouveau système effectue souvent mieux que les humains.

« Ce travail dans le plus aperçu critique que l'utilisation d'outils physiques - renderer, moteur de simulation, le modèle formé - pour former le modèle génératif », professeur adjoint des sciences informatiques, commentaires University of Southern California Lin Joseph (Joseph Lim), " Lorsque ce simple et des idées élégantes combinées à la profondeur de la dernière et de la technologie d'apprentissage les plus avancées, nous voyons les grandes réalisations faites dans l'interprétation de la machine d'un certain nombre de tâches dans le monde physique . "

Les futurs pères éprouvent la douleur de l'accouchement | Illustrated Wuhan
Précédent
Millet MIX2S premier officier est tombé à 2699 yuans, avant la sortie de MIX3 grand prix de sortie!
Prochain
AI perspective Baidu Developers Conference: Ceci est une carte de rapport Lu Qi, également l'avenir de Baidu
équipe Yu Kai a publié la première génération de l'intelligence artificielle de « noyau chinois » parce qu'il voulait dominer les véhicules autonomes chinois
mil plein écran mille Yuan Clearance: Grande grande batterie 4000mAh, la ligne 799 et le!
Millet 6X saison huissier de l'école de prix de vente, Howard 6 + version 64Go vers le bas 400!
Battlefield - Ramo Islet Scott a brisé le Real Madrid a perdu le ballon 89 minutes 2-21-1 Inter a huit victorieux
Mo Yan: Chaque fois que la tenue d'une écriture à la plume, sentir ou « la tonte des bovins enfants »
-J Lo réplique du monde de vague classique bataille coup franc Neymar Bayern 2-03-0 Paris
Plus difficile de trouver une femme co-fondateur, vous pouvez faire ces cinq points et partenaires commerciaux, « aiment »
Luo prix larmoyante: 4000 mA grande batterie en plein écran 899, au sujet de pas?
Invest 3 milliards, premier haut de gamme internationale station éco-culturel de Chengdu situé à Chongzhou
Premier League - Sanchez balle à l'enfant Manchester United 2-0 nouvellement promu premier spectacle à briser Arsenal 5-1 balayage de Yang Obame
Note3 utilisateurs de mil aujourd'hui, nous commencerons à recevoir MIUI10 version stable!