Pour voir le monde du point de vue du chien, le chien avec les donn�es visuelles pour pr�dire le comportement

Note de Lei Feng r�seau AI Technology Review: Cet article pr�sente une nouvelle t�che de CV.

Kiana �quipe Ehsani de l'Institut Allen pour l'intelligence artificielle � l'Universit� de Washington pour briser les t�ches de recherche traditionnelles de vision par ordinateur, essayez de mod�le � partir de l'objet cible (comme les chiens) perspective, et utiliser des mod�les pour pr�dire le comportement de l'objet.

Cela repr�sente une m�thode d'apprentissage qui diff�re de l'image traditionnelle de la mission de formation, la formation de mod�le commence dans une perspective particuli�re, c'est donc une nouvelle t�che de CV. Dans le document, comme une �tude de cas, les auteurs ont utilis� la perspective du chien pour former le mod�le, et ont obtenu des succ�s remarquables dans la mod�lisation du comportement du chien. Les auteurs disent que cette m�thode devrait �tendre � d'autres domaines.

Lei Feng r�seau Ce qui suit est une explication d�taill�e de la th�se.

vision traditionnelle informatique ax�e sur la classification, l'identification, la d�tection et la segmentation des sous-t�ches, en g�n�ral pour r�soudre des probl�mes de vision par ordinateur, les chercheurs seront g�n�ralement une combinaison organique de ces fonctions. Cependant, ces m�thodes de recherche le r�sultat a �t� un grand �cart avec les r�sultats escompt�s. Auteur de cet article inspir� par le � comportement et l'interaction dans la compr�hension visuelle du r�le des � r�cents travaux de recherche, ils seront l'intelligence visuelle probl�me (intelligence visuelle) est d�finie comme: Comprendre les donn�es visuelles et prendre des mesures ou effectuer des t�ches dans le monde visuel. Selon cette d�finition, l'auteur croit �tre comme une intelligence visuelle pour apprendre le corps comme dans le monde visuel.

En tant que point d'entr�e de l'�tude, ils ont choisi un chien comme un proxy visuel. Par rapport aux humains, les chiens ont un simple acte d'espace, ce qui peut rendre la t�che plus facile � manipuler, d'autre part, ils peuvent effacer la d�monstration de l'intelligence visuelle pour identifier les aliments, les obstacles, d'autres humains et les animaux, et ceux-ci entrer r�agir.

Dans l'exp�rience, l'�quipe Kiana Ehsani via les donn�es vid�o chien enregistr�es auto en perspective, avec le capteur mont� dans le fonctionnement de la collecte des donn�es sur les joints chiens construit ensemble de donn�es D�CENNIE (Dataset des actions �gocentriques dans un environnement de chien) .

Dans l'�tude, les auteurs, ils utilisent des ensembles de donn�es D�CENNIE, principalement pour explorer trois questions:

(1) agissant comme un chien, un chien qui est une action pr�dite;

(2) La planification comme un chien, le chien-�-dire la s�quence de mouvement de pr�diction;

(3) L'apprentissage d'un chien, qui est, comment utiliser l'action du chien comme une �tude de surveillance de caract�risation du signal.

1. Ensemble de donn�es

Comme mentionn� ci-dessus, les auteurs ont utilis� des ensembles de donn�es D�CENNIE. Cette base de donn�es contient 380 clips vid�o, la cam�ra vid�o mont�e sur la partie de t�te de tir du chien. Comportant en outre un emplacement d'installation vid�o et des informations de trajectoire.

Dans l'exp�rience, les auteurs ont pass� un total de 24500, dont 21000 utilis� pour former le mod�le, 1500 pour la v�rification, 2000 pour le test final.

Ces auteurs ont utilis� un tir de la cam�ra vid�o GoPro, la fr�quence d'�chantillonnage de 5fps. L'�quipe utilise quatre unit�s de mesure inertielle (IMU de) pour mesurer la position des extr�mit�s du chien, une unit� d�tecte la position de la queue, il y a un emplacement de mesure du tronc. Ces appareils peuvent �tre utilis�s pour enregistrer le mouvement angulaire du mouvement.

Ils sont acquises pour chaque trame contient six d�calage angulaire des moyens de mesure. Il repr�sente le d�calage angulaire aux m�tadonn�es vecteur � quatre dimensions 4. unit� de mesure inertielle angulaire absolue pour d�caler la direction du chien sur le d�calage angulaire diff�rent joint est diff�rente, ces diff�rences peuvent �tre repr�sent�es par des quaternions. Ils croient que le changement d'angle entre deux trames successives d'action repr�sente la diff�rence entre les deux cadres du chien.

Des circonstances particuli�res obtention de cette information est un chien mont� sur l'arri�re du moniteur connect� � l'unit� de mesure Arduino respectifs (IMU) � l'information de position d'enregistrement. Il est aussi � travers le microphone de dos de chien � Collect audio micro-canal, l'audio peut fournir la base pour la synchronisation et Imus donn�es GoPro, vid�o et �ventuellement des donn�es de mesure IMU synchronis�es au niveau de la milliseconde. Leur �quipe a recueilli des donn�es sur plus de 50 environnements diff�rents, le chien est dans une sc�ne particuli�re, comme la marche ou ramasser des choses ou d'interagir avec les autres chiens recueillis. Tous les cadres de la coupe finale sans notes, des exp�riences ont �t� effectu�es � l'aide des donn�es brutes.

2. Agissant comme un chien

Comment pr�dire ce que la r�action du chien dans diff�rents sc�narios? Mod�le propos� par les auteurs voir la sc�ne avant d'apprendre chien photos de chiens pour pr�dire le prochain mouvement.

s�quence de trames d'entr�e du mod�le est une s�rie d'images visuelles (I_1, I_2, ..., I_T), et la sortie de chaque joint est une op�ration de chien t dans la prochaine tranche de temps

Les auteurs pr�disent probl�mes d�crits comme un probl�me de classification. Ils se d�placent les articulations et cod�es num�riquement, et l'action particuli�re dans une �tiquette de classe diff�rente mouvement articulaire. Pour former ces sports, ils utilisent les K-moyennes algorithme pour traiter le changement d'angle d'articulation. Chaque centres de cluster peuvent repr�senter un sport particulier.

mod�le de pr�diction de mouvement est sa structure codec, l'objectif principal est de trouver une relation de correspondance entre l'image d'entr�e et de l'action future. Pour illustrer cette relation, comme la tenue d'un chien quand l'action de la scie chien apr�s que le chien est susceptible de s'asseoir et attendre que le propri�taire � l'alimentation.

L'image montre la structure du mod�le, dans lequel la section de codage comprend un mod�le et un CNN LSTM. Dans lequel dans chaque tranche de temps CNN recevra une paire d'images cons�cutives avant et apr�s l'action, � savoir des images d'action mentionn� ci-dessus, la contre cod� et transmis � LSTM. Si les r�sultats montrent une tranche de temps LSTM accepte deux mod�les peut am�liorer consid�rablement les performances. CNN comprenant deux masses identiques ResNet-18, qui �tait une trame de traitement.

d�codeur cible est pr�dite dans la trame articulaire, il a �t� cod� conform�ment � l'activit�. Le d�codeur recevant le codeur �tat initial est venu cach�, et le r�sultat de traitement LSTM, apr�s chaque tranche de temps, la sortie du d�codeur de chacune des classes d'action conjointe mentionn�e ci-dessus, et la sortie de la tranche de temps pr�c�dente seront lin�aires encodeur trait� en entr�e la tranche de temps suivante. Pr�cis�ment parce qu'ils utilisent une sortie de longueur fixe trait�e comme entr�e pour la tranche de temps suivante, si aucun indicateur d'arr�t, et leurs mod�les vont arr�ter apr�s un certain nombre de g�n�ration d'un signal de sortie. L'effet final est que leur mod�le sortie chaque tranche de six fois l'action de classe.

Ind�pendamment chaque image est transmise � la colonne ResNet, et dans lequel deux images ont �t� combin�es, la combinaison de caract�ristiques peut �tre introduite apr�s la LSTM codeur lin�aire traitement de conversion. Ils �quipe form�e � l'avance sur IMAGEnet ResNet, puis l'optimiser pour �valuer l'action entre deux trames successives.

codec �quipe Kiana Ehsani pour traiter chaque joint en utilisant la perte d'entropie moyenne pond�r�e. Fonction de perte est:

3, la planification comme un chien

Comment le chien est un plan d'action pour atteindre leurs objectifs?

Afin de donner � cette mod�lisation des processus, les auteurs ont con�u le plan suivant: Entrez les deux l'image d�cousue, puis de planifier une s�rie d'actions de la premi�re image de l'�tat � un second �tat des images interm�diaires qui peuvent survenir. Ils ont fait remarquer que la pr�c�dente estimation de mouvement n'est plus estimation applicable, avant que le mouvement est � l'�tat de suppl�ment entre les deux images varient en fonction de l'�tat des changements d'objectifs. Maintenant, au contraire, notre propre plan de mod�le pour faire une action raisonnable � l'autre suppl�ment entre les changements d'image. Plus description formelle est,

Entrez les deux images (I_1, I_N), les donn�es d'action longueur de sortie n-1. Cette sortie doit �tre commut� du I_1 d'�tat connu pendant l'�tat interm�diaire I_N.

chaque mouvement de chien aura un impact sur l'�tape suivante, les auteurs ont con�u un r�seau de neurones r�current, qui comprend une couche de LSTM, pour g�rer la sortie comme une tranche de temps d'une tranche de temps de l'entr�e. Ils ont la image I1 et IN est transmis pr�sent�es s�par�ment sur la figure. ResNet-18 colonne, avec une couche sup�rieure et dans lequel la LSTM d'entr�e. Dans chaque tranche de temps, les donn�es de mouvement de sortie des cellules LSTM sont six articulations. Ils ce que l'entr�e � la tranche de temps suivante, de sorte que le r�seau de neurones qui peut �tre ajust�e en fonction de l'�tat pr�c�dent. Ils proc�deront aussi � la fois la probabilit� d'occurrence des donn�es d'entr�e, mais aussi pour la tranche de temps suivante. Cela rend le plomb � faible heure actuelle de probabilit� au comportement d'autres actes de haute probabilit� du film dans les s�quences d'action, de mani�re � assurer la diversit� des comportements futurs.

En utilisant l'�quation d�crit la perte de poids croix entropie � toutes les tranches de temps et l'articulation de formation du r�seau de neurones r�currents. Et adresse comment un chien comme une m�thode similaire � l'action entreprise, ils utilisent un champ d'action discr�te.

4. Apprendre d'un chien

La possibilit� d'utiliser comme caract�ristique de signal, il a supervis� l'apprentissage de l'action du chien?

Dans articulaire pr�diction de mouvement du chien a �t� observ�e dans l'image d'apprentissage, la repr�sentation d'image peut �tre obtenue, qui code pour les diff�rents types d'informations.

Pour l'�tude, dit l'image de l'auteur, la formation mod�le ResNet-18 observ�e en observant le chien � l'instant t-1 et t pour estimer le (changement IMU de temps t-1 � t) du mouvement actuel du chien. Les auteurs ont ensuite cet essai de repr�sentation, et par rapport � ResNet-18 mod�les sur la formation en IMAGEnet, utilisent des donn�es diff�rentes dans diff�rentes t�ches. Dans l'exp�rience, les auteurs ont utilis� une estimation de surface �taient r�alisables SUN397 ensembles de donn�es et la classification de la sc�ne.

Pour d�montrer la repr�sentation d'effet, les auteurs mod�lisent la partie bleue avec une formation sur IMAGEnet ResNet ont �t� remplac�s, et le comparer avec la formation sur D�CENNIE ResNet.

les r�sultats

La figure suivante illustre ce mod�le � apprendre de cinq vid�o pour montrer quand le chien quand le chien a jet� la balle vers une personne. Dans la vid�o, apr�s que le ballon a travers� le chien, le chien chasse la balle � droite. Avant l'utilisation du mod�le propos� cinq images peuvent pr�dire avec pr�cision le comportement d'un chien comment tourner � droite lorsque la balle a survol�.

Les r�sultats concrets suivants:

(1) L'apprentissage d'agir comme un chien

Apr�s avoir observ� une pr�cision pr�dictive cinq vid�o des cinq prochaines actions.

(2) Apprendre � un plan comme un chien

La planification entre le d�but et de fin au, d�but et de fin envisager des trames s�par�es par 5 �tapes entre les images ici.

(3) L'apprentissage � partir d'un chien

Le r�sultat net sur la formation en IMAGEnet �tre compar�, dans l'indice d'�valuation r�seau de formation de DECENNIE l'IOU.

6. R�sum�

�quipe Kiana Ehsani a choisi la mod�lisation directe du point de vue des objets cibles, ils ont utilis� le tir vid�o du point de vue d'un chien pour former le mod�le, l'objectif ultime est de faire leur mod�le peut pr�dire une action ult�rieure, vous pouvez comme un chien de planifier leurs actions � mener � bien cible. Leur travail est la premi�re mod�lisation de la fin de l'�tape, cette m�thode n'a pas de donn�es ou manuellement marqu�s sp�cifiques des donn�es s�mantiques. Non seulement cela, il peut �tre appliqu� dans un multi-cible et multi-sc�ne pour obtenir des informations pr�cieuses.

Lei Feng r�seau que leur approche a encore beaucoup de place pour d�velopper des lieux. D'une part, le mod�le mis en uvre dans cet article accepte seulement visuel, CV fait partie du probl�me, mais en fait, il peut �tre �tendu � d'autres domaines, comme entr�e pour atteindre l'ou�e, le toucher, etc., en plus, le mod�le actuel est encore juste pour mod�liser le comportement d'un chien , si elle peut �tre �tendue � la situation multi-chien alors?

Dans tous les cas, l'utilisation de l'ensemble de donn�es en perspective de h�ros pour former le mod�le, cette id�e unique et il y a une signification profonde, appartient � une nouvelle t�che de CV.

Route de la soie