notes de papier: piste pi�tonne premi�re personne pr�diction vid�o en perspective

Lei Feng note de r�seau AI Technology Review: Cet article est �crit par Lin Tianwei Universit� Jiaotong de Shanghai Lei Feng r�seau AI Technology Review comme des articles exclusifs, qui ont �t� de pointage et d'audit, Lei Feng r�seau pour exprimer ma gratitude.

vid�o d'analyse du mouvement humain est une orientation importante dans le domaine de la recherche sur la vision par ordinateur, y compris la classification d'action, le calendrier, la d�tection de mouvement, d�tection de mouvement, et ainsi la direction du temps et de l'espace. Quelques jours il y a l'Universit� de Tokyo au Japon a publi� un document sur arXiv (probablement CVPR Contribute articles qu'il) pr�sente une nouvelle analyse du probl�me de l'action humaine: la premi�re personne probl�me de pr�vision de la trajectoire des pi�tons vid�o, et pr�sente une nouvelle s�rie de donn�es et un nouvel algorithme de pr�diction de trajectoire pi�tonne.

Le document est intitul�: Future Personne Localisation dans Vid�os � la premi�re personne (arXiv 1711,11217). Cette note se concentrera sur le perfectionnement du papier et de finition sur le contenu, et enfin attacher sa discussion de cet article. Bienvenue messages indiquent un probl�me -

D�finition du probl�me

tout, vid�o � la premi�re personne d'abord (vid�os � la premi�re personne) utilis� ici fait r�f�rence � une cam�ra vid�o portable (cam�ras portables) prises, telles que GoPro, verre Google et ainsi de suite. Le principal champ d'application correspondant � une premi�re personne vid�o bas�e par corr�lation comprend la navigation aveugle, AR et d'autres domaines connexes.

Les prochains num�ros Personne Localisation sp�cifiquement soulev�es dans cet article, l'information connue � l'instant t et quelques images avant l'image des pi�tons, ce qui n�cessite des algorithmes pour pr�dire quelle position les prochaines cadres du pi�ton apparaissent dans l'image. Les probl�mes sch�matiques comme le montre la figure. A propos de cette technologie de t�che a de nombreuses utilisations, comme aider les pi�tons d'�viter les pi�tons � marcher vers vous, ou de l'aide pour planifier le mouvement de trajectoire du robot mobile.

Construction d'algorithmes

Pour construire un algorithme de pr�diction de la trajectoire des pi�tons, il faut d'abord d�terminer les informations � utiliser / caract�ristiques pour la mod�lisation et l'apprentissage voie pi�tonne. Pour les pi�tons court vid�o ici principalement, il propose quatre s�quences de fonction, comme suit:

1. La position de la s�quence de trames de d�tection de pi�tons (emplacement);

2. S�quence de taille d'image de d�tection de pi�tons (Scale), le point de vue � la premi�re personne, la taille de trame est en r�alit� impliqu� relation de projection en perspective des pi�tons, � savoir, � pr�s de la beaucoup plus faible �;

3. s�quences d'ossature pour pi�tons (de pose), les informations principales squelette pi�tons d'op�ration implicite, la posture, l'orientation et d'autres informations;

4. Les informations de mouvement de la cam�ra (Ego-mouvement) lui-m�me, en raison de la perspective � la premi�re personne de la cam�ra elle-m�me est en mouvement constant, de sorte que le mouvement de la cam�ra elle-m�me avait aussi prendre en compte parmi les algorithmes, en particulier, est la cam�ra dans chacun des deux des informations de translation et de rotation entre les deux.

Par cons�quent, le probl�me peut �tre exprim� sous la forme, connue � l'instant t et le cadre avant Tp quatre s�quences de caract�ristiques, la position du pi�ton s�quence de trame de d�tection pr�dit exigences de Tf de trame. Dans cet article, un simple r�seau bas� sur convolution unidimensionnelle, comme indiqu� ci-dessous:

configuration de r�seau particulier indiqu� dans le tableau ci-dessous, essentiellement 1D-Conv + BN + Relu pile. Le r�sultat final est la s�quence de la position suivante de la trame d�tect�e souhait�e.

ensemble de donn�es � la premi�re personne Locomotion (FPL)

Le probl�me pour les pi�tons pr�dire la trajectoire de la vid�o � la premi�re personne, parce qu'il n'y a aucune base de donn�es ready-made, si propre acquisition d'une nouvelle base de donn�es de l'auteur, appel� ensemble de donn�es de locomotion � la premi�re personne (FPL). Cet ensemble de donn�es sont acquises dans les rues de Tokyo, sont quelques exemples de l'ensemble de donn�es d'image figure.

La base de donn�es contient 4,5 heures de vid�o, y compris le segment de piste environ 5000 pi�tons. Et dans chaque piste, les fen�tres temporelles 1s employ�s ici, les informations 10 avant l'utilisation en tant que caract�ristique d'entr�e, voie pi�tonne 10 en tant que sortie de l'�tiquette. D�fini ici est pas particuli�rement clair, vous devrez peut-�tre regarder la publication ult�rieure des informations de jeu de donn�es d�taill�es.

Ensuite, l'ensemble de donn�es d'informations de balise est de savoir comment l'obtenir, l'ensemble de donn�es n'utilise pas une forme marqu�e � la main, mais l'utilisation de plusieurs algorithmes pour g�n�rer automatiquement des informations d'annotation. En premier lieu, pour chaque trame, en utilisant cette source ouverte CMU OpenPose pour extraire la sc�ne de l'information de tous les pi�tons, selon les informations disponibles squelette cadre de d�tection de pi�ton. En second lieu, l'utilisation KCF algorithme inter de suivi de pi�ton pour produire beaucoup de piste courte s�quence, alors le suivi de ces similitude courte s�quence selon (1) de la caract�ristique d'image (2), la position de ces deux r�gles proximit� �piss� afin d'obtenir une s�quence plus longue piste. Caract�ris� ici en utilisant une distance cosinus de similarit� plus rapide-RCNN les caract�ristiques extraites. Par l'op�ration ci-dessus, le pi�ton peut �tre obtenu trois caract�ristiques de s�quences connexes: emplacement du pi�ton, le pi�ton et la taille des pi�tons de s�quence du squelette. Pour plus d'informations sur le propre mouvement de la cam�ra, le papier utilise dans l'algorithme d'estimation. Par l'op�ration ci-dessus, finalement obtenu Trajectoire 5000 �chantillons.

les m�thodes d'essai, ce document utilise similaire � Erreur de mani�re � l'aide au d�placement final (FDE) comme un indice d'�valuation. FDE une distance L2 de l'indice entre la trajectoire finale pr�dite et la trajectoire r�elle finale. Pour une �valuation plus pr�cise de l'ensemble de donn�es dans la piste pi�tons �galement 1) vers 2) � une distance 3) � travers trois sous-ensembles, respectivement, et une moyenne a �t� calcul�e FDE FDE. 3 sous-ensembles.

Les r�sultats exp�rimentaux

Cet article a �t� compar� � plusieurs m�thodes comme suit:

ConstVel: le proc�d� calcule la vitesse et l'orientation de la trajectoire d'entr�e, la g�n�ration de trajectoire directe subs�quente
NNeighbor: Dans le test, les pistes s�lectionn�es 16 plus comme trajectoire de consigne de la formation, la trajectoire est g�n�r�e en faisant la moyenne de la sortie
LSTM sociale : la trajectoire pr�vue du pi�ton une des m�thodes �tat de l'art, mais pas fait de la sc�ne dans la perspective de la premi�re personne.

Les r�sultats sont pr�sent�s dans le tableau:

Comme on le voit la m�thode propos�e est beaucoup mieux que plusieurs de la ligne de base.

L'ajout de plusieurs fonctionnalit�s �galement entr� l'�tude d'ablation, les r�sultats pr�sent�s dans le tableau suivant:

vari�t� compl�te visible de l'information pour pr�dire l'effet de la trajectoire a consid�rablement am�lior� les r�sultats.

Comme le montre les r�sultats de la visualisation figure comme d�crit ici. Dans l'ensemble, les r�sultats �taient bons.

discussions personnelles

Ce qui pr�c�de est le contenu de base de cet article. Comme on peut le voir, l'article principalement probl�me de pr�vision de la trajectoire des pi�tons est d�fini plus pr�cis�ment dans la sc�ne (la premi�re personne vid�o de la vue) et pr�sente les ensembles et les algorithmes de donn�es correspondants. Bien que l'algorithme propos� dans cet article est relativement simple, mais reste globalement tr�s instructif:

Dans la perspective de la premi�re personne de la sc�ne, la m�thode de cet article portant sur la piste pi�tonne propose une vari�t� d'informations qui peuvent �tre utilis�es pour pr�dire o� les informations squelette et des informations sur l'appareil lui-m�me, je pense est tr�s important.
En fait, ce probl�me peut encore �tendre le probl�me de pr�diction pour les pi�tons trajectoire sc�ne de la cam�ra de mouvement, de sorte qu'il peut �tre utilis� des sc�narios de conduite plus intelligents comme.
Dans cet article, le mod�le est tr�s simple � construire, peut simplement vouloir le faire avec une simple ligne de base, en utilisant le r�seau LSTM ou construire algorithme plus de fusion caract�ristiques complexes devrait �tre en mesure d'obtenir une meilleure pr�cision de la pr�vision de trajectoire.
La collecte des donn�es propos�es dans l'extraction d'une vari�t� d'informations, estimateur trois algorithmes ont �t� utilis�s KCF, openpose et moi-mouvement, sa vitesse globale devrait �tre inf�rieure � l'id�al. Donc, si vous voulez utiliser cet algorithme dans des sc�narios r�alistes, il y a beaucoup d'optimisation des algorithmes, le travail de mise en uvre du projet pour le faire. Il est �galement int�ressant de faire.

r�f�rences

Takuma Yagi, Future Personne Localisation et.al. en premi�re personne Vid�os En arXiv pr�publication arXiv :. 1711,112172017.

Z. Cao, T. Simon, S.-E.Wei et Y. Cheikh. Realtime personne multi-estimation de la pose 2d utilisant des champs d'affinit� partiel. Dans les ceedings Pro- de la Conf�rence IEEE sur l'ordinateur Vision et reconnaissance des formes, pages 7291 - 7299, 2017.

J. F. Henriques, R. Caseiro, P. Martins, et J. Batista High- suivi de la vitesse avec des filtres corr�lation kernelized IEEE Transactions on mod�le d'analyse et de l'intelligence artificielle, 37 (3): 583-596 .. 2015.

S. Ren, K. Il, R. Girshick et J. Soleil d�tection plus rapide R-CNN :. salles To- objet en temps r�el avec la proposition r�gion travaux Net- dans Advances in TEMS Traitement de l'information Neural Sys-, pages 1-9, 2015.

T. Zhou, M. Brown, N. Snavely et DG Lowe sans sur- pris connaissance de la profondeur seront surveill�es et ego mouvement de la vid�o en ceedings Pro- de la Conf�rence IEEE sur Vision par ordinateur et reconnaissance, pages 1851 .. - 1860, 2017.

A. aleyhi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei-Fei, et S. Savarese LSTM sociale: .. pr�vision de trajectoire humaine dans des espaces encombr�s dans les Actes de la Conf�rence IEEE sur la vision par ordinateur et Pattern Recognition, pages 961-971, 2016.

Route de la soie