notes de papier: piste piétonne première personne prédiction vidéo en perspective

Lei Feng note de réseau AI Technology Review: Cet article est écrit par Lin Tianwei Université Jiaotong de Shanghai Lei Feng réseau AI Technology Review comme des articles exclusifs, qui ont été de pointage et d'audit, Lei Feng réseau pour exprimer ma gratitude.

vidéo d'analyse du mouvement humain est une orientation importante dans le domaine de la recherche sur la vision par ordinateur, y compris la classification d'action, le calendrier, la détection de mouvement, détection de mouvement, et ainsi la direction du temps et de l'espace. Quelques jours il y a l'Université de Tokyo au Japon a publié un document sur arXiv (probablement CVPR Contribute articles qu'il) présente une nouvelle analyse du problème de l'action humaine: la première personne problème de prévision de la trajectoire des piétons vidéo, et présente une nouvelle série de données et un nouvel algorithme de prédiction de trajectoire piétonne.

Le document est intitulé: Future Personne Localisation dans Vidéos à la première personne (arXiv 1711,11217). Cette note se concentrera sur le perfectionnement du papier et de finition sur le contenu, et enfin attacher sa discussion de cet article. Bienvenue messages indiquent un problème -

Définition du problème

tout, vidéo à la première personne d'abord (vidéos à la première personne) utilisé ici fait référence à une caméra vidéo portable (caméras portables) prises, telles que GoPro, verre Google et ainsi de suite. Le principal champ d'application correspondant à une première personne vidéo basée par corrélation comprend la navigation aveugle, AR et d'autres domaines connexes.

Les prochains numéros Personne Localisation spécifiquement soulevées dans cet article, l'information connue à l'instant t et quelques images avant l'image des piétons, ce qui nécessite des algorithmes pour prédire quelle position les prochaines cadres du piéton apparaissent dans l'image. Les problèmes schématiques comme le montre la figure. A propos de cette technologie de tâche a de nombreuses utilisations, comme aider les piétons d'éviter les piétons à marcher vers vous, ou de l'aide pour planifier le mouvement de trajectoire du robot mobile.

Construction d'algorithmes

Pour construire un algorithme de prédiction de la trajectoire des piétons, il faut d'abord déterminer les informations à utiliser / caractéristiques pour la modélisation et l'apprentissage voie piétonne. Pour les piétons court vidéo ici principalement, il propose quatre séquences de fonction, comme suit:

1. La position de la séquence de trames de détection de piétons (emplacement);

2. Séquence de taille d'image de détection de piétons (Scale), le point de vue à la première personne, la taille de trame est en réalité impliqué relation de projection en perspective des piétons, à savoir, « près de la beaucoup plus faible »;

3. séquences d'ossature pour piétons (de pose), les informations principales squelette piétons d'opération implicite, la posture, l'orientation et d'autres informations;

4. Les informations de mouvement de la caméra (Ego-mouvement) lui-même, en raison de la perspective à la première personne de la caméra elle-même est en mouvement constant, de sorte que le mouvement de la caméra elle-même avait aussi prendre en compte parmi les algorithmes, en particulier, est la caméra dans chacun des deux des informations de translation et de rotation entre les deux.

Par conséquent, le problème peut être exprimé sous la forme, connue à l'instant t et le cadre avant Tp quatre séquences de caractéristiques, la position du piéton séquence de trame de détection prédit exigences de Tf de trame. Dans cet article, un simple réseau basé sur convolution unidimensionnelle, comme indiqué ci-dessous:

configuration de réseau particulier indiqué dans le tableau ci-dessous, essentiellement 1D-Conv + BN + Relu pile. Le résultat final est la séquence de la position suivante de la trame détectée souhaitée.

ensemble de données à la première personne Locomotion (FPL)

Le problème pour les piétons prédire la trajectoire de la vidéo à la première personne, parce qu'il n'y a aucune base de données ready-made, si propre acquisition d'une nouvelle base de données de l'auteur, appelé ensemble de données de locomotion à la première personne (FPL). Cet ensemble de données sont acquises dans les rues de Tokyo, sont quelques exemples de l'ensemble de données d'image figure.

La base de données contient 4,5 heures de vidéo, y compris le segment de piste environ 5000 piétons. Et dans chaque piste, les fenêtres temporelles 1s employés ici, les informations 10 avant l'utilisation en tant que caractéristique d'entrée, voie piétonne 10 en tant que sortie de l'étiquette. Défini ici est pas particulièrement clair, vous devrez peut-être regarder la publication ultérieure des informations de jeu de données détaillées.

Ensuite, l'ensemble de données d'informations de balise est de savoir comment l'obtenir, l'ensemble de données n'utilise pas une forme marquée à la main, mais l'utilisation de plusieurs algorithmes pour générer automatiquement des informations d'annotation. En premier lieu, pour chaque trame, en utilisant cette source ouverte CMU OpenPose pour extraire la scène de l'information de tous les piétons, selon les informations disponibles squelette cadre de détection de piéton. En second lieu, l'utilisation KCF algorithme inter de suivi de piéton pour produire beaucoup de piste courte séquence, alors le suivi de ces similitude courte séquence selon (1) de la caractéristique d'image (2), la position de ces deux règles proximité épissé afin d'obtenir une séquence plus longue piste. Caractérisé ici en utilisant une distance cosinus de similarité plus rapide-RCNN les caractéristiques extraites. Par l'opération ci-dessus, le piéton peut être obtenu trois caractéristiques de séquences connexes: emplacement du piéton, le piéton et la taille des piétons de séquence du squelette. Pour plus d'informations sur le propre mouvement de la caméra, le papier utilise dans l'algorithme d'estimation. Par l'opération ci-dessus, finalement obtenu Trajectoire 5000 échantillons.

les méthodes d'essai, ce document utilise similaire à Erreur de manière à l'aide au déplacement final (FDE) comme un indice d'évaluation. FDE une distance L2 de l'indice entre la trajectoire finale prédite et la trajectoire réelle finale. Pour une évaluation plus précise de l'ensemble de données dans la piste piétons également 1) vers 2) à une distance 3) à travers trois sous-ensembles, respectivement, et une moyenne a été calculée FDE FDE. 3 sous-ensembles.

Les résultats expérimentaux

Cet article a été comparé à plusieurs méthodes comme suit:

  • ConstVel: le procédé calcule la vitesse et l'orientation de la trajectoire d'entrée, la génération de trajectoire directe subséquente

  • NNeighbor: Dans le test, les pistes sélectionnées 16 plus comme trajectoire de consigne de la formation, la trajectoire est générée en faisant la moyenne de la sortie

  • LSTM sociale : la trajectoire prévue du piéton une des méthodes état de l'art, mais pas fait de la scène dans la perspective de la première personne.

Les résultats sont présentés dans le tableau:

Comme on le voit la méthode proposée est beaucoup mieux que plusieurs de la ligne de base.

L'ajout de plusieurs fonctionnalités également entré l'étude d'ablation, les résultats présentés dans le tableau suivant:

variété complète visible de l'information pour prédire l'effet de la trajectoire a considérablement amélioré les résultats.

Comme le montre les résultats de la visualisation figure comme décrit ici. Dans l'ensemble, les résultats étaient bons.

discussions personnelles

Ce qui précède est le contenu de base de cet article. Comme on peut le voir, l'article principalement problème de prévision de la trajectoire des piétons est défini plus précisément dans la scène (la première personne vidéo de la vue) et présente les ensembles et les algorithmes de données correspondants. Bien que l'algorithme proposé dans cet article est relativement simple, mais reste globalement très instructif:

  • Dans la perspective de la première personne de la scène, la méthode de cet article portant sur la piste piétonne propose une variété d'informations qui peuvent être utilisées pour prédire où les informations squelette et des informations sur l'appareil lui-même, je pense est très important.

  • En fait, ce problème peut encore étendre le problème de prédiction pour les piétons trajectoire scène de la caméra de mouvement, de sorte qu'il peut être utilisé des scénarios de conduite plus intelligents comme.

  • Dans cet article, le modèle est très simple à construire, peut simplement vouloir le faire avec une simple ligne de base, en utilisant le réseau LSTM ou construire algorithme plus de fusion caractéristiques complexes devrait être en mesure d'obtenir une meilleure précision de la prévision de trajectoire.

  • La collecte des données proposées dans l'extraction d'une variété d'informations, estimateur trois algorithmes ont été utilisés KCF, openpose et moi-mouvement, sa vitesse globale devrait être inférieure à l'idéal. Donc, si vous voulez utiliser cet algorithme dans des scénarios réalistes, il y a beaucoup d'optimisation des algorithmes, le travail de mise en uvre du projet pour le faire. Il est également intéressant de faire.

références

Takuma Yagi, Future Personne Localisation et.al. en première personne Vidéos En arXiv prépublication arXiv :. 1711,112172017.

Z. Cao, T. Simon, S.-E.Wei et Y. Cheikh. Realtime personne multi-estimation de la pose 2d utilisant des champs d'affinité partiel. Dans les ceedings Pro- de la Conférence IEEE sur l'ordinateur Vision et reconnaissance des formes, pages 7291 - 7299, 2017.

J. F. Henriques, R. Caseiro, P. Martins, et J. Batista High- suivi de la vitesse avec des filtres corrélation kernelized IEEE Transactions on modèle d'analyse et de l'intelligence artificielle, 37 (3): 583-596 .. 2015.

S. Ren, K. Il, R. Girshick et J. Soleil détection plus rapide R-CNN :. salles To- objet en temps réel avec la proposition région travaux Net- dans Advances in TEMS Traitement de l'information Neural Sys-, pages 1-9, 2015.

T. Zhou, M. Brown, N. Snavely et DG Lowe sans sur- pris connaissance de la profondeur seront surveillées et ego mouvement de la vidéo en ceedings Pro- de la Conférence IEEE sur Vision par ordinateur et reconnaissance, pages 1851 .. - 1860, 2017.

A. aleyhi, K. Goel, V. Ramanathan, A. Robicquet, L. Fei-Fei, et S. Savarese LSTM sociale: .. prévision de trajectoire humaine dans des espaces encombrés dans les Actes de la Conférence IEEE sur la vision par ordinateur et Pattern Recognition, pages 961-971, 2016.

première page de journal de beaucoup de monde: le monde pleure Notre-Dame
Précédent
Joueurs dans « Radiation 76 » même dans les trois acteurs bombes nucléaires, l'effondrement soufflé du serveur
Prochain
iPhone 8 grand froid, magasin d'Apple Sydney seulement 30 personnes faisaient la queue pour acheter intérieur il?
« Après la période de la pauvreté » comment consolider? le mode Shun est: pour diriger le bâtiment du parti, développer l'économie collective du village
Éveillez votre potentiel créatif pour suivre le ThinkPad grande ouverte pour laisser l'infini du cerveau
La première moitié de 2017 inventaire: marche dans la « sortie » dans la langue cible par
identification des empreintes digitales a été finalement supprimée l'année prochaine, le nouvel iPhone le système est livré en standard avec reconnaissance faciale pour déverrouiller la machine?
District d'abord Beibei, « contemplation Cup » fleur traditionnelle chinoise compétition arrangement à sa fin
Arthur, j'ai un plan, puis acheter UCG454 laisser ici
Apple montre 3, une quantité prédéterminée de chaud, mais merveilleux que 80% de la version cellulaire!
WEY P8 plus grand point de vente, il est pas ce qu'est la vie et quel est le prix?
District d'abord Beibei, « contemplation Cup » fleur traditionnelle chinoise compétition arrangement à sa fin
A la fin il n'est pas de routine? 26 septembre FlyMe résultats informels de discussions
Japonais NMD forts nouveaux produits entrants, à nouveau ensemble United Arrows & SONS Ce qui est différent?