Pour voir le monde du point de vue du chien, le chien avec les données visuelles pour prédire le comportement

Note de Lei Feng réseau AI Technology Review: Cet article présente une nouvelle tâche de CV.

Kiana équipe Ehsani de l'Institut Allen pour l'intelligence artificielle à l'Université de Washington pour briser les tâches de recherche traditionnelles de vision par ordinateur, essayez de modèle à partir de l'objet cible (comme les chiens) perspective, et utiliser des modèles pour prédire le comportement de l'objet.

Cela représente une méthode d'apprentissage qui diffère de l'image traditionnelle de la mission de formation, la formation de modèle commence dans une perspective particulière, c'est donc une nouvelle tâche de CV. Dans le document, comme une étude de cas, les auteurs ont utilisé la perspective du chien pour former le modèle, et ont obtenu des succès remarquables dans la modélisation du comportement du chien. Les auteurs disent que cette méthode devrait étendre à d'autres domaines.

Lei Feng réseau Ce qui suit est une explication détaillée de la thèse.

vision traditionnelle informatique axée sur la classification, l'identification, la détection et la segmentation des sous-tâches, en général pour résoudre des problèmes de vision par ordinateur, les chercheurs seront généralement une combinaison organique de ces fonctions. Cependant, ces méthodes de recherche le résultat a été un grand écart avec les résultats escomptés. Auteur de cet article inspiré par le « comportement et l'interaction dans la compréhension visuelle du rôle des » récents travaux de recherche, ils seront l'intelligence visuelle problème (intelligence visuelle) est définie comme: Comprendre les données visuelles et prendre des mesures ou effectuer des tâches dans le monde visuel. Selon cette définition, l'auteur croit être comme une intelligence visuelle pour apprendre le corps comme dans le monde visuel.

En tant que point d'entrée de l'étude, ils ont choisi un chien comme un proxy visuel. Par rapport aux humains, les chiens ont un simple acte d'espace, ce qui peut rendre la tâche plus facile à manipuler, d'autre part, ils peuvent effacer la démonstration de l'intelligence visuelle pour identifier les aliments, les obstacles, d'autres humains et les animaux, et ceux-ci entrer réagir.

Dans l'expérience, l'équipe Kiana Ehsani via les données vidéo chien enregistrées auto en perspective, avec le capteur monté dans le fonctionnement de la collecte des données sur les joints chiens construit ensemble de données DÉCENNIE (Dataset des actions égocentriques dans un environnement de chien) .

Dans l'étude, les auteurs, ils utilisent des ensembles de données DÉCENNIE, principalement pour explorer trois questions:

(1) agissant comme un chien, un chien qui est une action prédite;

(2) La planification comme un chien, le chien-à-dire la séquence de mouvement de prédiction;

(3) L'apprentissage d'un chien, qui est, comment utiliser l'action du chien comme une étude de surveillance de caractérisation du signal.

1. Ensemble de données

Comme mentionné ci-dessus, les auteurs ont utilisé des ensembles de données DÉCENNIE. Cette base de données contient 380 clips vidéo, la caméra vidéo montée sur la partie de tête de tir du chien. Comportant en outre un emplacement d'installation vidéo et des informations de trajectoire.

Dans l'expérience, les auteurs ont passé un total de 24500, dont 21000 utilisé pour former le modèle, 1500 pour la vérification, 2000 pour le test final.

Ces auteurs ont utilisé un tir de la caméra vidéo GoPro, la fréquence d'échantillonnage de 5fps. L'équipe utilise quatre unités de mesure inertielle (IMU de) pour mesurer la position des extrémités du chien, une unité détecte la position de la queue, il y a un emplacement de mesure du tronc. Ces appareils peuvent être utilisés pour enregistrer le mouvement angulaire du mouvement.

Ils sont acquises pour chaque trame contient six décalage angulaire des moyens de mesure. Il représente le décalage angulaire aux métadonnées vecteur à quatre dimensions 4. unité de mesure inertielle angulaire absolue pour décaler la direction du chien sur le décalage angulaire différent joint est différente, ces différences peuvent être représentées par des quaternions. Ils croient que le changement d'angle entre deux trames successives d'action représente la différence entre les deux cadres du chien.

Des circonstances particulières obtention de cette information est un chien monté sur l'arrière du moniteur connecté à l'unité de mesure Arduino respectifs (IMU) à l'information de position d'enregistrement. Il est aussi à travers le microphone de dos de chien à Collect audio micro-canal, l'audio peut fournir la base pour la synchronisation et Imus données GoPro, vidéo et éventuellement des données de mesure IMU synchronisées au niveau de la milliseconde. Leur équipe a recueilli des données sur plus de 50 environnements différents, le chien est dans une scène particulière, comme la marche ou ramasser des choses ou d'interagir avec les autres chiens recueillis. Tous les cadres de la coupe finale sans notes, des expériences ont été effectuées à l'aide des données brutes.

2. Agissant comme un chien

Comment prédire ce que la réaction du chien dans différents scénarios? Modèle proposé par les auteurs voir la scène avant d'apprendre chien photos de chiens pour prédire le prochain mouvement.

séquence de trames d'entrée du modèle est une série d'images visuelles (I_1, I_2, ..., I_T), et la sortie de chaque joint est une opération de chien t dans la prochaine tranche de temps

Les auteurs prédisent problèmes décrits comme un problème de classification. Ils se déplacent les articulations et codées numériquement, et l'action particulière dans une étiquette de classe différente mouvement articulaire. Pour former ces sports, ils utilisent les K-moyennes algorithme pour traiter le changement d'angle d'articulation. Chaque centres de cluster peuvent représenter un sport particulier.

modèle de prédiction de mouvement est sa structure codec, l'objectif principal est de trouver une relation de correspondance entre l'image d'entrée et de l'action future. Pour illustrer cette relation, comme la tenue d'un chien quand l'action de la scie chien après que le chien est susceptible de s'asseoir et attendre que le propriétaire à l'alimentation.

L'image montre la structure du modèle, dans lequel la section de codage comprend un modèle et un CNN LSTM. Dans lequel dans chaque tranche de temps CNN recevra une paire d'images consécutives avant et après l'action, à savoir des images d'action mentionné ci-dessus, la contre codé et transmis à LSTM. Si les résultats montrent une tranche de temps LSTM accepte deux modèles peut améliorer considérablement les performances. CNN comprenant deux masses identiques ResNet-18, qui était une trame de traitement.

décodeur cible est prédite dans la trame articulaire, il a été codé conformément à l'activité. Le décodeur recevant le codeur état initial est venu caché, et le résultat de traitement LSTM, après chaque tranche de temps, la sortie du décodeur de chacune des classes d'action conjointe mentionnée ci-dessus, et la sortie de la tranche de temps précédente seront linéaires encodeur traité en entrée la tranche de temps suivante. Précisément parce qu'ils utilisent une sortie de longueur fixe traitée comme entrée pour la tranche de temps suivante, si aucun indicateur d'arrêt, et leurs modèles vont arrêter après un certain nombre de génération d'un signal de sortie. L'effet final est que leur modèle sortie chaque tranche de six fois l'action de classe.

Indépendamment chaque image est transmise à la colonne ResNet, et dans lequel deux images ont été combinées, la combinaison de caractéristiques peut être introduite après la LSTM codeur linéaire traitement de conversion. Ils équipe formée à l'avance sur IMAGEnet ResNet, puis l'optimiser pour évaluer l'action entre deux trames successives.

codec équipe Kiana Ehsani pour traiter chaque joint en utilisant la perte d'entropie moyenne pondérée. Fonction de perte est:

3, la planification comme un chien

Comment le chien est un plan d'action pour atteindre leurs objectifs?

Afin de donner à cette modélisation des processus, les auteurs ont conçu le plan suivant: Entrez les deux l'image décousue, puis de planifier une série d'actions de la première image de l'état à un second état des images intermédiaires qui peuvent survenir. Ils ont fait remarquer que la précédente estimation de mouvement n'est plus estimation applicable, avant que le mouvement est à l'état de supplément entre les deux images varient en fonction de l'état des changements d'objectifs. Maintenant, au contraire, notre propre plan de modèle pour faire une action raisonnable à l'autre supplément entre les changements d'image. Plus description formelle est,

Entrez les deux images (I_1, I_N), les données d'action longueur de sortie n-1. Cette sortie doit être commuté du I_1 d'état connu pendant l'état intermédiaire I_N.

chaque mouvement de chien aura un impact sur l'étape suivante, les auteurs ont conçu un réseau de neurones récurrent, qui comprend une couche de LSTM, pour gérer la sortie comme une tranche de temps d'une tranche de temps de l'entrée. Ils ont la image I1 et IN est transmis présentées séparément sur la figure. ResNet-18 colonne, avec une couche supérieure et dans lequel la LSTM d'entrée. Dans chaque tranche de temps, les données de mouvement de sortie des cellules LSTM sont six articulations. Ils ce que l'entrée à la tranche de temps suivante, de sorte que le réseau de neurones qui peut être ajustée en fonction de l'état précédent. Ils procéderont aussi à la fois la probabilité d'occurrence des données d'entrée, mais aussi pour la tranche de temps suivante. Cela rend le plomb à faible heure actuelle de probabilité au comportement d'autres actes de haute probabilité du film dans les séquences d'action, de manière à assurer la diversité des comportements futurs.

En utilisant l'équation décrit la perte de poids croix entropie à toutes les tranches de temps et l'articulation de formation du réseau de neurones récurrents. Et adresse comment un chien comme une méthode similaire à l'action entreprise, ils utilisent un champ d'action discrète.

4. Apprendre d'un chien

La possibilité d'utiliser comme caractéristique de signal, il a supervisé l'apprentissage de l'action du chien?

Dans articulaire prédiction de mouvement du chien a été observée dans l'image d'apprentissage, la représentation d'image peut être obtenue, qui code pour les différents types d'informations.

Pour l'étude, dit l'image de l'auteur, la formation modèle ResNet-18 observée en observant le chien à l'instant t-1 et t pour estimer le (changement IMU de temps t-1 à t) du mouvement actuel du chien. Les auteurs ont ensuite cet essai de représentation, et par rapport à ResNet-18 modèles sur la formation en IMAGEnet, utilisent des données différentes dans différentes tâches. Dans l'expérience, les auteurs ont utilisé une estimation de surface étaient réalisables SUN397 ensembles de données et la classification de la scène.

Pour démontrer la représentation d'effet, les auteurs modélisent la partie bleue avec une formation sur IMAGEnet ResNet ont été remplacés, et le comparer avec la formation sur DÉCENNIE ResNet.

les résultats

La figure suivante illustre ce modèle à apprendre de cinq vidéo pour montrer quand le chien quand le chien a jeté la balle vers une personne. Dans la vidéo, après que le ballon a traversé le chien, le chien chasse la balle à droite. Avant l'utilisation du modèle proposé cinq images peuvent prédire avec précision le comportement d'un chien comment tourner à droite lorsque la balle a survolé.

Les résultats concrets suivants:

(1) L'apprentissage d'agir comme un chien

Après avoir observé une précision prédictive cinq vidéo des cinq prochaines actions.

(2) Apprendre à un plan comme un chien

La planification entre le début et de fin au, début et de fin envisager des trames séparées par 5 étapes entre les images ici.

(3) L'apprentissage à partir d'un chien

Le résultat net sur la formation en IMAGEnet être comparé, dans l'indice d'évaluation réseau de formation de DECENNIE l'IOU.

6. Résumé

équipe Kiana Ehsani a choisi la modélisation directe du point de vue des objets cibles, ils ont utilisé le tir vidéo du point de vue d'un chien pour former le modèle, l'objectif ultime est de faire leur modèle peut prédire une action ultérieure, vous pouvez comme un chien de planifier leurs actions à mener à bien cible. Leur travail est la première modélisation de la fin de l'étape, cette méthode n'a pas de données ou manuellement marqués spécifiques des données sémantiques. Non seulement cela, il peut être appliqué dans un multi-cible et multi-scène pour obtenir des informations précieuses.

Lei Feng réseau que leur approche a encore beaucoup de place pour développer des lieux. D'une part, le modèle mis en uvre dans cet article accepte seulement visuel, CV fait partie du problème, mais en fait, il peut être étendu à d'autres domaines, comme entrée pour atteindre l'ouïe, le toucher, etc., en plus, le modèle actuel est encore juste pour modéliser le comportement d'un chien , si elle peut être étendue à la situation multi-chien alors?

Dans tous les cas, l'utilisation de l'ensemble de données en perspective de héros pour former le modèle, cette idée unique et il y a une signification profonde, appartient à une nouvelle tâche de CV.

version « Alpha » avis exposé la beauté du monde « beau royaume » d'un groupe total de paysages préhistoriques
Précédent
L'intelligence artificielle permettant la modernisation industrielle huissier de scénario d'atterrissage AI + dans « épidémie »
Prochain
Même un adaptateur 3,5 mm ne me donne pas d'Apple résilie est la ligne de conversion d'interface 3,5 mm
vous aussi un AWE port propre Lan léopard noir frappé la technologie
premier frit profond de l'iPhone 7 Chine: le propriétaire du visage a été rayé la matière comme des rumeurs écran de verre
Avant de « loups » à vendre, Hidetaka Miyazaki une discussion
IFLYTEK concours smart développement de la maison pour entrer dans la demi-finale, la première liste des finalistes a officiellement annoncé
mises à jour logicielles de reconnaissance GPU-Z de la carte graphique pour les cartes blanches étaient faux escorte
Non seulement il est 2019AWE Galanz gamme de micro-ondes de nouvelle version intelligente
Charmaine « Raiders Yanxi » à travers le « frère d'or », puis monter dans le grand écran avec le groupe Ekin CP
Huang chef de mauvais? N cartes offertes à 10 fois en 1000 pour améliorer les performances du GPU
Cinq grands experts débat chauffé « AI + Sécurité »: Qui est le prochain géant? Sommet Shu AI sécurité 2018
Association chinoise des ménages Appareils ménagers électriques, a déclaré Jiang Feng Interview
Midday Nouvelles Star | « Nuit sur le Grassland » Tian Ge célèbre la mort du compositeur, qu'il est le fils de Chongqing, la ligue d'établir un « country club », le football chinois a commencé à entr