Peu importe la façon dont vous faites tourner saut ne se arrête pas, mais aussi le cadeau parfait estimation de la pose 3D | code open source

Les poissons provenant de la partie inférieure de la brebis concave treize non-Temple rapports Qubit | Numéro public QbitAI

Laissez prédit par l'IA, vous attraper « dragon peint à la main gauche, main droite peinture Rainbow » action pour AI comprendre le comportement humain est essentiel.

Vous voulez faire cela, les données de mouvement humain est essentiel, mais en fait, le vrai données de mouvement 3D est précisément des ressources rares.

Maintenant, une étude de l'Institut Max Planck pour les systèmes intelligents, l'utilisation du cadre d'apprentissage de la confrontation, en l'absence de réelles étiquettes 3D, mais aussi de la vidéo en temps réel dans le mouvement humain, de faire une prédiction raisonnable sur la cinématique.

Comme ça, courir, sauter Nope:

Et, par rapport à l'ancienne génération, ce nom est VIBE les gens savent mieux Way, même de lever ses bras plusieurs fois, sont calculés clairement.

Ainsi, VIBE à la fin est de savoir comment faire?

Confrontation cadre d'apprentissage

La principale innovation est l'utilisation d'un cadre d'apprentissage de la confrontation.

Dans un aspect, l'utilisation du temps (temporelle) génère le réseau, les paramètres du modèle de chaque châssis de carrosserie SMPL estimée d'une séquence vidéo.

Note: SMPL, qui est une méthode de modélisation corps humain Une Skinned multi-personne Modèle linéaire, proposé Max Planck.

Plus précisément, étant donné que d'une seule entrée vidéo, en utilisant une caractéristique de chaque trame CNN pré-formé extrait.

La formation des unités de cycle de déclenchement bidirectionnel du codeur temps, la variable de sortie comprend une information passée latent et cadre futur.

Ensuite, utilisez ces fonctions sur le mannequin régression des paramètres SMPL.

D'autre part, le discriminateur de mouvement capable d'accéder à un grand nombre de l'action humaine au format SMPL.

Les échantillons générés par le générateur, et de AMASS Les échantillons que l'entrée du discriminateur, l'action réelle d'identifier et de former son action « pseudo ».

AMASS est un grand open source ensemble de données de capture de mouvement 3D contient 40 heures de données sportives, 344 sujets, plus 11000 actions. (Voir la fin de l'adresse du projet)

Étant donné que le réseau de circulation lors du traitement de l'ordre d'entrée cachée des mises à jour de son état final restera caché dans les informations de synthèse de séquence. Les chercheurs ont introduit le discriminateur de mécanisme d'auto-attention à élargir le rôle de l'ultime représentent cadre le plus important.

Un certain nombre d'indicateurs de performance de SOTA

Les anciennes règles, premier regard sur l'ensemble de données.

Pour l'ensemble de données de formation, en utilisant un mélange d'ensembles de données 2D et 3D. PennAction et PoseTrack Est les seuls ensembles de données vidéo 2D sol vérité, ensembles de données 3D sont utilisés MPI-INF3DHP et Human3.6M . De plus, l'utilisation de AMASS être aussi une formation conflictuel, l'accès à des échantillons réels.

Dans l'évaluation, la comparaison, l'utilisation des ensembles de données est principalement 3DPW , MPI-INF3DHP et Human3.6M .

Comparative puis, après la formation, sur les trois ensembles de données, en utilisant les méthodes les plus avancées résultent, comme le montre le tableau 1:

TABLEAU 1 : Sur 3DPW, MPI-INF-3DHP, H36M trois ensembles de données, chacun des résultats des méthodes les plus avancées de comparaison

Les chercheurs de ces trois ensembles de données, et d'autres VIBE le plus avancé, basé sur un modèle et le calendrier pour faire une comparaison des performances.

Il peut être difficile de voir, les performances de VIBE dans 3DPW et MPI-INF-3DHP deux ensembles de données est mieux, que d'autres modèles sur la performance.

Le jeu de données H36M, également relativement proche de la valeur optimale des résultats actuels.

En outre, le tableau 1 se rapporte également à une erreur d'accélération (erreur d'accélération), on peut voir à partir des valeurs, par rapport à l'erreur sur la base de trame-HMR VIBE est plus petite, le résultat est plus lisse.

Cependant, comparé avec le modèle en fonction du temps, supérieur à l'erreur d'accélération, mais il y avait un problème, un modèle basé sur le temps, avec un traitement de lissage plus « agressif », telle que la précision diminue la vidéo de mouvement rapide, comme la figure. Fig.

Sur : VIBE, à côté: HMR basé temps.

modèle VIBE est capable de restaurer la rotation globale correcte, ce qui est un problème plus grave soulevée par la méthode précédente dans l'existence, qui figure également dans le tableau 1 et les indicateurs PVE MPJPE bonne raison.

De plus, les expériences ont également démontré qu'il existe et il n'y a pas DM discriminateur de mouvement La performance du modèle a aussi une grande influence, comme le montre le tableau 2.

Tableau 2: Ablation de discriminateur mouvement DM

Aussi essayé plusieurs configuration auto attention, la méthode VIBE statique des méthodes combinées sont comparées, les résultats présentés dans le tableau 3.

Tableau 3: auto-attention Ablation

GitHub est open source, jeu de démarrage rapide Demo

En plus de jours suspendus sautées des résultats expérimentaux, une autre est que des nouvelles passionnantes code de papier est open source!

Les chercheurs ont utilisé dans le processus de mise en uvre est Pytorch, le besoin d'équipement de laboratoire pour soutenir à la fois le raisonnement du CPU et le GPU, jusqu'à 30 images / s en RTX2080Ti, et d'obtenir des résultats sur 3DPW SOTA et ensemble de données MPI-INF-3DHP.

Les préparatifs sont également très simples, d'abord à cloner ce projet, entrez simplement:

git clone https://github.com/mkocabas/VIBE.git

Utilisez les exigences de pépin ou d'installation de Conda:

# Pip bash install_pip.sh # Conda bash install_conda.sh

Ensuite, dans le projet GitHub, télécharger un bon jeu de données, vous pouvez exécuter:

bash prepare_data.sh

Ensuite, vous pouvez exécuter le code de démonstration a été préparé (VIBE peut fonctionner sur une vidéo):

# Exécuter sur une vidéo locale python demo.py --vid_file sample_video.mp4 --output_folder sortie / --display # Run sur une vidéo YouTube python demo.py --vid_file https://www.youtube.com/watch?v=wPZP8Bwxplo --output_folder sortie / --display

Bien sûr, si vous ne disposez pas de l'équipement nécessaire pour les expériences ci-dessus, l'environnement, vous pouvez utiliser Google Colab. De même, les chercheurs ont également prêts à vous Colab de la « voie rapide » pour lancer la démo, vous pouvez tamponner le lien ci-dessous:

https://colab.research.google.com/drive/1dFfwxZ52MN86FA6uFNypMEdFShd2euQA

Alors, pour commencer rapidement l'essayer!

portail

Adresse Papers: https: //arxiv.org/abs/1912.05656

Adresse GitHub: https: //github.com/mkocabas/VIBE

ensemble de données AMASS: https: //amass.is.tue.mpg.de/

- FIN -

Qubit QbitAI · titres sur contrat

Suivez-nous, la première fois informé l'avant-garde des développements scientifiques et technologiques

J'ai un passionné d'équitation, était des informations de localisation des suspects trahis Google, payer beaucoup d'argent pour témoin innocent
Précédent
IPSC 2020 utilisera la téléconférence, pour la première fois en Afrique de le faire serait probablement perdu
Prochain
Un modèle bat 12 faux AI et toutes sortes de GAN et Deepfake sont tués
Ouvrir une bibliothèque de reprise progressive à Changsha
Matin lecture Shu pays a 3714 attractions touristiques de classe A pour ouvrir la reprise des activités
les occidentaux et la prévention des épidémies « confondre » comportement: obsédé par l'accaparement du papier toilette
Kia Motors ventes mondiales en Mars ont chuté de 6,4% en Corée du Sud tendance à la croissance des ventes intérieures
Tesla pic chaque minute, même si Ferrari n'est plus sous cette Ford centaine de kilomètres en 3,5 secondes
Roewe exposition EI5 modèles complets de vie de la batterie de phosphate de fer lithié jusqu'à 416 km
Wuhan, les plus grands fabricants de véhicules pour commencer la production d'une reprise régulière afin de reprendre la production
Yen contrôle des valeurs évangéliques / an prochain en Chine! La nouvelle forme Nissan X-Trail grand changement
BMW plans pour répondre à la tendance d'économie d'énergie 48V modèles de véhicules équipés de mélange de lumière
146800 yuans de la vente, l'endurance + 460 km, cette voiture électrique en SUV pur a également renforcé les fonctions de l'Internet
Huitième génération de golf doivent compter sur l'énorme potentiel de conversion null-bar Études de cas