Et les scènes d'action ne doivent pas lier étroitement, de réduire l'écart de la scène, sera en mesure d'identifier facilement le centre commercial chant danse Stade

Auteur | Jiang Weiwei

Modifier | Jia Wei

Au cours des dernières années, le réseau de neurones convolutionnel (CNN) a fait d'énormes progrès dans le problème de la reconnaissance de mouvement vidéo. Cependant, ces méthodes ont tendance à être trop préoccupé par l'arrière-plan de la scène, tout en ignorant l'action spécifique lui-même. Comme le montre la figure 1, alors que l'action humaine a été bloquée dans l'image, on peut encore déduire le type d'action le plus probable par la scène. Pour le modèle de réseau neuronal convolutif, étant donné le type d'opération en reconnaissant la scène est la scène inévitablement des écarts.

Figure 1. Bien que pas vu la figure, nous pouvons encore déduire une action spécifique par la scène.

Cet écart de scénario dans certains cas, peut provoquer le modèle pour produire l'effet que nous ne voulons pas voir. La figure 2 montre, à gauche, depuis le stade de baseball de fond, les gens qui chantent seront mal à jouer prédit baseball, mais dans le droit, même si on nage complètement bloqué, le modèle sera à cause de la piscine arrière-plan de l'identification, les résultats de prévision sont la natation donnée.

Figure 2. Étude incitation à l'algorithme de polarisation.

La recherche sur l'élimination de la scène de polarisation est encore relativement faible, ce NeurIPS 2019 publié dans le document présente la suite d'une étude basée sur la migration des programmes visant à atténuer l'écart de la scène.

Documents lien: https: //arxiv.org/pdf/1912.05534.pdf

La contribution de cet article est de proposer une perte définir deux scénarios visant à réduire l'écart dans le modèle de pré-formation de CNN:

1) contre scène pertes (scène de perte contradictoire), encourager l'apprentissage représentation fonction invariante scène modèle;

2) la perte de confusion bouclier humain (perte de confusion masque humain), le modèle est toujours donné pour empêcher l'action dans le corps humain ne sont pas visibles de prédire quand.

Afin de vérifier l'efficacité du système proposé, le journal a publié la tâche de comprendre l'expérience de trois actions: la classification d'action, lieu et du moment de la reconnaissance de mouvement espace-temps d'action. Les résultats expérimentaux montrent que la performance que le programme d'apprentissage transfert de modèle de référence mieux écart supprimé.

Un programme

Réduire la scène de déviation Ce document présente le mode de réalisation représenté sur la Fig.

Figure 3. Caractérisation du protocole de suppression de polarisation d'apprentissage de la scène vidéo.

L'objectif de ce programme est de paramètres pré-formation sur une grande tâches de classification vidéo, l'apprentissage extracteur de caractéristiques. Dans ce processus, les auteurs ont utilisé trois fonctions de perte. Tout d'abord, les ensembles de données Mini-Kinetics-200, grâce à une fonction standard de perte d'entropie croisée

Former le classement d'action. On ajoute ensuite une scène contre la perte

De cette qualification ne peut être déduit scène appris. Enfin, en utilisant le masque être détecté R-CNN et le corps de l'obturateur, constitué d'un ensemble de données est bloqué, le blocage et l'application de pertes humaines confondu

En second lieu, le dispositif expérimental

Ce document réalisé sur la tâche de comprendre l'expérience de trois actions: la classification d'action, lieu et du moment de la reconnaissance de mouvement espace-temps d'action. L'ensemble de données utilisée est la suivante:

1) Pré-formation: Mini-Kinetics-200, contenant 80000 vidéos de formation et 5000 vidéo vérificateurs.

2) Catégorie d'action: UCF-101, contient 13.320 vidéo 101, l'opération correspondant à la catégorie; BDMH-51, contient 6766 vidéo 51 opération correspondant à la catégorie; Diving48, contient 48 types d'opération de conduite 18000 vidéo . Pour les deux premiers ensembles de données, en utilisant un ensemble schéma de partitionnement formation / test précédent document de travail.

3) Séquence de fonctionnement Positionnement: Thumos-14, comprenant 20 types d'action avec une estampille temporelle et de la catégorie.

4) la reconnaissance de mouvement temporel: JHMDB, 928 contient 21 types de fonctionnement vidéo, ont chaque opération à identifier la légende boîte.

Ce document utilise une partie du modèle précédent, combiné avec la scène du programme de suppression de polarisation proposée. Dans la phase de pré-formation, le papier à l'aide d'un 3D-ResNet-18. Pour la reconnaissance de mouvement temporel, ce document utilise un modèle basé sur VGG-16.

Les résultats expérimentaux sur le fonctionnement des tâches de classification est indiquée dans le tableau 1. En évacuant les augmentations d'opération de déviation, les performances des trois ensembles de données sont améliorées.

Tableau 1. Précision tâche de classification d'action. Les résultats moyens des différentes façons de diviser l'analyse UCF-101 et BDMH-51.

La figure 4 montre également la précision relative d'une corrélation négative entre la déviation de la caractérisation de la scène de levage. Vous pouvez le voir dans l'ensemble de données plus d'écart de la scène, plus l'ascenseur pour amener l'algorithme de déviation.

4. La figure améliorer la précision de la caractérisation de la scène est relativement corrélation négative entre l'écart. UCF-101 de manière différente division BDMH-51 aura des résultats différents.

Les tableaux 2 et 3 sont donnés les résultats expérimentaux sur l'opération de positionnement et de synchronisation des tâches de reconnaissance de mouvement temporels. Sur les deux tâches, scène Ce programme de suppression présente en papier des écarts peut améliorer les performances du modèle de référence.

Tableau 2. Résultats expérimentaux Le calendrier de positionnement.

Tableau 3. Résultats expérimentaux reconnaissance de mouvement temporel.

BDMH-51 dans l'ensemble de données, pour améliorer encore les étiquettes en papier et les différents scénarios où les combinaisons de fonctions de perte de mannequin. Le tableau 4 démontrent la façon dont l'utilisation de la scène soft label peut mieux améliorer les performances, tandis que le tableau 5 montrent les scénarios d'utilisation contre la perte et la perte peut confondre le corps obscurci la plus grande amélioration de la performance.

Tableau 4. Effet de différents scénarios tags.

Tableau 5. Effet des différentes combinaisons de perte de fonction.

Pour vérifier davantage la validité du régime d'annulation de polarisation de la scène proposée, le document est analysé sur la base des cartes d'activation BDMH-51 UCF-101 et deux ensembles de données, comme le montre la figure. Les résultats ont montré que, lorsqu'ils ne sont pas utilisés pour éliminer la scène de polarisation, le modèle parce que trop d'attention à la scène plutôt que de l'erreur humaine a conduit à la classification et à l'utilisation des coulisses pour éliminer les biais, le modèle peut être plus préoccupé par le corps humain lui-même, pour donner la catégorie d'action correcte.

5. BDMH-51 sur la figure classe UCF-101 et active un exemple de cartographie de deux ensembles de données. la police indique que le bleu souligné classification correcte, alors que la police rouge au nom de classification erronée.

CONCLUSIONS

Ce document concerne le problème de quelques études antérieures impliqués, à savoir la reconnaissance de mouvement de déviation de fond éliminer le problème et propose une solution efficace, y compris la perte de deux nouvelle définition proposée de cette scène contre la perte et le bouclier humain perte de confusion. Dans l'action de classification, le fonctionnement de la séquence d'action pour localiser et identifier trois types d'espace-temps, un grand nombre d'expériences sur différentes tâches montrent l'efficacité du système proposé dans le présent document.

référence:

 Saining Xie, Chen Sun, Jonathan Huang, Zhuowen Tu, et Kevin Murphy. Repenser l'apprentissage des fonctionnalités pour la compréhension spatiotemporelle vidéo. En ECCV 2018.

 Il Kaiming, Géorgie Gkioxari, Piotr DOLLAR, et Ross Girshick. Masque R-CNN. En ICCV 2017.

 Khurram Soomro, Amir Roshan Zamir et Mubarak Shah UCF101 :. Un ensemble de données de 101 classes d'actions humaines de vidéos dans la nature arXiv prépublication arXiv :. 1212,0402, 2012.

 . Hildegarde Kuehne, Hueihan Jhuang, Estíbaliz Garrot, Tomaso Poggio et Thomas Serre BDMH: Une grande base de données vidéo pour la reconnaissance du mouvement humain En ICCV 2011 ..

 Yingwei Li, Yi Li, et Nuno Vasconcelos Resound: .. Vers une reconnaissance de l'action sans biais de représentation dans ECCV 2018.

 . Y.-G. Jiang, J. Liu, A. Roshan Zamir, G. Toderici, I. Laptev, M. Shah, et R. Sukthankar Thumos défi: la reconnaissance d'action avec un grand nombre de classes http :. // CRCV .ucf.edu / THUMOS14 / 2014.

 Hueihan Jhuang, Juergen Gall, Silvia Zuffi, Cordelia Schmid et Michael J Noir. Vers une reconnaissance de l'action compréhension. En ICCV 2013.

 Kensho Hara, Hirokatsu Kataoka et Yutaka Satoh. Can spatiotemporelle 3d CNNs retracent l'histoire de CNNs 2d et IMAGEnet? En CVPR 2018.

 Gurkirt Singh, Suman Saha et Fabio CUZZOLIN. Temps réel en ligne multiple localisation d'action spatio-temporelle et la prévision sur une seule plate-forme. En ICCV 2017.

Livre d'aujourd'hui | modèle commun multi-tâche, la reconstruction 3D du corps humain, la compréhension visuelle de la traduction automatique, étude approfondie Redresseurs
Précédent
l'équipe de Tsinghua re-break! Mis au point le premier système de stockage de résistances intégré mémoire multi-réseau de l'opérateur mondial
Prochain
Entendu! App sera en mesure de surveiller les appels téléphoniques non autorisés, le taux de succès aussi élevé que 90%
Relisant les classiques de Turing, neuf réfutations incitent à la réflexion
Livre d'aujourd'hui | prévision de l'état de la maladie, la taille technique réseau, car les nouvelles titre de production, etc.
Regardez la scène | domestique et internationale température corporelle de mesure multi-sortie de l'aéroport, tous les masques portant sur le plan
Des livres sur le virus et la maladie: l'histoire de la civilisation humaine et la lutte changé
20 autres reconnaissances de dette, il a huit ans
vendeurs illégaux ont été pourchassés par étape sur la première réponse officielle: est une action vraiment radicale
Faux « forces spéciales » fraude près de 200000 femmes ont aussi donné naissance à son enfant
Tout le monde, le prochain Nouvel An lunaire du Rat pour plus d'un cours de mois ......
Li Xiao: trop doux! Un bon départ actions Tiaokonggaokai, la moitié de la valeur de marché a augmenté de 860 milliards, plus de 3300 des stocks augmentent
Ningxia multidimensionnelle pharmaceutiques 5 entreprises pour « l'achat et la vente de médicaments de qualité inférieure » soient punis
cendres de capture - anciennes formations rocheuses de cendres volcaniques magnétiques identifient de nouvelles perspectives