Auteur | Jiang Weiwei

Modifier | Jia Wei

Au cours des derni�res ann�es, le r�seau de neurones convolutionnel (CNN) a fait d'�normes progr�s dans le probl�me de la reconnaissance de mouvement vid�o. Cependant, ces m�thodes ont tendance � �tre trop pr�occup� par l'arri�re-plan de la sc�ne, tout en ignorant l'action sp�cifique lui-m�me. Comme le montre la figure 1, alors que l'action humaine a �t� bloqu�e dans l'image, on peut encore d�duire le type d'action le plus probable par la sc�ne. Pour le mod�le de r�seau neuronal convolutif, �tant donn� le type d'op�ration en reconnaissant la sc�ne est la sc�ne in�vitablement des �carts.

Figure 1. Bien que pas vu la figure, nous pouvons encore d�duire une action sp�cifique par la sc�ne.

Cet �cart de sc�nario dans certains cas, peut provoquer le mod�le pour produire l'effet que nous ne voulons pas voir. La figure 2 montre, � gauche, depuis le stade de baseball de fond, les gens qui chantent seront mal � jouer pr�dit baseball, mais dans le droit, m�me si on nage compl�tement bloqu�, le mod�le sera � cause de la piscine arri�re-plan de l'identification, les r�sultats de pr�vision sont la natation donn�e.

Figure 2. �tude incitation � l'algorithme de polarisation.

La recherche sur l'�limination de la sc�ne de polarisation est encore relativement faible, ce NeurIPS 2019 publi� dans le document pr�sente la suite d'une �tude bas�e sur la migration des programmes visant � att�nuer l'�cart de la sc�ne.

Documents lien: https: //arxiv.org/pdf/1912.05534.pdf

La contribution de cet article est de proposer une perte d�finir deux sc�narios visant � r�duire l'�cart dans le mod�le de pr�-formation de CNN:

1) contre sc�ne pertes (sc�ne de perte contradictoire), encourager l'apprentissage repr�sentation fonction invariante sc�ne mod�le;

2) la perte de confusion bouclier humain (perte de confusion masque humain), le mod�le est toujours donn� pour emp�cher l'action dans le corps humain ne sont pas visibles de pr�dire quand.

Afin de v�rifier l'efficacit� du syst�me propos�, le journal a publi� la t�che de comprendre l'exp�rience de trois actions: la classification d'action, lieu et du moment de la reconnaissance de mouvement espace-temps d'action. Les r�sultats exp�rimentaux montrent que la performance que le programme d'apprentissage transfert de mod�le de r�f�rence mieux �cart supprim�.

Un programme

R�duire la sc�ne de d�viation Ce document pr�sente le mode de r�alisation repr�sent� sur la Fig.

Figure 3. Caract�risation du protocole de suppression de polarisation d'apprentissage de la sc�ne vid�o.

L'objectif de ce programme est de param�tres pr�-formation sur une grande t�ches de classification vid�o, l'apprentissage extracteur de caract�ristiques. Dans ce processus, les auteurs ont utilis� trois fonctions de perte. Tout d'abord, les ensembles de donn�es Mini-Kinetics-200, gr�ce � une fonction standard de perte d'entropie crois�e

Former le classement d'action. On ajoute ensuite une sc�ne contre la perte

De cette qualification ne peut �tre d�duit sc�ne appris. Enfin, en utilisant le masque �tre d�tect� R-CNN et le corps de l'obturateur, constitu� d'un ensemble de donn�es est bloqu�, le blocage et l'application de pertes humaines confondu

En second lieu, le dispositif exp�rimental

Ce document r�alis� sur la t�che de comprendre l'exp�rience de trois actions: la classification d'action, lieu et du moment de la reconnaissance de mouvement espace-temps d'action. L'ensemble de donn�es utilis�e est la suivante:

1) Pr�-formation: Mini-Kinetics-200, contenant 80000 vid�os de formation et 5000 vid�o v�rificateurs.

2) Cat�gorie d'action: UCF-101, contient 13.320 vid�o 101, l'op�ration correspondant � la cat�gorie; BDMH-51, contient 6766 vid�o 51 op�ration correspondant � la cat�gorie; Diving48, contient 48 types d'op�ration de conduite 18000 vid�o . Pour les deux premiers ensembles de donn�es, en utilisant un ensemble sch�ma de partitionnement formation / test pr�c�dent document de travail.

3) S�quence de fonctionnement Positionnement: Thumos-14, comprenant 20 types d'action avec une estampille temporelle et de la cat�gorie.

4) la reconnaissance de mouvement temporel: JHMDB, 928 contient 21 types de fonctionnement vid�o, ont chaque op�ration � identifier la l�gende bo�te.

Ce document utilise une partie du mod�le pr�c�dent, combin� avec la sc�ne du programme de suppression de polarisation propos�e. Dans la phase de pr�-formation, le papier � l'aide d'un 3D-ResNet-18. Pour la reconnaissance de mouvement temporel, ce document utilise un mod�le bas� sur VGG-16.

Les r�sultats exp�rimentaux sur le fonctionnement des t�ches de classification est indiqu�e dans le tableau 1. En �vacuant les augmentations d'op�ration de d�viation, les performances des trois ensembles de donn�es sont am�lior�es.

Tableau 1. Pr�cision t�che de classification d'action. Les r�sultats moyens des diff�rentes fa�ons de diviser l'analyse UCF-101 et BDMH-51.

La figure 4 montre �galement la pr�cision relative d'une corr�lation n�gative entre la d�viation de la caract�risation de la sc�ne de levage. Vous pouvez le voir dans l'ensemble de donn�es plus d'�cart de la sc�ne, plus l'ascenseur pour amener l'algorithme de d�viation.

4. La figure am�liorer la pr�cision de la caract�risation de la sc�ne est relativement corr�lation n�gative entre l'�cart. UCF-101 de mani�re diff�rente division BDMH-51 aura des r�sultats diff�rents.

Les tableaux 2 et 3 sont donn�s les r�sultats exp�rimentaux sur l'op�ration de positionnement et de synchronisation des t�ches de reconnaissance de mouvement temporels. Sur les deux t�ches, sc�ne Ce programme de suppression pr�sente en papier des �carts peut am�liorer les performances du mod�le de r�f�rence.

Tableau 2. R�sultats exp�rimentaux Le calendrier de positionnement.

Tableau 3. R�sultats exp�rimentaux reconnaissance de mouvement temporel.

BDMH-51 dans l'ensemble de donn�es, pour am�liorer encore les �tiquettes en papier et les diff�rents sc�narios o� les combinaisons de fonctions de perte de mannequin. Le tableau 4 d�montrent la fa�on dont l'utilisation de la sc�ne soft label peut mieux am�liorer les performances, tandis que le tableau 5 montrent les sc�narios d'utilisation contre la perte et la perte peut confondre le corps obscurci la plus grande am�lioration de la performance.

Tableau 4. Effet de diff�rents sc�narios tags.

Tableau 5. Effet des diff�rentes combinaisons de perte de fonction.

Pour v�rifier davantage la validit� du r�gime d'annulation de polarisation de la sc�ne propos�e, le document est analys� sur la base des cartes d'activation BDMH-51 UCF-101 et deux ensembles de donn�es, comme le montre la figure. Les r�sultats ont montr� que, lorsqu'ils ne sont pas utilis�s pour �liminer la sc�ne de polarisation, le mod�le parce que trop d'attention � la sc�ne plut�t que de l'erreur humaine a conduit � la classification et � l'utilisation des coulisses pour �liminer les biais, le mod�le peut �tre plus pr�occup� par le corps humain lui-m�me, pour donner la cat�gorie d'action correcte.

5. BDMH-51 sur la figure classe UCF-101 et active un exemple de cartographie de deux ensembles de donn�es. la police indique que le bleu soulign� classification correcte, alors que la police rouge au nom de classification erron�e.

CONCLUSIONS

Ce document concerne le probl�me de quelques �tudes ant�rieures impliqu�s, � savoir la reconnaissance de mouvement de d�viation de fond �liminer le probl�me et propose une solution efficace, y compris la perte de deux nouvelle d�finition propos�e de cette sc�ne contre la perte et le bouclier humain perte de confusion. Dans l'action de classification, le fonctionnement de la s�quence d'action pour localiser et identifier trois types d'espace-temps, un grand nombre d'exp�riences sur diff�rentes t�ches montrent l'efficacit� du syst�me propos� dans le pr�sent document.

r�f�rence:

�Saining Xie, Chen Sun, Jonathan Huang, Zhuowen Tu, et Kevin Murphy. Repenser l'apprentissage des fonctionnalit�s pour la compr�hension spatiotemporelle vid�o. En ECCV 2018.

�Il Kaiming, G�orgie Gkioxari, Piotr DOLLAR, et Ross Girshick. Masque R-CNN. En ICCV 2017.

�Khurram Soomro, Amir Roshan Zamir et Mubarak Shah UCF101 :. Un ensemble de donn�es de 101 classes d'actions humaines de vid�os dans la nature arXiv pr�publication arXiv :. 1212,0402, 2012.

�. Hildegarde Kuehne, Hueihan Jhuang, Est�baliz Garrot, Tomaso Poggio et Thomas Serre BDMH: Une grande base de donn�es vid�o pour la reconnaissance du mouvement humain En ICCV 2011 ..

�Yingwei Li, Yi Li, et Nuno Vasconcelos Resound: .. Vers une reconnaissance de l'action sans biais de repr�sentation dans ECCV 2018.

�. Y.-G. Jiang, J. Liu, A. Roshan Zamir, G. Toderici, I. Laptev, M. Shah, et R. Sukthankar Thumos d�fi: la reconnaissance d'action avec un grand nombre de classes http :. // CRCV .ucf.edu / THUMOS14 / 2014.

�Hueihan Jhuang, Juergen Gall, Silvia Zuffi, Cordelia Schmid et Michael J Noir. Vers une reconnaissance de l'action compr�hension. En ICCV 2013.

�Kensho Hara, Hirokatsu Kataoka et Yutaka Satoh. Can spatiotemporelle 3d CNNs retracent l'histoire de CNNs 2d et IMAGEnet? En CVPR 2018.

�Gurkirt Singh, Suman Saha et Fabio CUZZOLIN. Temps r�el en ligne multiple localisation d'action spatio-temporelle et la pr�vision sur une seule plate-forme. En ICCV 2017.

Route de la soie

Apprenez � conna�tre la Chine

Et les sc�nes d'action ne doivent pas lier �troitement, de r�duire l'�cart de la sc�ne, sera en mesure d'identifier facilement le centre commercial chant danse Stade

En second lieu, le dispositif exp�rimental