notes de papier de reconnaissance de comportement r�seau beaucoup de fibres

Lei Feng note de r�seau AI Technology Review: Cet article est �crit par Lin Tianwei Shanghai Jiaotong University r�seau Lei Feng AI Technology Review comme des articles exclusifs, ne peuvent �tre reproduites sans autorisation.

classement reconnaissance du comportement / vid�o est une orientation importante dans le domaine de la vid�o pour comprendre. Avant d'apprendre la direction de la profondeur peut �tre divis� en deux cat�gories: l'une est le double du r�seau, � savoir � une image RGB en tant que flux optique 2D et deux branches du r�seau d'entr�e, puis quelque part dans l'int�gration de r�seaux, tels que le type le TSN; aspir� autre multi-trame est consid�r�e comme une image RGB d'entr�e 3D, puis utiliser le r�seau de traitement de convolution 3D, tels que le C3D typique, I3D, artnet similaires (bien entendu, la lumi�re peut �tre le 3D comme entr�e au r�seau de plus effet d'am�lioration).

Le principal probl�me est que la m�thode � deux cat�gories de flux � flux optiques, extrait plus de temps, difficile dans un sc�nario d'application en place effective. Ainsi, pr�s de deux ans de travaux de recherche se concentr�rent davantage sur le r�seau 3D, la question pr�c�dente m�thode de classe 3D comporte deux aspects principaux, l'un est le noyau de convolution de calcul en t�te 3D est relativement grande, et deuxi�mement, il y a de m�thode de classe Shuangliu en vigueur une certaine distance.

Sur ECCV2018, Universit� nationale de Singapour, FAIR et laboratoire 360AI co-auteur des "r�seaux multi-fibres pour la reconnaissance vid�o" , le code, voir PyTorch-MFNet. Ce document principalement un probl�me pour le premier r�seau 3D de la recherche, en particulier, l'objectif de cet article est d'�tre en m�me temps (principalement I3D-RGBmodel standard) pour maintenir l'effet de r�seau, une r�duction significative de FLOPS r�seau afin am�liorer l'efficacit� du r�seau, le r�seau peut obtenir plus de sc�narios d'application 3D. Cet article pr�sente la structure du r�seau un peu comme ShuffleNet sans module de lecture al�atoire de canal, l'id�e de base est d'utiliser groupe Conv r�duire les frais g�n�raux de calcul du r�seau. Avant ne semble pas r�f�rence comment faire le mod�le de la classe pensante travail de classification vid�o mobile, et la quantit� de calcul pour le r�seau de classe 3D est goulot d'�tranglement de base plus important, donc ce travail est d'une grande valeur de r�f�rence.

Ce qui suit a commenc� � introduire le contenu de l'article, s'il vous pla�t me corriger si insuffisante.

motivation

Le noyau de cet article est que la motivation de Sota actuelle du r�seau 3D (tels que I3D et R (2 + 1) r�seau D-34) calculer la quantit� FLOPs sont trop �lev�s. Le r�seau classique convolution 2D ResNet-152 ou le r�seau est probablement vgg-1610+ Gflops, juste mentionn� deux 3D r�seau convolutionnel est atteint 100+ GFLOPS. L'auteur est d'avis que lorsque la quantit� de calcul similaire, en raison du mod�le de r�seau 3D capable d'apprendre des informations suppl�mentaires sur le temps et l'espace, mod�le bas� sur clip (3D fait r�f�rence au r�seau) devrait �tre en mesure d'avoir plus que le mod�le bas� sur les images (2D fait r�f�rence au r�seau) plus de bons r�sultats. Par cons�quent, l'objectif de cet article est l'effet du mod�le 3D tout en conservant la Sota existante, am�liorant consid�rablement l'efficacit� de son r�seau.

r�seau � fibres multiples

Dans la m�thode, l'auteur introduit le principe du module multi-fibres (Unit� multi-fibres), puis tester l'efficacit� de la structure multi-fibres sur un r�seau 2D, et enfin de promouvoir leur r�seau 3D vers le haut.

Module � fibres multiples

Cette figure illustre le processus de changement de ResNet au module multi-fibres.

Structure (a) qui se trouve dans un module simple r�siduel; (b) est le goulot d'�tranglement Multi-Path Type de modules, tels ResNeXt sur l'utilisation de la structure. Dans cette structure, � la fois avant et apr�s une r�duction de la dimension de convolution 1x1 et dimension mont�e, puis les groupes de canaux interm�diaires, qui sont trait�s avec un peu de convolution 3x3. Un tel processus peut r�duire consid�rablement la quantit� de calcul de la couche interm�diaire, mais la couche est encore un grand calcul 1x1 convolution. Ainsi, cet article propose un paquet plus approfondie, � savoir le passage entier conform�ment � un module r�siduel tranch� en une pluralit� de branche parall�le et ind�pendante (appel�e fibre, fibres), en tant que (c) sur la figure. Structure (c), dans le m�me nombre de canaux d'entr�e et de sortie, la quantit� th�orique peut �tre r�duite � une-N, o� N est le nombre de branche ou de la fibre. Acc�l�r�e id�e plus approfondie de ce groupe et ShuffleNet de fait l'an dernier, certains, comme, sauf que ShuffleNet modules de lecture al�atoire de canal a �galement propos�, et dans la couche milieu de la conv profondeur sage.

Le (c) Bien que la structure repr�sent�e dans beaucoup plus efficace, mais le manque d'�change d'informations entre les canaux, peuvent nuire � des r�sultats. Par cons�quent, cet article pr�sente un module multiplexeur est en outre utilis� sous la forme de liaisons r�siduelles entre les fibres des informations de liaison. Le module est en fait une convolution 1x1 � deux couches, la premi�re convolution permettra de r�duire le nombre de canaux � l'un des k points, une convolution deuxi�me dimensions � nouveau, de sorte que la quantit� de calcul est une couche de module 1x1 convolution les k / 2 une minute. Cependant, l'article n'a pas vu la valeur k des param�tres sp�cifiques.

Pour v�rifier l'efficacit� de la structure multi-fibres

Ensuite, l'auteur sur l'exp�rience de classification d'image ensemble de donn�es IMAGEnet-1K pour v�rifier l'efficacit� de la structure multi-fibres du projet. Il existe deux formes principales, une base de ResNet-18 et la ligne de base MobileNet-v2, qui remplacera le module avec des modules � fibres multiples (ici, les d�tails de mise en uvre sp�cifiques ne sont pas s�rs), la seconde est une 2D redessin�e MF-Net la structure de r�seau sp�cifique peut voir les papiers. Les r�sultats exp�rimentaux sont pr�sent�s ci-dessous.

Les r�sultats peuvent �tre vus par ce � l'int�rieur de la table. Structure multi-fibre et sur MobileNet-v2 ResNet-18 peut �tre r�duite dans le cas d'une petite quantit� de calcul et des param�tres pour am�liorer certain effet, elle d�montre l'efficacit� des modules multi-fibres. Et aussi dans le cas de MF-Net et les param�tres de calcul plus bas pour obtenir de bons r�sultats. La derni�re colonne indique l'exp�rience le module Multiplexeur occupera environ 30% du montant calcul�, mais augmenter l'effet est relativement �vident.

3D- r�seau � fibres multiples

Apr�s confirmation de la validit� des modules multi-fibres, la structure multi-fibre d�crite ici sera �tendu au r�seau 3D et 3D propos� MF-Net. Structure modulaire et structure du r�seau 3D MF-Net comme indiqu� ci-dessous:

Comme on le voit, d'un module � fibres multiples structures en 2D et 3D sont fondamentalement les m�mes, sauf que la convolution en trois dimensions a augment� dimension. Afin de r�duire la quantit� de calcul, deux convolution de convolution effectu�e sur une seule distribution.

Les exp�riences de contenu

Dans la partie exp�rimentale, le papier principalement form� � partir de z�ro et peaufin� deux exp�riences, respectivement Cin�tique et UCF101, HMDB51 ensemble de donn�es.

cat�gorie Vid�o -form�es � partir de z�ro

Sur les ensembles de donn�es Kinetics, MF-Net baisser que avant le mod�le 3D est tr�s FLOP beaucoup obtenir de meilleurs r�sultats.

Cat�gorie Vid�o -Fine-�coute Mod�les

Dans cette partie de l'exp�rience, le premier mod�le dans les grands ensembles de donn�es (Kinetics) sur la formation, puis finetune sur un petit ensemble de donn�es (UCF-101, HMDB51). Comme on peut le voir � partir des r�sultats exp�rimentaux, MF-Net avec atteint une petite quantit� de calculs ou d�passe l'effet du courant Sota. premier article figure montre visuellement la relation entre la quantit� de calcul et l'effet peut �tre vu que MF-Net occupe de pr�f�rence le coin sup�rieur gauche, � savoir, une petite quantit� de calcul pour obtenir l'effet de Sota.

R�sum� papier

Cet article est d'optimiser la structure des modules Multi-Path, et utilis� un r�seau de convolution 3D, ce qui am�liore consid�rablement l'efficacit� de la convolution 3D du r�seau. Apr�s l'efficacit� est grandement am�lior�e, en fait, il est plus favorable � notre r�seau continuera de le faire plus complexe et plus efficace, I3D efficace avant, comme vraiment mauvais, il est difficile d'augmenter encore la complexit� (bien s�r, d'autre part offre aussi beaucoup pour tout le monde optimiser l'espace et de l'espace pour les papiers d'�criture ...). D'une part, par l'introduction de techniques d'acc�l�ration du r�seau afin d'optimiser la vitesse du mod�le, d'une part pour am�liorer la capacit� de mod�liser l'effet du mod�le de synchronisation en augmentant le r�seau, devrait �tre l'avenir la recherche Internet 3D un d�veloppement plus �quilibr�, il.

r�f�rences

Chen Y, Y Kalantidis, Li J, et al. Multifibres Networks pour la reconnaissance vid�o // Actes de la Conf�rence europ�enne sur l'ordinateur Vision (ECCV) 2018 :. 352-367.

S Xie, Girshick R, dollar P, et al. Transformations r�siduelles agr�g�es pour les r�seaux de neurones profonds . // Vision par ordinateur et reconnaissance (CVPR), 2017 Conf�rence IEEE sur la norme IEEE 2017: 5987-5995.

Carreira J, Zisserman A. Quo vadis, la reconnaissance de l'action? Un nouveau mod�le et la cin�tique ensemble de donn�es . // Vision par ordinateur et reconnaissance (CVPR), 2017 Conf�rence IEEE sur la norme IEEE 2017: 4724-4733.

Lei Feng r�seau

Route de la soie

Apprenez � conna�tre la Chine

notes de papier de reconnaissance de comportement r�seau beaucoup de fibres | ECCV 2018