notes de papier de reconnaissance de comportement réseau beaucoup de fibres | ECCV 2018

Lei Feng note de réseau AI Technology Review: Cet article est écrit par Lin Tianwei Shanghai Jiaotong University réseau Lei Feng AI Technology Review comme des articles exclusifs, ne peuvent être reproduites sans autorisation.

classement reconnaissance du comportement / vidéo est une orientation importante dans le domaine de la vidéo pour comprendre. Avant d'apprendre la direction de la profondeur peut être divisé en deux catégories: l'une est le double du réseau, à savoir à une image RGB en tant que flux optique 2D et deux branches du réseau d'entrée, puis quelque part dans l'intégration de réseaux, tels que le type le TSN; aspiré autre multi-trame est considérée comme une image RGB d'entrée 3D, puis utiliser le réseau de traitement de convolution 3D, tels que le C3D typique, I3D, artnet similaires (bien entendu, la lumière peut être le 3D comme entrée au réseau de plus effet d'amélioration).

Le principal problème est que la méthode à deux catégories de flux à flux optiques, extrait plus de temps, difficile dans un scénario d'application en place effective. Ainsi, près de deux ans de travaux de recherche se concentrèrent davantage sur le réseau 3D, la question précédente méthode de classe 3D comporte deux aspects principaux, l'un est le noyau de convolution de calcul en tête 3D est relativement grande, et deuxièmement, il y a de méthode de classe Shuangliu en vigueur une certaine distance.

Sur ECCV2018, Université nationale de Singapour, FAIR et laboratoire 360AI co-auteur des "réseaux multi-fibres pour la reconnaissance vidéo" , le code, voir PyTorch-MFNet. Ce document principalement un problème pour le premier réseau 3D de la recherche, en particulier, l'objectif de cet article est d'être en même temps (principalement I3D-RGBmodel standard) pour maintenir l'effet de réseau, une réduction significative de FLOPS réseau afin améliorer l'efficacité du réseau, le réseau peut obtenir plus de scénarios d'application 3D. Cet article présente la structure du réseau un peu comme ShuffleNet sans module de lecture aléatoire de canal, l'idée de base est d'utiliser groupe Conv réduire les frais généraux de calcul du réseau. Avant ne semble pas référence comment faire le modèle de la classe pensante travail de classification vidéo mobile, et la quantité de calcul pour le réseau de classe 3D est goulot d'étranglement de base plus important, donc ce travail est d'une grande valeur de référence.

Ce qui suit a commencé à introduire le contenu de l'article, s'il vous plaît me corriger si insuffisante.

motivation

Le noyau de cet article est que la motivation de Sota actuelle du réseau 3D (tels que I3D et R (2 + 1) réseau D-34) calculer la quantité FLOPs sont trop élevés. Le réseau classique convolution 2D ResNet-152 ou le réseau est probablement vgg-1610+ Gflops, juste mentionné deux 3D réseau convolutionnel est atteint 100+ GFLOPS. L'auteur est d'avis que lorsque la quantité de calcul similaire, en raison du modèle de réseau 3D capable d'apprendre des informations supplémentaires sur le temps et l'espace, modèle basé sur clip (3D fait référence au réseau) devrait être en mesure d'avoir plus que le modèle basé sur les images (2D fait référence au réseau) plus de bons résultats. Par conséquent, l'objectif de cet article est l'effet du modèle 3D tout en conservant la Sota existante, améliorant considérablement l'efficacité de son réseau.

réseau à fibres multiples

Dans la méthode, l'auteur introduit le principe du module multi-fibres (Unité multi-fibres), puis tester l'efficacité de la structure multi-fibres sur un réseau 2D, et enfin de promouvoir leur réseau 3D vers le haut.

Module à fibres multiples

Cette figure illustre le processus de changement de ResNet au module multi-fibres.

Structure (a) qui se trouve dans un module simple résiduel; (b) est le goulot d'étranglement Multi-Path Type de modules, tels ResNeXt sur l'utilisation de la structure. Dans cette structure, à la fois avant et après une réduction de la dimension de convolution 1x1 et dimension montée, puis les groupes de canaux intermédiaires, qui sont traités avec un peu de convolution 3x3. Un tel processus peut réduire considérablement la quantité de calcul de la couche intermédiaire, mais la couche est encore un grand calcul 1x1 convolution. Ainsi, cet article propose un paquet plus approfondie, à savoir le passage entier conformément à un module résiduel tranché en une pluralité de branche parallèle et indépendante (appelée fibre, fibres), en tant que (c) sur la figure. Structure (c), dans le même nombre de canaux d'entrée et de sortie, la quantité théorique peut être réduite à une-N, où N est le nombre de branche ou de la fibre. Accélérée idée plus approfondie de ce groupe et ShuffleNet de fait l'an dernier, certains, comme, sauf que ShuffleNet modules de lecture aléatoire de canal a également proposé, et dans la couche milieu de la conv profondeur sage.

Le (c) Bien que la structure représentée dans beaucoup plus efficace, mais le manque d'échange d'informations entre les canaux, peuvent nuire à des résultats. Par conséquent, cet article présente un module multiplexeur est en outre utilisé sous la forme de liaisons résiduelles entre les fibres des informations de liaison. Le module est en fait une convolution 1x1 à deux couches, la première convolution permettra de réduire le nombre de canaux à l'un des k points, une convolution deuxième dimensions à nouveau, de sorte que la quantité de calcul est une couche de module 1x1 convolution les k / 2 une minute. Cependant, l'article n'a pas vu la valeur k des paramètres spécifiques.

Pour vérifier l'efficacité de la structure multi-fibres

Ensuite, l'auteur sur l'expérience de classification d'image ensemble de données IMAGEnet-1K pour vérifier l'efficacité de la structure multi-fibres du projet. Il existe deux formes principales, une base de ResNet-18 et la ligne de base MobileNet-v2, qui remplacera le module avec des modules à fibres multiples (ici, les détails de mise en uvre spécifiques ne sont pas sûrs), la seconde est une 2D redessinée MF-Net la structure de réseau spécifique peut voir les papiers. Les résultats expérimentaux sont présentés ci-dessous.

Les résultats peuvent être vus par ce à l'intérieur de la table. Structure multi-fibre et sur MobileNet-v2 ResNet-18 peut être réduite dans le cas d'une petite quantité de calcul et des paramètres pour améliorer certain effet, elle démontre l'efficacité des modules multi-fibres. Et aussi dans le cas de MF-Net et les paramètres de calcul plus bas pour obtenir de bons résultats. La dernière colonne indique l'expérience le module Multiplexeur occupera environ 30% du montant calculé, mais augmenter l'effet est relativement évident.

3D- réseau à fibres multiples

Après confirmation de la validité des modules multi-fibres, la structure multi-fibre décrite ici sera étendu au réseau 3D et 3D proposé MF-Net. Structure modulaire et structure du réseau 3D MF-Net comme indiqué ci-dessous:

Comme on le voit, d'un module à fibres multiples structures en 2D et 3D sont fondamentalement les mêmes, sauf que la convolution en trois dimensions a augmenté dimension. Afin de réduire la quantité de calcul, deux convolution de convolution effectuée sur une seule distribution.

Les expériences de contenu

Dans la partie expérimentale, le papier principalement formé à partir de zéro et peaufiné deux expériences, respectivement Cinétique et UCF101, HMDB51 ensemble de données.

catégorie Vidéo -formées à partir de zéro

Sur les ensembles de données Kinetics, MF-Net baisser que avant le modèle 3D est très FLOP beaucoup obtenir de meilleurs résultats.

Catégorie Vidéo -Fine-écoute Modèles

Dans cette partie de l'expérience, le premier modèle dans les grands ensembles de données (Kinetics) sur la formation, puis finetune sur un petit ensemble de données (UCF-101, HMDB51). Comme on peut le voir à partir des résultats expérimentaux, MF-Net avec atteint une petite quantité de calculs ou dépasse l'effet du courant Sota. premier article figure montre visuellement la relation entre la quantité de calcul et l'effet peut être vu que MF-Net occupe de préférence le coin supérieur gauche, à savoir, une petite quantité de calcul pour obtenir l'effet de Sota.

Résumé papier

Cet article est d'optimiser la structure des modules Multi-Path, et utilisé un réseau de convolution 3D, ce qui améliore considérablement l'efficacité de la convolution 3D du réseau. Après l'efficacité est grandement améliorée, en fait, il est plus favorable à notre réseau continuera de le faire plus complexe et plus efficace, I3D efficace avant, comme vraiment mauvais, il est difficile d'augmenter encore la complexité (bien sûr, d'autre part offre aussi beaucoup pour tout le monde optimiser l'espace et de l'espace pour les papiers d'écriture ...). D'une part, par l'introduction de techniques d'accélération du réseau afin d'optimiser la vitesse du modèle, d'une part pour améliorer la capacité de modéliser l'effet du modèle de synchronisation en augmentant le réseau, devrait être l'avenir la recherche Internet 3D un développement plus équilibré, il.

références

Chen Y, Y Kalantidis, Li J, et al. Multifibres Networks pour la reconnaissance vidéo // Actes de la Conférence européenne sur l'ordinateur Vision (ECCV) 2018 :. 352-367.

S Xie, Girshick R, dollar P, et al. Transformations résiduelles agrégées pour les réseaux de neurones profonds . // Vision par ordinateur et reconnaissance (CVPR), 2017 Conférence IEEE sur la norme IEEE 2017: 5987-5995.

Carreira J, Zisserman A. Quo vadis, la reconnaissance de l'action? Un nouveau modèle et la cinétique ensemble de données . // Vision par ordinateur et reconnaissance (CVPR), 2017 Conférence IEEE sur la norme IEEE 2017: 4724-4733.

Lei Feng réseau

Possibilité de force du spectacle viennent enfin? ! Maintenant, ce NIKE Gakou Flyknit vous donner l'occasion de le faire vous-même bricolage!
Précédent
Les parents de la musique, les enfants pleuraient: « King of Glory » restrictions de temps d'ouverture de session pour les mineurs
Prochain
De plus, cette équipe batailles de jeu, Gao Jianli fortes avec la vache magique
2017 Shanghai Auto Show exploration Pavillon: Wuling voiture Hongguang exposition réelle S3
Les attaques de phishing utilisent des extensions de navigateur pour outil malveillant obfuscate SingleFile page de connexion
« Captain Marvel » Le communiqué d'aujourd'hui à la boîte réputation de bureau à la fois inversion de héros le plus fort chaud illimité joué avec 4 doubles compte à rebours de choc
Comment créer une voiture intelligente? BYD, Volvo et d'autres experts dans le domaine de la recherche détaillée des voitures en Chi | 2018 Sommet mondial de conduite intelligente
Gloire Roi et sauvage cinq récoltes, les résidus de récolte, tels que le sang sur les navires creeps
2017 Shanghai Auto Show exploration Pavillon: premier break de Baojun 310W
« London Blue » attaques organisées contre la fraude en Asie BEC
« Captain Marvel » Ying Éclairer-haut, IMAX grand écran, relâchez la force Marvel héroïne surprenante
Midday Nouvelles Star | entrevue Nouvelles en amont bédéistes Jiang Kun: les jeunes stars de l'art folklorique traditionnel peut être activée la vitalité de la fraîcheur, blessant plusieurs fois, inc
Cette version double EQT de chaussures blanches à queue bleue des valeurs de couleur sont secondes pour vous?
Le Rocher Singe Roi de gloire, ne laissant aucune trace de lumière pic