Evolution de la fréquence de réseau direction de convolution de domaine: OctConv obtenir une précision plus élevée avec moins de puissance de calcul

Lei Feng réseau par AI Technology Review: Ces derniers jours, une amélioration des réseaux de convolution de papier n'a pas causé de petite préoccupation et de discussion. En bref, l'opération de convolution papier traditionnel pour faire simple amélioration générale, il a gagné aussi une consommation de puissance de calcul plus faible et une plus grande précision. Bien connu chercheur d'apprentissage machine, « Père GAN de » Ian Goodfellow publiquement fait l'éloge tweeté que le papier.

Un pour cet article est Chen Yunpeng, en train de lire l'étudiant au doctorat dernière année à l'Université nationale de Singapour (NUS), a été son mentor quand Feng Jia Yan, professeur adjoint et professeur agrégé en eau. Auparavant, Chen Yunpeng à l'Université Huazhong des Sciences et a travaillé de la titulaire d'un baccalauréat en tant que chercheur adjoint à l'Université de Hong Kong, ne chercheur dans le département de la machine appliquée apprentissage Facebook (Facebook AML). Après avoir été diplômé de l'Université nationale de Singapour, Chen Yunpeng sera cette année officiellement rejoint Facebook, devenir chercheur.

Le réseau suivant Lei Feng AI Technology Review brièvement expliquer le contenu principal du document.

(Une seule octave: réduire la redondance spatiale par réseau neuronal convolutif Octave Convoluation)

réseau de neurones convolutionnel (CNN) dans de nombreuses tâches de vision par ordinateur sont atteints un succès sans précédent, et l'étude récente de la redondance inhérente à l'amélioration de fonction canal carte des paramètres du modèle intensif et les dimensions, l'efficacité de CNN a également été augmenter. Cependant, la carte CNN fonction générée il y a encore une redondance spatiale importante, en particulier, la carte de caractéristique de chaque emplacement que stocker votre propre descripteur de fonction indépendante, mais en fait sera stockée position adjacente à une partie de la même l'information, ces informations peuvent être stockées et traitées collectivement.

La figure 1 - (a) Point de départ: modèle de domaine spatial selon la fréquence d'image visuellement naturel peut être décomposé en une partie à basse fréquence et une partie à haute fréquence

Figure 1 - dans laquelle (b) de la couche de sortie de convolution peut être décomposé et regroupées en fonction des différentes fréquences spatiales. caractéristique multi-fréquence (c) caractérisant le document propose un diagramme caractéristique de basse fréquence stockée dans la faible résolution tenseur variant régulièrement, ce qui réduit la redondance spatiale. (D) proposé dans le document directement sur le fonctionnement Octave Convoluation Cette caractérisation, il mettra à jour les informations contenues dans chaque groupe, et permet en outre l'échange d'informations entre les différents groupes.

Comme la partie supérieure de la figure 1 -. (A) comme représenté, une image naturelle peut être décomposé en partie basse fréquence spatiale et une composantes de fréquences spatiales élevées, le premier décrit une structure variant de façon régulière, qui décrit les détails de l'image en évolution rapide. De même, les auteurs ont proposé, dans lequel la sortie de la couche de la figure convolutif peut également être divisé en parties ayant différentes fréquences spatiales, et a proposé une nouvelle caractériser multi-fréquence, qui sont stockées dans les groupes haut et séparé à basse fréquence caractéristique figure, la figure 1 -. (b) représenté sur la figure. Ainsi, la résolution spatiale du groupe basse fréquence peut être réduite en toute sécurité, ce qui réduit la redondance spatiale par le biais de l'échange d'information entre des positions adjacentes, comme représenté sur la figure 1 - (c) représenté sur la figure. Pour représenter cette nouvelle caractéristique de la méthode est compatible, des auteurs de la généralisation de convolution originale proposée Octave Convolution (OctConv), son entrée est des caractéristiques de haute et basse fréquence de la figure tenseur contenant, puis directement à partir de caractéristique figure l'extraction d'informations basse fréquence n'a pas besoin de le décoder retour à haute fréquence, comme le montre la figure 1 - (d) représenté sur la figure.

Comme alternative à la convolution de l'opération initiale, le stockage et les ressources informatiques OctConv ont consommé beaucoup moins. Pendant ce temps, les informations de basse fréquence utilisée lors du traitement d'une basse fréquence convolution OctConv correspondant, cette approche augmente considérablement la taille perçue du domaine spatial de pixels d'origine, il peut améliorer les performances de reconnaissance.

Les auteurs ont mis la conception OctConv pour une approche commune, il peut être utilisé comme un remplacement direct pour l'opération de convolution de convolution de réseau existant. Étant donné que l'accent OctConv est traitée sur différentes caractéristiques de fréquence spatiale et la réduction de la redondance spatiale figure, elle forme un complément à diverses modifications existant autre système de réseau CNN direction; procédé classique comprenant une meilleure topologie la structure, ce qui réduit la redondance canal convolutif dispose sur les dessins, afin de réduire les paramètres du modèle de redondance comme intensité.

Les auteurs ont également discuté de la façon d'intégrer davantage OctConv dans un paquet, en profondeur d'abord, et en trois dimensions cas de convolution. De plus, les tentatives d'exploiter les méthodes multi-échelles et différentes informations, OctConv peut facilement remplacer l'opération de convolution d'origine, nécessaire de changer la structure du réseau ou un ajustement super paramètre.

expériences de papier ont montré que le simple remplacement de la convolution originale est OctConv, nous pouvons améliorer les performances d'une variété de stable populaire à deux dimensions réseau fédérateur CNN, y compris ResNet, ResNeXt, DenseNet, MobileNet, Se-Net sur la IMAGEnet reconnaissance d'image tridimensionnelle, et C2D, la reconnaissance de mouvements I3D sur un ensemble de données Kinetics vidéo en trois dimensions. ResNet-152 OctConv après un lifting peut atteindre les performances des plus conception manuelle avancée du réseau, de stockage et de calcul alors que la consommation doivent être beaucoup plus petite.

papier d'origine: https: //arxiv.org/abs/1904.05049, le code correspondant dans un proche avenir, ouvrira ses portes sur GitHub. Lei Feng réseau compilé AI Technology Review

Tesla histoire de la plus importante conférence? Elon essais musc, le programme de conduite automatique
Précédent
Exclusive | SDK placement mystérieux produit Baidu brosse noire des milliers de APP
Prochain
« Amazon en Chine a raccroché » recherche à chaud sur l'exposition nette promouvoir Clearance aujourd'hui! Vous la prenez?
Dessin films étrangers, en singes, neuf série ...... 9 diplomates écoutant les élèves parlent histoire chinoise
Ada mot exposer la situation économique, les amis Hu peur sans voix, mortifié Huang
Cent ans il y a là des photos de faux, l'impératrice douairière Cixi, Yuan ont été PS
la plus belle femme noire, avec une figure délicate face diable, comme les elfes du monde!
les étudiants féminins ne paraissent pas, les exigences Screeners Dissolvant voiture, a été suspendu!
! Sans précédent Complexe avec 4 billets de cinéma et Marvel Iron Man volé les deux robots explosent!
Property Watch | village propriété « pleine lune », peut rendre l'environnement « urbanisation »?
Rumeur disposition sur l'affiche! « Suivant » et « ancien 4 » rupture nette
Rui Heureusement, Betta marché des États-Unis, d'abord publié par bit tiré proportionnelle, avocat LiuJiangDong confirmé appartements vidéo | Lei Feng Matin
Lang Lang fortement recommandé, avec Hu Jun! « Les musiciens » ont joué le chant du cygne de la rivière Jaune
amis Zhao Liying Huang Bin décollent: à la fin ce qui est arrivé?