Evolution de la fr�quence de r�seau direction de convolution de domaine: OctConv obtenir une pr�cision plus �lev�e avec moins de puissance de calcul

Lei Feng r�seau par AI Technology Review: Ces derniers jours, une am�lioration des r�seaux de convolution de papier n'a pas caus� de petite pr�occupation et de discussion. En bref, l'op�ration de convolution papier traditionnel pour faire simple am�lioration g�n�rale, il a gagn� aussi une consommation de puissance de calcul plus faible et une plus grande pr�cision. Bien connu chercheur d'apprentissage machine, � P�re GAN de � Ian Goodfellow publiquement fait l'�loge tweet� que le papier.

Un pour cet article est Chen Yunpeng, en train de lire l'�tudiant au doctorat derni�re ann�e � l'Universit� nationale de Singapour (NUS), a �t� son mentor quand Feng Jia Yan, professeur adjoint et professeur agr�g� en eau. Auparavant, Chen Yunpeng � l'Universit� Huazhong des Sciences et a travaill� de la titulaire d'un baccalaur�at en tant que chercheur adjoint � l'Universit� de Hong Kong, ne chercheur dans le d�partement de la machine appliqu�e apprentissage Facebook (Facebook AML). Apr�s avoir �t� dipl�m� de l'Universit� nationale de Singapour, Chen Yunpeng sera cette ann�e officiellement rejoint Facebook, devenir chercheur.

Le r�seau suivant Lei Feng AI Technology Review bri�vement expliquer le contenu principal du document.

(Une seule octave: r�duire la redondance spatiale par r�seau neuronal convolutif Octave Convoluation)

r�seau de neurones convolutionnel (CNN) dans de nombreuses t�ches de vision par ordinateur sont atteints un succ�s sans pr�c�dent, et l'�tude r�cente de la redondance inh�rente � l'am�lioration de fonction canal carte des param�tres du mod�le intensif et les dimensions, l'efficacit� de CNN a �galement �t� augmenter. Cependant, la carte CNN fonction g�n�r�e il y a encore une redondance spatiale importante, en particulier, la carte de caract�ristique de chaque emplacement que stocker votre propre descripteur de fonction ind�pendante, mais en fait sera stock�e position adjacente � une partie de la m�me l'information, ces informations peuvent �tre stock�es et trait�es collectivement.

La figure 1 - (a) Point de d�part: mod�le de domaine spatial selon la fr�quence d'image visuellement naturel peut �tre d�compos� en une partie � basse fr�quence et une partie � haute fr�quence

Figure 1 - dans laquelle (b) de la couche de sortie de convolution peut �tre d�compos� et regroup�es en fonction des diff�rentes fr�quences spatiales. caract�ristique multi-fr�quence (c) caract�risant le document propose un diagramme caract�ristique de basse fr�quence stock�e dans la faible r�solution tenseur variant r�guli�rement, ce qui r�duit la redondance spatiale. (D) propos� dans le document directement sur le fonctionnement Octave Convoluation Cette caract�risation, il mettra � jour les informations contenues dans chaque groupe, et permet en outre l'�change d'informations entre les diff�rents groupes.

Comme la partie sup�rieure de la figure 1 -. (A) comme repr�sent�, une image naturelle peut �tre d�compos� en partie basse fr�quence spatiale et une composantes de fr�quences spatiales �lev�es, le premier d�crit une structure variant de fa�on r�guli�re, qui d�crit les d�tails de l'image en �volution rapide. De m�me, les auteurs ont propos�, dans lequel la sortie de la couche de la figure convolutif peut �galement �tre divis� en parties ayant diff�rentes fr�quences spatiales, et a propos� une nouvelle caract�riser multi-fr�quence, qui sont stock�es dans les groupes haut et s�par� � basse fr�quence caract�ristique figure, la figure 1 -. (b) repr�sent� sur la figure. Ainsi, la r�solution spatiale du groupe basse fr�quence peut �tre r�duite en toute s�curit�, ce qui r�duit la redondance spatiale par le biais de l'�change d'information entre des positions adjacentes, comme repr�sent� sur la figure 1 - (c) repr�sent� sur la figure. Pour repr�senter cette nouvelle caract�ristique de la m�thode est compatible, des auteurs de la g�n�ralisation de convolution originale propos�e Octave Convolution (OctConv), son entr�e est des caract�ristiques de haute et basse fr�quence de la figure tenseur contenant, puis directement � partir de caract�ristique figure l'extraction d'informations basse fr�quence n'a pas besoin de le d�coder retour � haute fr�quence, comme le montre la figure 1 - (d) repr�sent� sur la figure.

Comme alternative � la convolution de l'op�ration initiale, le stockage et les ressources informatiques OctConv ont consomm� beaucoup moins. Pendant ce temps, les informations de basse fr�quence utilis�e lors du traitement d'une basse fr�quence convolution OctConv correspondant, cette approche augmente consid�rablement la taille per�ue du domaine spatial de pixels d'origine, il peut am�liorer les performances de reconnaissance.

Les auteurs ont mis la conception OctConv pour une approche commune, il peut �tre utilis� comme un remplacement direct pour l'op�ration de convolution de convolution de r�seau existant. �tant donn� que l'accent OctConv est trait�e sur diff�rentes caract�ristiques de fr�quence spatiale et la r�duction de la redondance spatiale figure, elle forme un compl�ment � diverses modifications existant autre syst�me de r�seau CNN direction; proc�d� classique comprenant une meilleure topologie la structure, ce qui r�duit la redondance canal convolutif dispose sur les dessins, afin de r�duire les param�tres du mod�le de redondance comme intensit�.

Les auteurs ont �galement discut� de la fa�on d'int�grer davantage OctConv dans un paquet, en profondeur d'abord, et en trois dimensions cas de convolution. De plus, les tentatives d'exploiter les m�thodes multi-�chelles et diff�rentes informations, OctConv peut facilement remplacer l'op�ration de convolution d'origine, n�cessaire de changer la structure du r�seau ou un ajustement super param�tre.

exp�riences de papier ont montr� que le simple remplacement de la convolution originale est OctConv, nous pouvons am�liorer les performances d'une vari�t� de stable populaire � deux dimensions r�seau f�d�rateur CNN, y compris ResNet, ResNeXt, DenseNet, MobileNet, Se-Net sur la IMAGEnet reconnaissance d'image tridimensionnelle, et C2D, la reconnaissance de mouvements I3D sur un ensemble de donn�es Kinetics vid�o en trois dimensions. ResNet-152 OctConv apr�s un lifting peut atteindre les performances des plus conception manuelle avanc�e du r�seau, de stockage et de calcul alors que la consommation doivent �tre beaucoup plus petite.

papier d'origine: https: //arxiv.org/abs/1904.05049, le code correspondant dans un proche avenir, ouvrira ses portes sur GitHub. Lei Feng r�seau compil� AI Technology Review

Route de la soie

Apprenez � conna�tre la Chine

Evolution de la fr�quence de r�seau direction de convolution de domaine: OctConv obtenir une pr�cision plus �lev�e avec moins de puissance de calcul