Lei Feng réseau par AI Technology Review: Ces derniers jours, une amélioration des réseaux de convolution de papier n'a pas causé de petite préoccupation et de discussion. En bref, l'opération de convolution papier traditionnel pour faire simple amélioration générale, il a gagné aussi une consommation de puissance de calcul plus faible et une plus grande précision. Bien connu chercheur d'apprentissage machine, « Père GAN de » Ian Goodfellow publiquement fait l'éloge tweeté que le papier.
Un pour cet article est Chen Yunpeng, en train de lire l'étudiant au doctorat dernière année à l'Université nationale de Singapour (NUS), a été son mentor quand Feng Jia Yan, professeur adjoint et professeur agrégé en eau. Auparavant, Chen Yunpeng à l'Université Huazhong des Sciences et a travaillé de la titulaire d'un baccalauréat en tant que chercheur adjoint à l'Université de Hong Kong, ne chercheur dans le département de la machine appliquée apprentissage Facebook (Facebook AML). Après avoir été diplômé de l'Université nationale de Singapour, Chen Yunpeng sera cette année officiellement rejoint Facebook, devenir chercheur.
Le réseau suivant Lei Feng AI Technology Review brièvement expliquer le contenu principal du document.
(Une seule octave: réduire la redondance spatiale par réseau neuronal convolutif Octave Convoluation)
réseau de neurones convolutionnel (CNN) dans de nombreuses tâches de vision par ordinateur sont atteints un succès sans précédent, et l'étude récente de la redondance inhérente à l'amélioration de fonction canal carte des paramètres du modèle intensif et les dimensions, l'efficacité de CNN a également été augmenter. Cependant, la carte CNN fonction générée il y a encore une redondance spatiale importante, en particulier, la carte de caractéristique de chaque emplacement que stocker votre propre descripteur de fonction indépendante, mais en fait sera stockée position adjacente à une partie de la même l'information, ces informations peuvent être stockées et traitées collectivement.
La figure 1 - (a) Point de départ: modèle de domaine spatial selon la fréquence d'image visuellement naturel peut être décomposé en une partie à basse fréquence et une partie à haute fréquence Figure 1 - dans laquelle (b) de la couche de sortie de convolution peut être décomposé et regroupées en fonction des différentes fréquences spatiales. caractéristique multi-fréquence (c) caractérisant le document propose un diagramme caractéristique de basse fréquence stockée dans la faible résolution tenseur variant régulièrement, ce qui réduit la redondance spatiale. (D) proposé dans le document directement sur le fonctionnement Octave Convoluation Cette caractérisation, il mettra à jour les informations contenues dans chaque groupe, et permet en outre l'échange d'informations entre les différents groupes.Comme la partie supérieure de la figure 1 -. (A) comme représenté, une image naturelle peut être décomposé en partie basse fréquence spatiale et une composantes de fréquences spatiales élevées, le premier décrit une structure variant de façon régulière, qui décrit les détails de l'image en évolution rapide. De même, les auteurs ont proposé, dans lequel la sortie de la couche de la figure convolutif peut également être divisé en parties ayant différentes fréquences spatiales, et a proposé une nouvelle caractériser multi-fréquence, qui sont stockées dans les groupes haut et séparé à basse fréquence caractéristique figure, la figure 1 -. (b) représenté sur la figure. Ainsi, la résolution spatiale du groupe basse fréquence peut être réduite en toute sécurité, ce qui réduit la redondance spatiale par le biais de l'échange d'information entre des positions adjacentes, comme représenté sur la figure 1 - (c) représenté sur la figure. Pour représenter cette nouvelle caractéristique de la méthode est compatible, des auteurs de la généralisation de convolution originale proposée Octave Convolution (OctConv), son entrée est des caractéristiques de haute et basse fréquence de la figure tenseur contenant, puis directement à partir de caractéristique figure l'extraction d'informations basse fréquence n'a pas besoin de le décoder retour à haute fréquence, comme le montre la figure 1 - (d) représenté sur la figure.
Comme alternative à la convolution de l'opération initiale, le stockage et les ressources informatiques OctConv ont consommé beaucoup moins. Pendant ce temps, les informations de basse fréquence utilisée lors du traitement d'une basse fréquence convolution OctConv correspondant, cette approche augmente considérablement la taille perçue du domaine spatial de pixels d'origine, il peut améliorer les performances de reconnaissance.
Les auteurs ont mis la conception OctConv pour une approche commune, il peut être utilisé comme un remplacement direct pour l'opération de convolution de convolution de réseau existant. Étant donné que l'accent OctConv est traitée sur différentes caractéristiques de fréquence spatiale et la réduction de la redondance spatiale figure, elle forme un complément à diverses modifications existant autre système de réseau CNN direction; procédé classique comprenant une meilleure topologie la structure, ce qui réduit la redondance canal convolutif dispose sur les dessins, afin de réduire les paramètres du modèle de redondance comme intensité.
Les auteurs ont également discuté de la façon d'intégrer davantage OctConv dans un paquet, en profondeur d'abord, et en trois dimensions cas de convolution. De plus, les tentatives d'exploiter les méthodes multi-échelles et différentes informations, OctConv peut facilement remplacer l'opération de convolution d'origine, nécessaire de changer la structure du réseau ou un ajustement super paramètre.
expériences de papier ont montré que le simple remplacement de la convolution originale est OctConv, nous pouvons améliorer les performances d'une variété de stable populaire à deux dimensions réseau fédérateur CNN, y compris ResNet, ResNeXt, DenseNet, MobileNet, Se-Net sur la IMAGEnet reconnaissance d'image tridimensionnelle, et C2D, la reconnaissance de mouvements I3D sur un ensemble de données Kinetics vidéo en trois dimensions. ResNet-152 OctConv après un lifting peut atteindre les performances des plus conception manuelle avancée du réseau, de stockage et de calcul alors que la consommation doivent être beaucoup plus petite.
papier d'origine: https: //arxiv.org/abs/1904.05049, le code correspondant dans un proche avenir, ouvrira ses portes sur GitHub. Lei Feng réseau compilé AI Technology Review