Au-del� de Ho Kai Ming groupe normalis� Groupe Normalization, Hong Kong �quipe chinoise est venu d'adapter passage normalis�

Lei Feng r�seau AI Technology Review: Hong Kong chinois les derni�res �tudes de papier ont montr� que m�me la profondeur actuelle du r�seau de neurones dans l'annotation manuel de formation standard de la base de donn�es (par exemple IMAGEnet), la performance, il y aura la volatilit�. Dans ce cas, l'utilisation de petites quantit�s de donn�es � mettre � jour les param�tres du r�seau de neurones est plus grave. L'�tude a r�v�l� cela est d� � BN (lot Normaliser) caus�. BN est la m�thode de normalisation propos�e par Google en 2015. 5000+ citations a �t� largement utilis� dans le monde universitaire et l'industrie. SN (Switchable Normaliser) Hong Kong �quipe chinoise a mis en avant pour r�soudre la p�nurie de BN. Dans le jeu de donn�es � l'�chelle IMAGEnet SN et la pr�cision de reconnaissance d'images de d�tection d'objets grands ensembles de donn�es Microsoft COCO, mais d�passe �galement le Facebook a r�cemment propos� par Ho et al Kai Ming groupe normalis� GN (Groupe Normaliser). S'il vous pla�t se r�f�rer � l'article original arXiv: 1806,10779 Code et Github.

Contexte de lecture:

* IMAGEnet base de donn�es de reconnaissance d'images � grande �chelle. Le professeur Li Feifei fond� par l'Universit� de Stanford en 2009. La concurrence dans IMAGEnet du taux de reconnaissance, connu comme la vision par ordinateur Olympiade.

* Microsoft COCO est actuellement le plus largement utilis� des ensembles de donn�es de d�tection et de segmentation d'objets. COCO D�fi organis� chaque ann�e pour attirer un grand nombre d'entreprises et de laboratoires nationaux et �trangers bien connus impliqu�s, y compris Google, Facebook, Berkely et ainsi de suite.

* BN (normalisation par lots) est une m�thode de normalisation propos�e par Google en 2015. Il a �t� cit� plus de 5000 fois, largement utilis� dans le monde universitaire et l'industrie. Presque toutes les grandes architecture du r�seau de neurones utilise un BN, tel que Microsoft Research Asia pr�sent� r�seau de neurones r�siduels (ResNet, CVPR 2016 meilleur papier) et DenseNet (CVPR 2017 meilleur papier) propos� par l'Universit� Cornell.

* SN est la m�thode de normalisation � l'�quipe chinoise de Hong Kong a r�cemment propos�. Outre sa normalisation du taux de reconnaissance des IMAGEnet. SN form� en utilisant ResNet50 a atteint 77,5% du taux de reconnaissance sup�rieur 1. Ceci est le r�sultat le plus �lev� dans le rapport actuel sur le mod�le ResNet50, plus que le mod�le dominant la plate-forme d'apprentissage en profondeur fourni, par exemple tensorflow, PyTorch, Caffe et ainsi de suite. Il est int�ressant de noter que ce r�sultat encore plus que la couche r�siduelle du mod�le de r�seau de neurones 101. Le mod�le est d�j� open source et disponible en t�l�chargement.

Nous commen�ons par une vue sur la carte normalisation des lots des goulots d'�tranglement rencontr�s dans BN. La figure ResNet l'axe vertical repr�sente un mod�le de r�seau neuronal � la pr�cision de la reconnaissance de l'image de IMAGEnet (le plus haut), l'axe horizontal repr�sente le nombre d'�chantillons de la formation � jour r�seau ordre d�croissant. ligne bleue, ligne rouge et les lignes vertes indiquent la pr�cision du mod�le de formation de Google BN, GN et SN Facebook propos� par les Chinois de Hong Kong. Comme on peut le voir, lorsque le mod�le nombre d'�chantillons utilis�s pour mettre � jour le r�seau (�galement connu sous le nom � lot �) diminue, le taux de reconnaissance BN d'une forte baisse. �gale � 16 comme masse, BN a diminu� de 11% par rapport au taux de reconnaissance de mod�le mod�le de SN. Lorsque le lot est �gal � 8, le mod�le de taux de reconnaissance d'image BN inf�rieur � 50%.

BN cause une d�gradation des performances?

BN (normalisation par lots) est une m�thode de normalisation. se r�f�re g�n�ralement � des donn�es normalis�es dans une distribution avec une moyenne de 0 et une variance 1 dans la distribution. Pour ce faire, BN doit estimer la moyenne et la variance de la normalisation des donn�es de formation en cours de fonctionnement. Comme la quantit� de donn�es de formation est grande (IMAGEnet Il y a des millions de donn�es), on estime que ces statistiques n�cessitent beaucoup de calcul. Par cons�quent, ces deux statistiques utilisent g�n�ralement un petit lot de donn�es pour estimer. Cependant, lorsque des quantit�s plus petites, par exemple 32, ces statistiques sur la carte des estimations inexactes, r�sultant du taux de reconnaissance a commenc� � diminuer de mani�re significative. Tout comme vous avez besoin d'estimer le score moyen de l'�cole, seule une classe statistique est inexacte. Par cons�quent, BN conduira � une perte de performance.

�tant donn� que l'effet de la variation BN en petites quantit�s que nous pouvons �viter l'utilisation de petites quantit�s de celui-ci la formation?

Pourquoi avons-nous besoin de petites quantit�s d'apprentissage?

Il y a deux raisons. Tout d'abord, dans le processus de formation du r�seau de neurones en profondeur, souvent besoin de centaines de mise � jour des millions de param�tres de niveau, et dans de nombreuses applications pratiques doivent former la taille de l'image est si grand (par exemple 1000x1000 ou plus), de sorte que le nombre peut �tre mis dans l'image est tr�s GPU faible (typiquement inf�rieur � 2). Cela se produit souvent dans la d�tection d'objets, la segmentation de la sc�ne, et les t�ches de reconnaissance entre la vid�o, ils ont largement utilis� dans la surveillance vid�o et pilote automatique. Cependant, comme pr�c�demment repr�sent� sur la figure, lorsque le nombre d'�chantillons pour r�duire la formation du r�seau (petit volume), il devient difficile de faire la formation. D'une mani�re g�n�rale, plus le lot, le processus de formation plus instable. groupe Facebook normalisation pr�sent� (GN) est de r�soudre les probl�mes ci-dessus.

La photo montre des exemples de d�tection et de segmentation objet

En second lieu, la profondeur des r�seaux de neurones utilisent g�n�ralement beaucoup de formation GPUs. Les m�thodes de formation peuvent �tre divis�s en deux cat�gories: l'exercice de formation synchrone et asynchrone. les param�tres repr�sentatifs de formation de n�cessit� de mise � jour de synchronisation de r�seau pour �tre synchronis�s parmi la pluralit� de GPU; proc�d� asynchrone de formation est d�centralis�. Il se trouve dans les avantages que la formation synchrone, les param�tres r�seau peuvent �tre mis � jour s�par�ment dans chaque GPU qui ne n�cessite pas de synchronisation. Cependant, parce que le r�seau prennent beaucoup de m�moire, un processeur graphique unique ne peut mettre bas une petite quantit� d'�chantillons de formation, ce qui emp�che les param�tres de mise � jour dans un GPU, ce qui rend la formation asynchrone impossible.

De ces raisons qu'un lot de technologies sensibles n'est pas n�cessaire.

Hong Kong solution chinoise

Afin de r�soudre les probl�mes ci-dessus, l'�quipe chinoise de Hong Kong est venu avec la normalisation auto-adaptatif SN (Switchable Norm). Il unifie les m�thodes de normalisation classiques, comme lot BN normalis�, des exemples de IN normalis� (Instance Norm fait en 16 ans et arXiv: 1607,08022 Publication), une LN couche normalis�e (couche Norm comme un Geoffrey Hinton dans les 16 ans propos�es dans arXiv: 1607,06450 public), et le groupe normalis� GN et ainsi de suite. SN r�seau de neurones permet diff�rent normalis� couche auto-apprentissage diff�rente op�ration de normalisation. Et le renforcement diff�rent d'apprentissage, en utilisant l'apprentissage diff�rentiel de SN, de sorte que l'op�ration de normalisation de s�lection peut �tre effectu�e simultan�ment et l'optimisation des param�tres du r�seau, afin d'optimiser l'efficacit� tout en assurant des performances �lev�es est �galement maintenue. Une adaptation d'explication intuitive normalis�e � partir de la photo. Il coefficients de pond�ration par l'apprentissage de la m�thode diff�rente de normalisation pour s�lectionner une autre op�ration.

Comment r�soudre le probl�me de la BN

La figure suivante � gauche repr�sente un r�seau de neurones sous-r�seau, et un r�seau de neurones complet se compose souvent des dizaines de sous-r�seaux. Et la structure pr�cit�e ResNet DenseNet peut �tre class� comme tel. Dans un sous-r�seau, il peut y avoir une pluralit� de couches de BN. En d'autres termes, un r�seau de neurones peut avoir des centaines BN couches.

Nous appelons une couche BN est situ� est une couche de normalisation. Alors, pourquoi dans la structure du r�seau de neurones grand public, toutes les couches BN normalis� ne l'utilise?

Presque tous les r�seaux de neurones de toutes les couches de normalisation en utilisant la m�me op�ration de normalisation. En effet, un manuel pour l'op�ration de normalisation de chaque couche n�cessite beaucoup d'exp�riences, de temps.

En raison de ce probl�me, de sorte que le syst�me d'apprentissage en profondeur ne peut pas atteindre des performances optimales. Intuitivement, l'�quipe chinoise de Hong Kong estime que l'op�ration de normalisation devrait �tre en mesure d'obtenir par l'apprentissage, autre couche de normalisation devrait permettre l'utilisation de diff�rentes op�rations libres normalis�. Comme on le voit sur la droite. La figure, toutes les couches sous-r�seau utilise le SN normalis�. Il est capable d'apprendre pour chaque strat�gie de normalisation de la couche de normalisation, il peut �tre BN, IN, LN, GN ou des combinaisons de ceux-ci.

SN apprendre diff�rentes combinaisons de la politique de normalisation pour �viter la BN de petites quantit�s d'�mission particuli�rement sensibles.

Comme le montre la figure abord, lorsque la charge est progressivement r�duite, le SN de maintenir le taux de reconnaissance optimale.

comparaison SN avec le GN

groupe GN normalis� par Facebook Ho Kai m�thode de normalisation Ming a r�cemment propos�. La m�thode pour r�soudre le lot normalis� BN en petites quantit�s pour optimiser la d�gradation des performances des probl�mes �vidents. Intuitivement, plus le lot, la formation plus instable, le mod�le form�, plus le taux de reconnaissance. �quipe Kai-Ming Ho d�montrent l'efficacit� de nombreuses exp�riences GN: par exemple, parmi IMAGEnet, de petites quantit�s GN dans des conditions d'obtention d'un taux de reconnaissance est beaucoup plus �lev� que le taux de reconnaissance du BN. Cependant, dans des conditions de vrac normale, le taux de reconnaissance est pas GN BN.

Comme mentionn� pr�c�demment, SN est un r�seau de neurones pour r�soudre une autre op�ration de normalisation de la couche de normalisation de l'apprentissage automatique propos�. Hong Kong �quipe chinoise a trouv�, SN et GN que possible pour obtenir le taux de reconnaissance �lev� dans des conditions de faible volume. Et, SN dans des conditions normales que vrac GN, plus encore que le BN. Par exemple, dans le cas d'un lot de 256, en utilisant le SN train ResNet50 pr�cision IMAGEnet peut atteindre plus de 77,5%, la pr�cision et le r�seau form� avec GN et BN pour 75,9% et 76,4%, respectivement.

r�sultat

Hong Kong �quipe chinoise pour v�rifier les performances d'une normalisation auto-adaptatif SN dans la pluralit� des t�ches visuelles, y compris la reconnaissance d'image, d�tection d'objets, la segmentation d'objets, vid�o appr�ci� que l'image et le cycle de style des r�seaux de neurones tels que la recherche de la structure du r�seau de neurones. Ci-dessous une d�tection d'objet par exemple, la comparaison SN, BN et GN donn�es de d�tection d'objets Microsoft COCO d�finis dans le r�sultat de la d�tection.

Et la classification d'image est diff�rente pour t�che de d�tection et de segmentation objet, le nombre d'images de chaque GPU est g�n�ralement seulement 1-2. Dans ce cas, l'effet BN sera consid�rablement r�duite. Le SN peut �tre efficacement �tendu aux diff�rents mod�les de d�tection, ainsi que diff�rentes profondeurs plate-forme d'apprentissage. Le tableau suivant pr�sente les r�sultats sur SN Mask R-CNN et plus rapide R-CNN, nous pouvons voir SN a tenu la t�te de la pr�cision de l'indice.

papier original tout en montrant l'effet de SN sur l'image du style, ainsi que la structure du r�seau de la recherche, les d�tails du papier visible.

Documents connexes:

1. BN: S. Ioffe et C. Szegedy Lot normalisation: .. Acc�l�rer la formation du r�seau profond en r�duisant changement covariable interne En ICML 2015

2. GN :. Y. Wu et K. Il normalisation Groupe arXiv :. 1803,08494, 2018

3. SN: Luo Ping, Jiamin Ren, Zhanglin Peng, Diff�rentiable apprentissage � Normaliser via Switchable Normalization, arXiv: 1806.10779,2018

Route de la soie