Source: Almost Human

Cet article sur 3284 mots Suggestions de lecture 8 minutes .

Cet article d�crit les chercheurs de l'Institut Ali Dharma une autre fa�on, directement sur le gradient pour commencer, mettre en avant le nouveau centre de la m�thode du gradient. Juste une ligne de code � optimiseur de DNN classique int�gr� peut �galement �tre pr�-form� pour affiner le mod�le directement.

La technologie d'optimisation est essentielle pour la formation en profondeur l'efficacit� du r�seau de neurones (DNN) est. Des �tudes ant�rieures ont montr� que l'utilisation des premier ordre et des statistiques de second ordre (comme la moyenne et la variance) activation ou d'effectuer la normalisation Z-score (telles que la normalisation des lots BN et la normalisation des poids WS) peut am�liorer les performances sur le vecteur de poids de formation dans le r�seau.

La plupart des m�thodes existantes en fonction de l'activation ou le poids d'ex�cution, Ali r�cemment chercheurs de l'Institut Dharma Une autre fa�on de proposer une nouvelle technique d'optimisation - le centre du gradient (centralisation gradient, GC), la m�thode pour atteindre une moyenne de z�ro � travers le centre du vecteur de gradient � effectuer directement sur le gradient.

Proc�d� GC on peut voir les poids caract�ristique de sortie r�gularisation spatiale et dans l'espace, ce qui am�liore la performance de g�n�ralisation DNN. En outre, le GC peut am�liorer les propri�t�s de gradient Lipschitz et fonction de la perte, de sorte que le processus de formation plus efficace et stable.

GC est facile � mettre en uvre, une seule ligne de code peut �tre facilement install� dans optimiseur d�grad� existant GC DNN. Il peut �galement �tre utilis� directement pour affiner la DNN pr�-formation. Les chercheurs ont men� une exp�rience dans diff�rentes applications, y compris la classification d'image � des fins g�n�rales et d'affiner la classification d'image, d�tection et les r�sultats montrent la segmentation DNN GC continue d'am�liorer les performances d'apprentissage.

Adresse Papers: https: //arxiv.org/pdf/2004.01461.pdf
Adresse projet: https: //github.com/Yonghongwei/Gradient-Centralization

Contrairement � des techniques bas�es ou op�ration de vecteur activ� par le poids, cette �tude pr�sente un vecteur de poids sur la base technique d'optimisation gradient simple et efficace DNN - gradient centralis� (GC).

Comme repr�sent� sur la figure 1 (a), comme repr�sent�, GC uniquement � travers le centre du vecteur de gradient moyen pour atteindre z�ro. Une seule ligne de code, qui peut �tre facilement install� dans les algorithmes d'optimisation � base de gradient de courant (comme SGDM, Adam).

Bien que simple, mais GC a atteint plus d'effet souhait�, tels que l'acc�l�ration du processus de formation, d'am�liorer les performances de la g�n�ralisation et la compatibilit� pour le mod�le pr�-formation peaufinage.

Figure 1: (a) une vue sch�matique de l'utilisation de CG. W repr�sente le poids, L repr�sente une fonction de perte, _WL repr�sente le gradient de poids, _GC (_WL) repr�sente le centre du gradient. Comme on le voit, avec autre _WL _GC (_WL) GC � mettre en uvre dans un optimiseur de r�seau existant, les �tapes sont simples. (B) une couche enti�rement connect� (� gauche) et la matrice gradient couche convolution / droits (� droite) du poids de calcul du tenseur de GC. Calcul de la matrice GC / tenseur gradient moyen pour chaque colonne / tranche, et une moyenne nulle de chaque colonne / tranche centralis�e.

contribution

La principale contribution de cette �tude sont les suivants:

Propose une technique d'optimisation de r�seau universel - du centre du gradient (GC), GC lisse non seulement l'acc�l�ration et le processus de formation DNN, peut �galement am�liorer les performances de g�n�ralisation du mod�le.
analyse GC de nature th�orique, GC a indiqu� pour retenir la fonction de perte par l'introduction d'un nouveau vecteurs de pond�ration de contrainte sur l'espace droit, la caract�ristique re-sortie de processus et de l'espace droit ont �t� r�gularis�s, ce qui am�liore la performance de g�n�ralisation du mod�le. En outre, la fonction de perte de contrainte a de meilleures propri�t�s que la fonction de perte Lipschitz d'origine, afin que le processus de formation est plus stable et efficace.

Centre de gradient

motivation la recherche

Les chercheurs ont propos� cette question: En plus de traiter l'activation et le poids, que ce soit pour un traitement direct du gradient, ce qui rend plus efficace et le processus de formation stable? Une id�e intuitive que des op�rations similaires sur BN et l'activation WS et le poids, en utilisant Z-score normalis� normalisation de la m�thode du gradient est effectu�e. Malheureusement, les chercheurs ont constat� que le simple ne peut pas �tre gradient normalis� et d'am�liorer la stabilit� du processus de formation. Ainsi, les chercheurs ont propos� une m�thode de calcul du vecteur gradient de la moyenne et le centre du gradient est moyenne nulle - le centre du d�grad�. Cette m�thode pr�sente de bonnes propri�t�s de Lipschitz, processus de formation DNN peut �tre facilement et d'am�liorer le mod�le de performance de g�n�ralisation.

formule GC

Pour la couche de liaison complet de convolution ou les couches, suppos� avoir �t� obtenu par gradient de r�tropropagation, puis � un gradient de _w_i L (i = 1, 2, ..., N) du vecteur de poids w_i, GC la formule est la suivante:

parmi

La formule de GC est simple. La figure 1 (b), la moyenne en poids ne calcule que le vecteur de colonne de la matrice de poids, puis retir� de chaque colonne pour le vecteur moyen.

Matrice de formulation �quation 1 comme suit:

Dans la mise en uvre effective, nous pouvons retirer du poids moyen de chaque vecteur de poids directement GC pour terminer l'op�ration. Le processus de calcul entier est tr�s simple et efficace.

GC int�gr� SGDM / Adam, comment effet?

GC peut �tre facilement int�gr� dans les algorithmes d'optimisation DNN actuels, comme SGDM et Adam. Apr�s avoir obtenu le centre du gradient _GC (_wL), les chercheurs utilisent directement pour mettre � jour la matrice de poids. Algorithme 1 et 2 montrent l'algorithme embarqu� dans deux des plus populaires des algorithmes d'optimisation de GC et processus Adam SGDM. De plus, pour utiliser l'att�nuation des poids, peut �tre pr�vu

Dans lequel repr�sente le facteur de d�croissance de poids.

Le GC int�gr� dans la plupart de l'algorithme d'optimisation DNN est une seule ligne de code, vous pouvez effectuer des mineures GC co�t de calcul suppl�mentaire. Par exemple, les chercheurs ont �t� form�s � l'aide d'une �poque ResNet50 dans le jeu de donn�es CIFAR100, le temps de formation est augment� que de 0,6 secondes (une �poque prend 71 secondes).

caract�ristiques GC

Am�liorer les performances de g�n�ralisation

GC on peut voir projet� m�thode de descente de gradient comprenant la fonction de perte de contrainte. Fonction de perte et sa contrainte de gradient Lipschitz attributs mieux, de sorte que le processus de formation plus efficace et stable.

Des �tudes ant�rieures ont d�crit les caract�ristiques de la m�thode du gradient de projection, � savoir un gradient de la saillie afin de limiter le poids ou des poids poids hyperplan espace collecteur de Riemann. De m�me, nous pouvons �galement examiner le r�le de GC de l'angle de descente de gradient de projection. La figure 2 montre le SGD en utilisant GC M�thode:

Figure 2: Le processus d'interpr�tation g�om�trique GC. Gradient est projet�e sur l'hyperplan e ^ T (w - w ^ t) = 0, la projection du gradient est utilis� pour mettre � jour les coefficients de pond�ration.

Acc�l�rer le processus de formation

Optimisation lisse image: Des �tudes ant�rieures ont montr� que BN et WS peuvent optimiser l'image lisse. Bien que BN et WS effectu�es sur l'activation et le poids, mais ils sont limite implicitement le gradient de poids, de sorte que le gradient de poids dans le train rapide plus pr�visible, plus stable.

Des conclusions similaires sont �galement applicables � la m�thode de GC, les chercheurs ont compar� la contrainte 4 fonction de la perte de fonction de perte L d'origine (w) et les propri�t�s de Formule Lipschitz, la fonction de gradient et les propri�t�s Lipschitz.

suppression d'explosion gradient: GC Un autre avantage pour la formation DNN est d'�viter un gradient d'explosion, rendre la formation plus stable. Cette propri�t� est coup�e gradient similaire. Gradient poids trop importante entra�ner des modifications spectaculaires du processus de formation, ce qui provoque de graves dommages et difficiles � converger l'oscillation.

Pour �tudier l'effet des GC sur la coupe de gradient, les chercheurs ont d�montr� sur la figure 4, lorsque le proc�d� de GC avec ou sans matrice de pente maximale (obtenue par la formation sur CIFAR100) ResNet50 une premi�re couche et la couche de connexion compl�te de convolution et L2 norme. On peut voir sur la figure, de sorte que la m�thode de CPG et L_2 norme maximale de la matrice de gradient a diminu� au cours du processus de formation.

Figure 4: L_2 matrice de gradient de norme ou tenseur (�chelle logarithmique) et une valeur maximale (�chelle logarithmique), avec le nombre de changements d'it�rations. Ici, dans ResNet50 CIFAR100 monter dans le train comme mod�le DNN. images de gauche montrent les r�sultats d'une convolution sur la premi�re couche, le montre la figure � droite les r�sultats sur deux couches enti�rement connect�es. Un point rouge indique la m�thode GC ne pas utiliser les r�sultats de la formation, bleu et vice versa.

Les r�sultats exp�rimentaux

Figure 5 ci-dessous montre la perte de formation et d'�valuation de la pr�cision des quatre combinaisons de courbes.

Par rapport � BN, la perte de la formation BN + GC gouttes plus rapidement, tout en testant la pr�cision augmente plus rapidement. Pour la BN et BN + WS concern�, GC peut encore acc�l�rer la vitesse de leur formation. De plus, nous pouvons voir, BN + GC atteint la pr�cision de test la plus �lev�e, v�rifiant ainsi la GC peut simultan�ment acc�l�rer le processus de formation et d'am�liorer les performances de g�n�ralisation.

Figure 5: Mini-IMAGEnet dans l'ensemble de donn�es, la perte de la formation (� gauche) et la pr�cision de test (� droite) avec la courbe des changements d'�poque de la formation. mod�le ResNet50 est utilis� comme DNN. proc�d� d'optimisation comprend la comparaison BN, BN + GC, BN + WS WS et BN + + GC.

Le tableau 3 montre la pr�cision du test � diff�rents poids param�tres d'att�nuation des changements, y compris 0,1e ^ -4,2e ^ ^ -4,5e -4 et -3 ^ 1E. Optimizer est un taux d'apprentissage de 0,1 SGDM. On peut voir dans le tableau, le poids de la performance d'att�nuation par GC pour parvenir � une am�lioration durable.

Tableau 3: att�nuation � des poids est fourni, la pr�cision de l'essai en utilisant le jeu de donn�es ResNet50 CIFAR100.

Le tableau 4 ci-dessous montre la SGDM et Adam tester la pr�cision de l'apprentissage � diff�rents taux de changement.

Tableau 4: ResNet50, SGDM et Adam diff�rents test de pr�cision du taux d'apprentissage sur CIFAR100 ensemble de donn�es.

La figure 6 montre la formation et validation de la courbe d'erreur ResNet50 (caract�ristique est utilis�e GN normalis�e). Nous pouvons voir que, au moyen de GN, GC peut acc�l�rer consid�rablement le processus de formation.

Figure 6: dans l'ensemble de donn�es IMAGEnet, erreur de formation (� gauche) et l'erreur d'authentification (droit) avec la courbe des changements d'�poque de formation.

La figure 7 montre le top 40 ex�cuter �poque dans quatre formations de classification d'image � grains fins et de tester la pr�cision des ensembles de donn�es, et le SGDM SGDM + GC.

Figure 7: 4 dans l'ensemble de donn�es de classification de l'image � grains fins, la pr�cision de la formation (trait plein) et la pr�cision de test (en pointill�) courbe avec les changements d'�poque de formation.

Le tableau 8 montre la pr�cision moyenne plus rapide R-CNN (Moyenne Pr�cision, AP). Nous pouvons voir que la t�che de d�tection de cible, en utilisant GC form� tous les r�seaux backbone ont atteint environ 0,3% -0,6% de gain de performance.

Tableau 8: Faster-RCNN et FPN, le r�sultat de d�tection sur le r�seau de base COCO diff�rents ensembles de donn�es.

Le tableau 9 montre la pr�cision moyenne de la zone de d�limitation (AP ^ b) et segmentation exemple pr�cision moyenne (AP ^ m). Nous pouvons voir, AP ^ t�ches de levage b de la d�tection de la cible de 0,5% -0,9% Exemples divis�s AP ^ m sur la t�che de 0,3% � 0,7%.

Tableau 9: Mask-RCNN et FPN, diff�rent d�tection de r�seau de base et les r�sultats de segmentation sur COCO ensemble de donn�es.

utilisation

Les chercheurs ouvrent la m�thode papier mentionn�, PyTorch atteindre. Y compris SGD_GC, SGD_GCC, SGDW_GCC, Adam_GC, Adam_GCC, AdamW_GCC et plus optimiseur de Adagrad_GCC, qui est fourni correspondant pour obtenir le SGD.py. optimiseur suffixe � _gc � d'utiliser la couche de convolution GC et la couche de connexion afin d'optimiser l'ensemble, tandis que l'optimiseur de suffixe � _GCC � uniquement �tre utilis� pour la couche de convolution.

Et vous voulez utiliser ces optimiseur est tr�s simple, il suffit d'utiliser la commande suivante pour importer le module correspondant peut �tre.

de SGD l'importation SGD_GC

Informations Auteur

Un document pour Hongwei Yong (Yong Wang Wei) ont �t� obtenus de premier cycle et de ma�trise de l'Universit� Xi'an Jiaotong en 2013 et 2016, il est maintenant le D�partement de l'informatique PhD Hong Kong Polytechnic University. Ses principaux domaines de recherche comprennent la mod�lisation et l'apprentissage profondeur d'image.

Un document pour Hongwei Yong.

Les trois autres auteurs ont travaill� pour Dharma Ali h�pital, qui Jianqiang Huang (HUANG Jianqiang) algorithme pour l'expert principal Institut Dharma, Xiansheng Hua (Hua Xiansheng) est le cerveau de laboratoire de l'h�pital de la ville Dharma, chef, Lei Zhang (Zhang Lei) comme un chercheur � l'h�pital de la ville laboratoire du cerveau Dharma.

- FIN -

attention Tsinghua - donn�es Acad�mie des sciences de Qingdao plate-forme publique micro-canal officiel " �AI pour envoyer des donn�es �� Sisters et n � � Les donn�es envoy�es THU �� Pour plus de conf�rences et de bien-�tre contenu de qualit�.

Route de la soie

Apprenez � conna�tre la Chine

Ali h�pital nouvelle m�thode d'optimisation propos�e Damour, une ligne de optimisateur de code remplace l'existant

contribution

Centre de gradient

caract�ristiques GC

Les r�sultats exp�rimentaux

utilisation