Ali hôpital nouvelle méthode d'optimisation proposée Damour, une ligne de optimisateur de code remplace l'existant

Source: Almost Human

Cet article sur 3284 mots Suggestions de lecture 8 minutes .

Cet article décrit les chercheurs de l'Institut Ali Dharma une autre façon, directement sur le gradient pour commencer, mettre en avant le nouveau centre de la méthode du gradient. Juste une ligne de code à optimiseur de DNN classique intégré peut également être pré-formé pour affiner le modèle directement.

La technologie d'optimisation est essentielle pour la formation en profondeur l'efficacité du réseau de neurones (DNN) est. Des études antérieures ont montré que l'utilisation des premier ordre et des statistiques de second ordre (comme la moyenne et la variance) activation ou d'effectuer la normalisation Z-score (telles que la normalisation des lots BN et la normalisation des poids WS) peut améliorer les performances sur le vecteur de poids de formation dans le réseau.

La plupart des méthodes existantes en fonction de l'activation ou le poids d'exécution, Ali récemment chercheurs de l'Institut Dharma Une autre façon de proposer une nouvelle technique d'optimisation - le centre du gradient (centralisation gradient, GC), la méthode pour atteindre une moyenne de zéro à travers le centre du vecteur de gradient à effectuer directement sur le gradient.

Procédé GC on peut voir les poids caractéristique de sortie régularisation spatiale et dans l'espace, ce qui améliore la performance de généralisation DNN. En outre, le GC peut améliorer les propriétés de gradient Lipschitz et fonction de la perte, de sorte que le processus de formation plus efficace et stable.

GC est facile à mettre en uvre, une seule ligne de code peut être facilement installé dans optimiseur dégradé existant GC DNN. Il peut également être utilisé directement pour affiner la DNN pré-formation. Les chercheurs ont mené une expérience dans différentes applications, y compris la classification d'image à des fins générales et d'affiner la classification d'image, détection et les résultats montrent la segmentation DNN GC continue d'améliorer les performances d'apprentissage.

  • Adresse Papers: https: //arxiv.org/pdf/2004.01461.pdf
  • Adresse projet: https: //github.com/Yonghongwei/Gradient-Centralization

Contrairement à des techniques basées ou opération de vecteur activé par le poids, cette étude présente un vecteur de poids sur la base technique d'optimisation gradient simple et efficace DNN - gradient centralisé (GC).

Comme représenté sur la figure 1 (a), comme représenté, GC uniquement à travers le centre du vecteur de gradient moyen pour atteindre zéro. Une seule ligne de code, qui peut être facilement installé dans les algorithmes d'optimisation à base de gradient de courant (comme SGDM, Adam).

Bien que simple, mais GC a atteint plus d'effet souhaité, tels que l'accélération du processus de formation, d'améliorer les performances de la généralisation et la compatibilité pour le modèle pré-formation peaufinage.

Figure 1: (a) une vue schématique de l'utilisation de CG. W représente le poids, L représente une fonction de perte, _WL représente le gradient de poids, _GC (_WL) représente le centre du gradient. Comme on le voit, avec autre _WL _GC (_WL) GC à mettre en uvre dans un optimiseur de réseau existant, les étapes sont simples. (B) une couche entièrement connecté (à gauche) et la matrice gradient couche convolution / droits (à droite) du poids de calcul du tenseur de GC. Calcul de la matrice GC / tenseur gradient moyen pour chaque colonne / tranche, et une moyenne nulle de chaque colonne / tranche centralisée.

contribution

La principale contribution de cette étude sont les suivants:

  • Propose une technique d'optimisation de réseau universel - du centre du gradient (GC), GC lisse non seulement l'accélération et le processus de formation DNN, peut également améliorer les performances de généralisation du modèle.
  • analyse GC de nature théorique, GC a indiqué pour retenir la fonction de perte par l'introduction d'un nouveau vecteurs de pondération de contrainte sur l'espace droit, la caractéristique re-sortie de processus et de l'espace droit ont été régularisés, ce qui améliore la performance de généralisation du modèle. En outre, la fonction de perte de contrainte a de meilleures propriétés que la fonction de perte Lipschitz d'origine, afin que le processus de formation est plus stable et efficace.

Centre de gradient

motivation la recherche

Les chercheurs ont proposé cette question: En plus de traiter l'activation et le poids, que ce soit pour un traitement direct du gradient, ce qui rend plus efficace et le processus de formation stable? Une idée intuitive que des opérations similaires sur BN et l'activation WS et le poids, en utilisant Z-score normalisé normalisation de la méthode du gradient est effectuée. Malheureusement, les chercheurs ont constaté que le simple ne peut pas être gradient normalisé et d'améliorer la stabilité du processus de formation. Ainsi, les chercheurs ont proposé une méthode de calcul du vecteur gradient de la moyenne et le centre du gradient est moyenne nulle - le centre du dégradé. Cette méthode présente de bonnes propriétés de Lipschitz, processus de formation DNN peut être facilement et d'améliorer le modèle de performance de généralisation.

formule GC

Pour la couche de liaison complet de convolution ou les couches, supposé avoir été obtenu par gradient de rétropropagation, puis à un gradient de _w_i L (i = 1, 2, ..., N) du vecteur de poids w_i, GC la formule est la suivante:

parmi

La formule de GC est simple. La figure 1 (b), la moyenne en poids ne calcule que le vecteur de colonne de la matrice de poids, puis retiré de chaque colonne pour le vecteur moyen.

Matrice de formulation équation 1 comme suit:

Dans la mise en uvre effective, nous pouvons retirer du poids moyen de chaque vecteur de poids directement GC pour terminer l'opération. Le processus de calcul entier est très simple et efficace.

GC intégré SGDM / Adam, comment effet?

GC peut être facilement intégré dans les algorithmes d'optimisation DNN actuels, comme SGDM et Adam. Après avoir obtenu le centre du gradient _GC (_wL), les chercheurs utilisent directement pour mettre à jour la matrice de poids. Algorithme 1 et 2 montrent l'algorithme embarqué dans deux des plus populaires des algorithmes d'optimisation de GC et processus Adam SGDM. De plus, pour utiliser l'atténuation des poids, peut être prévu

Dans lequel représente le facteur de décroissance de poids.

Le GC intégré dans la plupart de l'algorithme d'optimisation DNN est une seule ligne de code, vous pouvez effectuer des mineures GC coût de calcul supplémentaire. Par exemple, les chercheurs ont été formés à l'aide d'une époque ResNet50 dans le jeu de données CIFAR100, le temps de formation est augmenté que de 0,6 secondes (une époque prend 71 secondes).

caractéristiques GC

Améliorer les performances de généralisation

GC on peut voir projeté méthode de descente de gradient comprenant la fonction de perte de contrainte. Fonction de perte et sa contrainte de gradient Lipschitz attributs mieux, de sorte que le processus de formation plus efficace et stable.

Des études antérieures ont décrit les caractéristiques de la méthode du gradient de projection, à savoir un gradient de la saillie afin de limiter le poids ou des poids poids hyperplan espace collecteur de Riemann. De même, nous pouvons également examiner le rôle de GC de l'angle de descente de gradient de projection. La figure 2 montre le SGD en utilisant GC Méthode:

Figure 2: Le processus d'interprétation géométrique GC. Gradient est projetée sur l'hyperplan e ^ T (w - w ^ t) = 0, la projection du gradient est utilisé pour mettre à jour les coefficients de pondération.

Accélérer le processus de formation

Optimisation lisse image: Des études antérieures ont montré que BN et WS peuvent optimiser l'image lisse. Bien que BN et WS effectuées sur l'activation et le poids, mais ils sont limite implicitement le gradient de poids, de sorte que le gradient de poids dans le train rapide plus prévisible, plus stable.

Des conclusions similaires sont également applicables à la méthode de GC, les chercheurs ont comparé la contrainte 4 fonction de la perte de fonction de perte L d'origine (w) et les propriétés de Formule Lipschitz, la fonction de gradient et les propriétés Lipschitz.

suppression d'explosion gradient: GC Un autre avantage pour la formation DNN est d'éviter un gradient d'explosion, rendre la formation plus stable. Cette propriété est coupée gradient similaire. Gradient poids trop importante entraîner des modifications spectaculaires du processus de formation, ce qui provoque de graves dommages et difficiles à converger l'oscillation.

Pour étudier l'effet des GC sur la coupe de gradient, les chercheurs ont démontré sur la figure 4, lorsque le procédé de GC avec ou sans matrice de pente maximale (obtenue par la formation sur CIFAR100) ResNet50 une première couche et la couche de connexion complète de convolution et L2 norme. On peut voir sur la figure, de sorte que la méthode de CPG et L_2 norme maximale de la matrice de gradient a diminué au cours du processus de formation.

Figure 4: L_2 matrice de gradient de norme ou tenseur (échelle logarithmique) et une valeur maximale (échelle logarithmique), avec le nombre de changements d'itérations. Ici, dans ResNet50 CIFAR100 monter dans le train comme modèle DNN. images de gauche montrent les résultats d'une convolution sur la première couche, le montre la figure à droite les résultats sur deux couches entièrement connectées. Un point rouge indique la méthode GC ne pas utiliser les résultats de la formation, bleu et vice versa.

Les résultats expérimentaux

Figure 5 ci-dessous montre la perte de formation et d'évaluation de la précision des quatre combinaisons de courbes.

Par rapport à BN, la perte de la formation BN + GC gouttes plus rapidement, tout en testant la précision augmente plus rapidement. Pour la BN et BN + WS concerné, GC peut encore accélérer la vitesse de leur formation. De plus, nous pouvons voir, BN + GC atteint la précision de test la plus élevée, vérifiant ainsi la GC peut simultanément accélérer le processus de formation et d'améliorer les performances de généralisation.

Figure 5: Mini-IMAGEnet dans l'ensemble de données, la perte de la formation (à gauche) et la précision de test (à droite) avec la courbe des changements d'époque de la formation. modèle ResNet50 est utilisé comme DNN. procédé d'optimisation comprend la comparaison BN, BN + GC, BN + WS WS et BN + + GC.

Le tableau 3 montre la précision du test à différents poids paramètres d'atténuation des changements, y compris 0,1e ^ -4,2e ^ ^ -4,5e -4 et -3 ^ 1E. Optimizer est un taux d'apprentissage de 0,1 SGDM. On peut voir dans le tableau, le poids de la performance d'atténuation par GC pour parvenir à une amélioration durable.

Tableau 3: atténuation à des poids est fourni, la précision de l'essai en utilisant le jeu de données ResNet50 CIFAR100.

Le tableau 4 ci-dessous montre la SGDM et Adam tester la précision de l'apprentissage à différents taux de changement.

Tableau 4: ResNet50, SGDM et Adam différents test de précision du taux d'apprentissage sur CIFAR100 ensemble de données.

La figure 6 montre la formation et validation de la courbe d'erreur ResNet50 (caractéristique est utilisée GN normalisée). Nous pouvons voir que, au moyen de GN, GC peut accélérer considérablement le processus de formation.

Figure 6: dans l'ensemble de données IMAGEnet, erreur de formation (à gauche) et l'erreur d'authentification (droit) avec la courbe des changements d'époque de formation.

La figure 7 montre le top 40 exécuter époque dans quatre formations de classification d'image à grains fins et de tester la précision des ensembles de données, et le SGDM SGDM + GC.

Figure 7: 4 dans l'ensemble de données de classification de l'image à grains fins, la précision de la formation (trait plein) et la précision de test (en pointillé) courbe avec les changements d'époque de formation.

Le tableau 8 montre la précision moyenne plus rapide R-CNN (Moyenne Précision, AP). Nous pouvons voir que la tâche de détection de cible, en utilisant GC formé tous les réseaux backbone ont atteint environ 0,3% -0,6% de gain de performance.

Tableau 8: Faster-RCNN et FPN, le résultat de détection sur le réseau de base COCO différents ensembles de données.

Le tableau 9 montre la précision moyenne de la zone de délimitation (AP ^ b) et segmentation exemple précision moyenne (AP ^ m). Nous pouvons voir, AP ^ tâches de levage b de la détection de la cible de 0,5% -0,9% Exemples divisés AP ^ m sur la tâche de 0,3% à 0,7%.

Tableau 9: Mask-RCNN et FPN, différent détection de réseau de base et les résultats de segmentation sur COCO ensemble de données.

utilisation

Les chercheurs ouvrent la méthode papier mentionné, PyTorch atteindre. Y compris SGD_GC, SGD_GCC, SGDW_GCC, Adam_GC, Adam_GCC, AdamW_GCC et plus optimiseur de Adagrad_GCC, qui est fourni correspondant pour obtenir le SGD.py. optimiseur suffixe « _gc » d'utiliser la couche de convolution GC et la couche de connexion afin d'optimiser l'ensemble, tandis que l'optimiseur de suffixe « _GCC » uniquement être utilisé pour la couche de convolution.

Et vous voulez utiliser ces optimiseur est très simple, il suffit d'utiliser la commande suivante pour importer le module correspondant peut être.

de SGD l'importation SGD_GC

Informations Auteur

Un document pour Hongwei Yong (Yong Wang Wei) ont été obtenus de premier cycle et de maîtrise de l'Université Xi'an Jiaotong en 2013 et 2016, il est maintenant le Département de l'informatique PhD Hong Kong Polytechnic University. Ses principaux domaines de recherche comprennent la modélisation et l'apprentissage profondeur d'image.

Un document pour Hongwei Yong.

Les trois autres auteurs ont travaillé pour Dharma Ali hôpital, qui Jianqiang Huang (HUANG Jianqiang) algorithme pour l'expert principal Institut Dharma, Xiansheng Hua (Hua Xiansheng) est le cerveau de laboratoire de l'hôpital de la ville Dharma, chef, Lei Zhang (Zhang Lei) comme un chercheur à l'hôpital de la ville laboratoire du cerveau Dharma.

- FIN -

attention Tsinghua - données Académie des sciences de Qingdao plate-forme publique micro-canal officiel "  AI pour envoyer des données  « Sisters et n ° » Les données envoyées THU  « Pour plus de conférences et de bien-être contenu de qualité.

Shaoguan « la sagesse du gouvernement dans la banque, » les 13 catégories de services peuvent être facilement traitées les questions
Précédent
Analyse des données: vous emmène à l'exploration de données d'entrée à base zéro (avec code)
Prochain
Baidu lancement de free ride sans pilote de location, les gens Changsha prennent les adopteurs précoces de plomb
NER non supervisé avec BERT (avec code)
Évolutive avec tensorflow prolongée, rapide et déploiement efficace des BERT!
La base de l'apprentissage automatique et de l'apprentissage en profondeur a été posée, comment résoudre les problèmes d'algorithmes avec la vitesse la plus rapide
L'apprentissage machine génère des avantages économiques, l'hiver prochain IA ne vient jamais
Passer sous si facile, quantique AlphaZero informatique jeu de démarrage!
Une demi-heure de formation cent millions connaissance de la cartographie à grande échelle, open source Amazon cadre de représentation des connaissances AI carte intégrée
Stanford toilettes intelligent avec des veines anales peut connaître les gens, les selles et l'urine considèrent votre message « vendu »
Sur la base de la compréhension sémantique de la technologie et de l'application de la carte des connaissances
données d'image roman coronavirus ensemble de documents analytiques (avec liens)
Watson Kennedy a parlé de la nouvelle infrastructure - l'industrie de l'Internet - valeur Cube (PPT télécharger)
Google auto-développé borne puce AI exposé des progrès importants, Samsung unissent leurs forces pour ordinateur portable téléphones mobiles