Au-delà de Ho Kai Ming groupe normalisé Groupe Normalization, Hong Kong équipe chinoise est venu d'adapter passage normalisé

Lei Feng réseau AI Technology Review: Hong Kong chinois les dernières études de papier ont montré que même la profondeur actuelle du réseau de neurones dans l'annotation manuel de formation standard de la base de données (par exemple IMAGEnet), la performance, il y aura la volatilité. Dans ce cas, l'utilisation de petites quantités de données à mettre à jour les paramètres du réseau de neurones est plus grave. L'étude a révélé cela est dû à BN (lot Normaliser) causé. BN est la méthode de normalisation proposée par Google en 2015. 5000+ citations a été largement utilisé dans le monde universitaire et l'industrie. SN (Switchable Normaliser) Hong Kong équipe chinoise a mis en avant pour résoudre la pénurie de BN. Dans le jeu de données à l'échelle IMAGEnet SN et la précision de reconnaissance d'images de détection d'objets grands ensembles de données Microsoft COCO, mais dépasse également le Facebook a récemment proposé par Ho et al Kai Ming groupe normalisé GN (Groupe Normaliser). S'il vous plaît se référer à l'article original arXiv: 1806,10779 Code et Github.

Contexte de lecture:

* IMAGEnet base de données de reconnaissance d'images à grande échelle. Le professeur Li Feifei fondé par l'Université de Stanford en 2009. La concurrence dans IMAGEnet du taux de reconnaissance, connu comme la vision par ordinateur Olympiade.

* Microsoft COCO est actuellement le plus largement utilisé des ensembles de données de détection et de segmentation d'objets. COCO Défi organisé chaque année pour attirer un grand nombre d'entreprises et de laboratoires nationaux et étrangers bien connus impliqués, y compris Google, Facebook, Berkely et ainsi de suite.

* BN (normalisation par lots) est une méthode de normalisation proposée par Google en 2015. Il a été cité plus de 5000 fois, largement utilisé dans le monde universitaire et l'industrie. Presque toutes les grandes architecture du réseau de neurones utilise un BN, tel que Microsoft Research Asia présenté réseau de neurones résiduels (ResNet, CVPR 2016 meilleur papier) et DenseNet (CVPR 2017 meilleur papier) proposé par l'Université Cornell.

* SN est la méthode de normalisation à l'équipe chinoise de Hong Kong a récemment proposé. Outre sa normalisation du taux de reconnaissance des IMAGEnet. SN formé en utilisant ResNet50 a atteint 77,5% du taux de reconnaissance supérieur 1. Ceci est le résultat le plus élevé dans le rapport actuel sur le modèle ResNet50, plus que le modèle dominant la plate-forme d'apprentissage en profondeur fourni, par exemple tensorflow, PyTorch, Caffe et ainsi de suite. Il est intéressant de noter que ce résultat encore plus que la couche résiduelle du modèle de réseau de neurones 101. Le modèle est déjà open source et disponible en téléchargement.

Nous commençons par une vue sur la carte normalisation des lots des goulots d'étranglement rencontrés dans BN. La figure ResNet l'axe vertical représente un modèle de réseau neuronal à la précision de la reconnaissance de l'image de IMAGEnet (le plus haut), l'axe horizontal représente le nombre d'échantillons de la formation à jour réseau ordre décroissant. ligne bleue, ligne rouge et les lignes vertes indiquent la précision du modèle de formation de Google BN, GN et SN Facebook proposé par les Chinois de Hong Kong. Comme on peut le voir, lorsque le modèle nombre d'échantillons utilisés pour mettre à jour le réseau (également connu sous le nom « lot ») diminue, le taux de reconnaissance BN d'une forte baisse. Égale à 16 comme masse, BN a diminué de 11% par rapport au taux de reconnaissance de modèle modèle de SN. Lorsque le lot est égal à 8, le modèle de taux de reconnaissance d'image BN inférieur à 50%.

BN cause une dégradation des performances?

BN (normalisation par lots) est une méthode de normalisation. se réfère généralement à des données normalisées dans une distribution avec une moyenne de 0 et une variance 1 dans la distribution. Pour ce faire, BN doit estimer la moyenne et la variance de la normalisation des données de formation en cours de fonctionnement. Comme la quantité de données de formation est grande (IMAGEnet Il y a des millions de données), on estime que ces statistiques nécessitent beaucoup de calcul. Par conséquent, ces deux statistiques utilisent généralement un petit lot de données pour estimer. Cependant, lorsque des quantités plus petites, par exemple 32, ces statistiques sur la carte des estimations inexactes, résultant du taux de reconnaissance a commencé à diminuer de manière significative. Tout comme vous avez besoin d'estimer le score moyen de l'école, seule une classe statistique est inexacte. Par conséquent, BN conduira à une perte de performance.

Étant donné que l'effet de la variation BN en petites quantités que nous pouvons éviter l'utilisation de petites quantités de celui-ci la formation?

Pourquoi avons-nous besoin de petites quantités d'apprentissage?

Il y a deux raisons. Tout d'abord, dans le processus de formation du réseau de neurones en profondeur, souvent besoin de centaines de mise à jour des millions de paramètres de niveau, et dans de nombreuses applications pratiques doivent former la taille de l'image est si grand (par exemple 1000x1000 ou plus), de sorte que le nombre peut être mis dans l'image est très GPU faible (typiquement inférieur à 2). Cela se produit souvent dans la détection d'objets, la segmentation de la scène, et les tâches de reconnaissance entre la vidéo, ils ont largement utilisé dans la surveillance vidéo et pilote automatique. Cependant, comme précédemment représenté sur la figure, lorsque le nombre d'échantillons pour réduire la formation du réseau (petit volume), il devient difficile de faire la formation. D'une manière générale, plus le lot, le processus de formation plus instable. groupe Facebook normalisation présenté (GN) est de résoudre les problèmes ci-dessus.

La photo montre des exemples de détection et de segmentation objet

En second lieu, la profondeur des réseaux de neurones utilisent généralement beaucoup de formation GPUs. Les méthodes de formation peuvent être divisés en deux catégories: l'exercice de formation synchrone et asynchrone. les paramètres représentatifs de formation de nécessité de mise à jour de synchronisation de réseau pour être synchronisés parmi la pluralité de GPU; procédé asynchrone de formation est décentralisé. Il se trouve dans les avantages que la formation synchrone, les paramètres réseau peuvent être mis à jour séparément dans chaque GPU qui ne nécessite pas de synchronisation. Cependant, parce que le réseau prennent beaucoup de mémoire, un processeur graphique unique ne peut mettre bas une petite quantité d'échantillons de formation, ce qui empêche les paramètres de mise à jour dans un GPU, ce qui rend la formation asynchrone impossible.

De ces raisons qu'un lot de technologies sensibles n'est pas nécessaire.

Hong Kong solution chinoise

Afin de résoudre les problèmes ci-dessus, l'équipe chinoise de Hong Kong est venu avec la normalisation auto-adaptatif SN (Switchable Norm). Il unifie les méthodes de normalisation classiques, comme lot BN normalisé, des exemples de IN normalisé (Instance Norm fait en 16 ans et arXiv: 1607,08022 Publication), une LN couche normalisée (couche Norm comme un Geoffrey Hinton dans les 16 ans proposées dans arXiv: 1607,06450 public), et le groupe normalisé GN et ainsi de suite. SN réseau de neurones permet différent normalisé couche auto-apprentissage différente opération de normalisation. Et le renforcement différent d'apprentissage, en utilisant l'apprentissage différentiel de SN, de sorte que l'opération de normalisation de sélection peut être effectuée simultanément et l'optimisation des paramètres du réseau, afin d'optimiser l'efficacité tout en assurant des performances élevées est également maintenue. Une adaptation d'explication intuitive normalisée à partir de la photo. Il coefficients de pondération par l'apprentissage de la méthode différente de normalisation pour sélectionner une autre opération.

Comment résoudre le problème de la BN

La figure suivante à gauche représente un réseau de neurones sous-réseau, et un réseau de neurones complet se compose souvent des dizaines de sous-réseaux. Et la structure précitée ResNet DenseNet peut être classé comme tel. Dans un sous-réseau, il peut y avoir une pluralité de couches de BN. En d'autres termes, un réseau de neurones peut avoir des centaines BN couches.

Nous appelons une couche BN est situé est une couche de normalisation. Alors, pourquoi dans la structure du réseau de neurones grand public, toutes les couches BN normalisé ne l'utilise?

Presque tous les réseaux de neurones de toutes les couches de normalisation en utilisant la même opération de normalisation. En effet, un manuel pour l'opération de normalisation de chaque couche nécessite beaucoup d'expériences, de temps.

En raison de ce problème, de sorte que le système d'apprentissage en profondeur ne peut pas atteindre des performances optimales. Intuitivement, l'équipe chinoise de Hong Kong estime que l'opération de normalisation devrait être en mesure d'obtenir par l'apprentissage, autre couche de normalisation devrait permettre l'utilisation de différentes opérations libres normalisé. Comme on le voit sur la droite. La figure, toutes les couches sous-réseau utilise le SN normalisé. Il est capable d'apprendre pour chaque stratégie de normalisation de la couche de normalisation, il peut être BN, IN, LN, GN ou des combinaisons de ceux-ci.

SN apprendre différentes combinaisons de la politique de normalisation pour éviter la BN de petites quantités d'émission particulièrement sensibles.

Comme le montre la figure abord, lorsque la charge est progressivement réduite, le SN de maintenir le taux de reconnaissance optimale.

comparaison SN avec le GN

groupe GN normalisé par Facebook Ho Kai méthode de normalisation Ming a récemment proposé. La méthode pour résoudre le lot normalisé BN en petites quantités pour optimiser la dégradation des performances des problèmes évidents. Intuitivement, plus le lot, la formation plus instable, le modèle formé, plus le taux de reconnaissance. équipe Kai-Ming Ho démontrent l'efficacité de nombreuses expériences GN: par exemple, parmi IMAGEnet, de petites quantités GN dans des conditions d'obtention d'un taux de reconnaissance est beaucoup plus élevé que le taux de reconnaissance du BN. Cependant, dans des conditions de vrac normale, le taux de reconnaissance est pas GN BN.

Comme mentionné précédemment, SN est un réseau de neurones pour résoudre une autre opération de normalisation de la couche de normalisation de l'apprentissage automatique proposé. Hong Kong équipe chinoise a trouvé, SN et GN que possible pour obtenir le taux de reconnaissance élevé dans des conditions de faible volume. Et, SN dans des conditions normales que vrac GN, plus encore que le BN. Par exemple, dans le cas d'un lot de 256, en utilisant le SN train ResNet50 précision IMAGEnet peut atteindre plus de 77,5%, la précision et le réseau formé avec GN et BN pour 75,9% et 76,4%, respectivement.

résultat

Hong Kong équipe chinoise pour vérifier les performances d'une normalisation auto-adaptatif SN dans la pluralité des tâches visuelles, y compris la reconnaissance d'image, détection d'objets, la segmentation d'objets, vidéo apprécié que l'image et le cycle de style des réseaux de neurones tels que la recherche de la structure du réseau de neurones. Ci-dessous une détection d'objet par exemple, la comparaison SN, BN et GN données de détection d'objets Microsoft COCO définis dans le résultat de la détection.

Et la classification d'image est différente pour tâche de détection et de segmentation objet, le nombre d'images de chaque GPU est généralement seulement 1-2. Dans ce cas, l'effet BN sera considérablement réduite. Le SN peut être efficacement étendu aux différents modèles de détection, ainsi que différentes profondeurs plate-forme d'apprentissage. Le tableau suivant présente les résultats sur SN Mask R-CNN et plus rapide R-CNN, nous pouvons voir SN a tenu la tête de la précision de l'indice.

papier original tout en montrant l'effet de SN sur l'image du style, ainsi que la structure du réseau de la recherche, les détails du papier visible.

Documents connexes:

1. BN: S. Ioffe et C. Szegedy Lot normalisation: .. Accélérer la formation du réseau profond en réduisant changement covariable interne En ICML 2015

2. GN :. Y. Wu et K. Il normalisation Groupe arXiv :. 1803,08494, 2018

3. SN: Luo Ping, Jiamin Ren, Zhanglin Peng, Différentiable apprentissage à Normaliser via Switchable Normalization, arXiv: 1806.10779,2018

Salaire mensuel de 5000 ne peuvent pas se permettre une voiture? Il est préférable de jeter un oeil à plusieurs voix
Précédent
phare Millet vraiment frappé, la sécurité lapin a couru sous au-delà Vivonex!
Prochain
Votre oncle ou votre oncle! 360 N5S mille Yuan killer libéré
5 milliards de module cellulaire de choses, NB-IdO contribuera à la moitié?
la force d'innovation intelligente conduite réuni dans la ville de Suzhou, bourgeonnement « Innovation Automobile Camp »
Voilà pourquoi j'ai choisi les sons de la nature, plutôt que l'Accord et Camry
Une nouvelle génération de noix Pro bientôt libéré, mais le nom n'est pas le Pro3 noix!
Une fois et Faker 50-50 les hommes, la mauvaise santé, DOPA afin que les utilisateurs affligés!
Pour compter sur ce « noyau dur » avec Snapdragon 660 paires ont monté en flèche? Exposition Huawei nova 2
« Spider-Man: univers parallèle » pour vous envoyer un cadeau imaginer la subversion de Noël dynamitage pièce fraîche annuelle frappé
Vente de deux traitements de différence de couleur? ! Air Jordan 9 "Gant de baseball" en nature HD AE
Semblable à la OPPO R15, 800 yuans moins cher que le OPPO R15!
Apprenez à vous la recette pour obtenir des compétences uniques de LSTMS (avec le code)
Il a dit que plusieurs espace et le siège SUV, je peux dormir dans un jour