Huang Lei doctorat du Nord: Application de la normalisation en profondeur la formation du réseau de neurones | Partager Résumé

Lei Feng réseau par AI Technology Review: technique normalisée a été largement utilisé dans diverses profondeurs réseau de neurones formés, comme la plus grande célèbre normalisation (Lot Normalization, BN) est essentiellement une norme de réseau de formation en profondeur de convolution. Equipé d'un module modèle BN réseau de neurones est généralement plus facile de former que le modèle original, et qui présentent généralement une meilleure capacité de généralisation.

Récemment, sur Lei Feng réseau GAIR Auditorium, étudiant au doctorat de l'Université de Beijing de l'aéronautique et astronautique Huang Lei étudiants élaborera une technologie normalisée pour la motivation principale pour la formation du réseau de neurones et la profondeur de certains de l'introduction grand public de la technologie standardisée, en plus des rapports de personnes Je vais vous l'expliquer publié dans ce sens dans l'essai AAAI 2018 « Orthogonal Poids à l'échelle: Solution d'optimisation sur plusieurs personnes à charge Stiefel Collecteurs dans les réseaux profonds de neurones ». Lecture vidéo Adresse: http: //www.mooc.ai/open/course/478.

Huang Lei, PhD School of Computer Science, Université de Beijing de l'aéronautique et de l'astronautique, avait d'Octobre à Octobre ici à 20152016 pour faire des recherches sur l'optimisation du modèle d'apprentissage en profondeur à l'Université du Michigan, Ann Arbor Vision et apprentissage de laboratoire. Le principal domaine de recherche est la profondeur de la normalisation de la technologie des réseaux de neurones, apprentissage semi-supervisé, l'apprentissage actif et l'application des méthodes de corrélation non paramétriques dans les champs de vision informatique et multimédia. Il a publié des documents universitaires, y compris CVPR, ICCV AAAI et ainsi de suite.

thème Partager : Application de la normalisation en profondeur l'apprentissage du réseau de neurones

grandes lignes de l'action :

1. Introduction Les techniques de normalisation principale de motivation appliquée à la profondeur de la formation des réseaux de neurones et les méthodes connexes.

La principale motivation a) la technologie pour accélérer la normalisation de la formation des réseaux de neurones

b) la principale méthode normalisée décrite

2. Normalisation poids orthogonal: groupe d'apprentissage de filtre en quadrature en commun réseau de neurones en avant.

a) La principale motivation pour apprendre groupe de filtres en quadrature dans le réseau neuronal de la profondeur

b) une pluralité de pondération dépendant paramètre Solution méthode basée sur l'optimisation collecteur Stiefel

c) La présentation résultats

Partager le contenu :

La part comprend deux aspects: Tout d'abord, introduire la technologie standardisée, et, deuxièmement, j'ai publié un document sur la normalisation du poids AAAI -Orthogonal (OWN).

Tout d'abord, expliquez pourquoi vous souhaitez standardiser les opérations sur les données d'entrée, les données d'entrée est opérationnelle normalisée dans l'apprentissage de la machine traditionnelle ou d'extraction de données est commune, première opération normalisée, parce que généralement en mesure d'améliorer le modèle d'efficacité de la formation, qui est un modèle très non paramétrique exemple important KNN, noyau SVM, deux standardisé, car l'optimisation peut améliorer l'efficacité, de sorte que la convergence relativement rapide du modèle, qui sont importants pour le modèle paramétrique.

Maintenant répéter en profondeur pourquoi le réseau de neurones, la valeur d'activation de la couche cachée est très important de normaliser, nous par exemple Multilayer Perceptron pour expliquer.

Je viens de terminer la principale motivation pour normaliser la profondeur de la valeur d'activation du réseau de neurones, puis introduire une certaine normalisation de la technologie. La première méthode est très célèbre lot Normalization, on parle de sa principale motivation.

À côté de nous précisément comment le faire normalisation par lots de normalisation, en fait, pour BN ce qui a trait à la sélection de plusieurs aspects. Le premier aspect est l'opération de normalisation est basée sur l'ensemble des données de formation est entièrement basée sur les données mini-lot? Le deuxième aspect est la quantité de fonctionnement normalisé en tant que paramètre à estimer en fonction ou de données? Le troisième est de savoir si d'effectuer une opération complète de blanchiment ou non? Je vais vous expliquer chaque lot est de savoir comment Normalization choisir et pourquoi choisir.

Sur la base des idées précédentes, lot spécifique mise en uvre Normalization est la suivante. Je voudrais expliquer pourquoi Lot Linéarisation unité sur le dos au lieu de devant de l'unité linéaire, ce qui en fait ne sont pas dans leurs données de motifs de blanchiment opération. Bien sûr, devant et derrière les BN éléments linéaires ont chacun des avantages et des inconvénients.

Ensuite nous parler de lot deux bonnes propriétés Normalization. la formation d'abord, accéléré, et deuxièmement, il y a une généralisation.

Maintenant, je commande en général un peu de lot lié au travail de normalisation, est divisé en quatre zones.

J'introduit petit problème de la taille des lots, extension des travaux de normalisation au blanchiment, l'activation Normaliser Implicitement ces trois domaines. Le premier est le petit problème de taille du lot, je travaille dans l'ordre chronologique de la pertinence et énumérés simplement comparer.

Pour résumer le travail dans ce sens, il est une conception abstraite basée sur une transformation des données d'entrée et de veiller à ce que la transformation est différentiables, afin que nous puissions garantir une distribution stable de chaque lot de données, permettant ainsi la formation stable. Cependant, du point de vue de l'optimisation, je pense qu'il reste des lots mieux faire Normalization.

Ensuite, nous parler sur l'extension des travaux de normalisation au blanchiment dans ce sens. Une opération de blanchiment est de transformer une grandeur liée en tant que paramètre à estimer, une autre quantité connexe est l'opération de blanchiment est considéré comme une fonction des données d'entrée.

La troisième direction est activation Normaliser Implicitement. Être normalisée par le traitement de corrélation des paramètres, la matrice de poids. L'un des premiers travaux il y a Norm propagation.

Ensuite, je parle de mes articles publiés dans AAAI2018 - poids orthogonales technologie normalisée. La raison pour laquelle l'introduction du filtre en quadrature est bon parce qu'il a deux attributs, une propriété retenue d'énergie, et le second, une faible redondance. Les deux propriétés ont de grands avantages pour la distribution et régularisée valeur d'activation du réseau de neurones est des couches de réseau de neurones stables. Il y a aussi quelques travaux antérieurs pertinents en ce sens, mais est seulement limité à la RNN dans la couche cachée à la couche cachée utilisée dans la transformation.

Mais nous nous attendons à en savoir plus ancienne matrice rectangulaire générale orthogonale au réseau de neurones. Il y a aussi une méthode de punition avant d'utiliser des contraintes.

Parce que nous nous attendons à apprendre matrice orthogonale, alors nous pouvons mettre cette question comme un problème d'optimisation des restrictions. Je pose la question définie comme l'optimisation sur plusieurs personnes à charge Stiefel Collecteurs (OMDSM). Il y a deux raisons pour lesquelles ainsi défini, une comprenant une pluralité de sous-flux embarqués, la seconde est la perte de fonction de la surface d'erreur pour chaque matrice de poids interdépendants.

Après avoir défini les problèmes que nous essayons d'utiliser la méthode de Riemann pour résoudre ce problème, mais les résultats ne sont pas satisfaisants.

Inspirés par la transformation orthogonale méthode, et un paramètre de pondération est la conclusion différentiables, notre approche consiste à concevoir une matrice des paramètres d'agent, soumis à la transformation orthogonale de la matrice orthogonale de poids, et l'optimisation des paramètres de la matrice est basée sur l'agent.

Pour assurer la stabilité, il est souhaitable que la matrice orthogonale de pondération de transformation après la matrice et l'agent a une masse surfacique minimum matrice de paramètre de différence. Le chiffre pour la résolution des problèmes peut être le résultat de la figure ci-après.

Avec la transformation de l'avant et des conclusions à ce sujet, nous propagation vers l'arrière peut être telle que l'écoulement à travers le gradient transformation orthogonale. Ces deux processus emballés en tant que module, je l'appelle Orthogonal Module linéaire (OLM).

Enfin, je voudrais aussi être un développement pertinent, par exemple compte tenu de la façon de développer la convolution et ainsi de suite.

Puis brièvement je présente des expériences connexes que je fais.

Les résultats expérimentaux montrent que l'utilisation de l'OLM nous remplacer la couche originale pour améliorer l'efficacité de la formation plus importante. Mon document explique deux choses, on peut d'abord savoir exactement quel réseau de neurones au filtre orthogonal, et en second lieu, cet apprentissage aux filtres en quadrature peuvent renforcer l'effet de la profondeur du réseau de neurones. Je pense que cette approche à d'autres aspects de l'utilisation de la formation GAN peut également obtenir de bons résultats.

Ce sont le réseau Lei Feng de partager tout ce genre de droite. Si vous êtes intéressé à pouvez regarder le replay vidéo: http: //www.mooc.ai/open/course/478.

Bien que Toyota Crown ces dernières années, les ventes ne sont pas idéales, mais une bonne résistance du produit, le prix rentable après
Précédent
"Brave élève" Les affiches Famei Man, Bruce Willis Avatar "Man United States style" héros
Prochain
Il attitude de la chaîne de blocs de médias - Cattle or Finance niujin.com officiellement lancé!
Après l'ajustement de la taxe d'achat est plus cher ou moins cher il faudra voir quelle voiture acheter
Ouvrez pour sauver le monde, en jouant le jeu comme un loup! UCG463 Raiders question spéciale sur le marché
«J'aime ma famille, » l'équipage a réuni en poids après 25 ans, pour la première fois grâce à son ex-mari Indah Song Dandan
Millet première exposition MIUI 9 nouvelles fonctionnalités: Cinq mise à niveau « 6 » pour ne pas travailler
casque de réduction du bruit Microsoft Active corps à corps entrant bénédiction de la commande vocale Cortana
Yang Mi «re enfants», première vision de Toronto, le style documentaire, profondeur des questions sociales Acclaim
Vous devez mourir pour la chasse en direct suprême, mais dans leur propre magasin de vendre ces marques?
Dragon TV Soirée Fête du Printemps Li porter un cheongsam jouant professeur de luth à trois cordes sur les pouces sur place jusqu'à « plus expérimenté »
PSN mars service de téléchargement en Europe et en Amérique liste: « 2 » à travers le blocus sommet répartition trente-quatre « loups » « Devil May Cry »
puce MediaTek ne peut être vendu résurgence? Officiel: inexistant, Ali a répondu l'investissement gros titres d'aujourd'hui des rumeurs, la musique Watch a publié Shu Lei 2017 résultats Feng matin
Pour pouvoir ou de carburant? Comment le dragon asiatique LaCrosse devrait choisir?