Huang Lei doctorat du Nord: Application de la normalisation en profondeur la formation du r�seau de neurones

Lei Feng r�seau par AI Technology Review: technique normalis�e a �t� largement utilis� dans diverses profondeurs r�seau de neurones form�s, comme la plus grande c�l�bre normalisation (Lot Normalization, BN) est essentiellement une norme de r�seau de formation en profondeur de convolution. Equip� d'un module mod�le BN r�seau de neurones est g�n�ralement plus facile de former que le mod�le original, et qui pr�sentent g�n�ralement une meilleure capacit� de g�n�ralisation.

R�cemment, sur Lei Feng r�seau GAIR Auditorium, �tudiant au doctorat de l'Universit� de Beijing de l'a�ronautique et astronautique Huang Lei �tudiants �laborera une technologie normalis�e pour la motivation principale pour la formation du r�seau de neurones et la profondeur de certains de l'introduction grand public de la technologie standardis�e, en plus des rapports de personnes Je vais vous l'expliquer publi� dans ce sens dans l'essai AAAI 2018 � Orthogonal Poids � l'�chelle: Solution d'optimisation sur plusieurs personnes � charge Stiefel Collecteurs dans les r�seaux profonds de neurones �. Lecture vid�o Adresse: http: //www.mooc.ai/open/course/478.

Huang Lei, PhD School of Computer Science, Universit� de Beijing de l'a�ronautique et de l'astronautique, avait d'Octobre � Octobre ici � 20152016 pour faire des recherches sur l'optimisation du mod�le d'apprentissage en profondeur � l'Universit� du Michigan, Ann Arbor Vision et apprentissage de laboratoire. Le principal domaine de recherche est la profondeur de la normalisation de la technologie des r�seaux de neurones, apprentissage semi-supervis�, l'apprentissage actif et l'application des m�thodes de corr�lation non param�triques dans les champs de vision informatique et multim�dia. Il a publi� des documents universitaires, y compris CVPR, ICCV AAAI et ainsi de suite.

th�me Partager : Application de la normalisation en profondeur l'apprentissage du r�seau de neurones

grandes lignes de l'action :

1. Introduction Les techniques de normalisation principale de motivation appliqu�e � la profondeur de la formation des r�seaux de neurones et les m�thodes connexes.

La principale motivation a) la technologie pour acc�l�rer la normalisation de la formation des r�seaux de neurones

b) la principale m�thode normalis�e d�crite

2. Normalisation poids orthogonal: groupe d'apprentissage de filtre en quadrature en commun r�seau de neurones en avant.

a) La principale motivation pour apprendre groupe de filtres en quadrature dans le r�seau neuronal de la profondeur

b) une pluralit� de pond�ration d�pendant param�tre Solution m�thode bas�e sur l'optimisation collecteur Stiefel

c) La pr�sentation r�sultats

Partager le contenu :

La part comprend deux aspects: Tout d'abord, introduire la technologie standardis�e, et, deuxi�mement, j'ai publi� un document sur la normalisation du poids AAAI -Orthogonal (OWN).

Tout d'abord, expliquez pourquoi vous souhaitez standardiser les op�rations sur les donn�es d'entr�e, les donn�es d'entr�e est op�rationnelle normalis�e dans l'apprentissage de la machine traditionnelle ou d'extraction de donn�es est commune, premi�re op�ration normalis�e, parce que g�n�ralement en mesure d'am�liorer le mod�le d'efficacit� de la formation, qui est un mod�le tr�s non param�trique exemple important KNN, noyau SVM, deux standardis�, car l'optimisation peut am�liorer l'efficacit�, de sorte que la convergence relativement rapide du mod�le, qui sont importants pour le mod�le param�trique.

Maintenant r�p�ter en profondeur pourquoi le r�seau de neurones, la valeur d'activation de la couche cach�e est tr�s important de normaliser, nous par exemple Multilayer Perceptron pour expliquer.

Je viens de terminer la principale motivation pour normaliser la profondeur de la valeur d'activation du r�seau de neurones, puis introduire une certaine normalisation de la technologie. La premi�re m�thode est tr�s c�l�bre lot Normalization, on parle de sa principale motivation.

� c�t� de nous pr�cis�ment comment le faire normalisation par lots de normalisation, en fait, pour BN ce qui a trait � la s�lection de plusieurs aspects. Le premier aspect est l'op�ration de normalisation est bas�e sur l'ensemble des donn�es de formation est enti�rement bas�e sur les donn�es mini-lot? Le deuxi�me aspect est la quantit� de fonctionnement normalis� en tant que param�tre � estimer en fonction ou de donn�es? Le troisi�me est de savoir si d'effectuer une op�ration compl�te de blanchiment ou non? Je vais vous expliquer chaque lot est de savoir comment Normalization choisir et pourquoi choisir.

Sur la base des id�es pr�c�dentes, lot sp�cifique mise en uvre Normalization est la suivante. Je voudrais expliquer pourquoi Lot Lin�arisation unit� sur le dos au lieu de devant de l'unit� lin�aire, ce qui en fait ne sont pas dans leurs donn�es de motifs de blanchiment op�ration. Bien s�r, devant et derri�re les BN �l�ments lin�aires ont chacun des avantages et des inconv�nients.

Ensuite nous parler de lot deux bonnes propri�t�s Normalization. la formation d'abord, acc�l�r�, et deuxi�mement, il y a une g�n�ralisation.

Maintenant, je commande en g�n�ral un peu de lot li� au travail de normalisation, est divis� en quatre zones.

J'introduit petit probl�me de la taille des lots, extension des travaux de normalisation au blanchiment, l'activation Normaliser Implicitement ces trois domaines. Le premier est le petit probl�me de taille du lot, je travaille dans l'ordre chronologique de la pertinence et �num�r�s simplement comparer.

Pour r�sumer le travail dans ce sens, il est une conception abstraite bas�e sur une transformation des donn�es d'entr�e et de veiller � ce que la transformation est diff�rentiables, afin que nous puissions garantir une distribution stable de chaque lot de donn�es, permettant ainsi la formation stable. Cependant, du point de vue de l'optimisation, je pense qu'il reste des lots mieux faire Normalization.

Ensuite, nous parler sur l'extension des travaux de normalisation au blanchiment dans ce sens. Une op�ration de blanchiment est de transformer une grandeur li�e en tant que param�tre � estimer, une autre quantit� connexe est l'op�ration de blanchiment est consid�r� comme une fonction des donn�es d'entr�e.

La troisi�me direction est activation Normaliser Implicitement. �tre normalis�e par le traitement de corr�lation des param�tres, la matrice de poids. L'un des premiers travaux il y a Norm propagation.

Ensuite, je parle de mes articles publi�s dans AAAI2018 - poids orthogonales technologie normalis�e. La raison pour laquelle l'introduction du filtre en quadrature est bon parce qu'il a deux attributs, une propri�t� retenue d'�nergie, et le second, une faible redondance. Les deux propri�t�s ont de grands avantages pour la distribution et r�gularis�e valeur d'activation du r�seau de neurones est des couches de r�seau de neurones stables. Il y a aussi quelques travaux ant�rieurs pertinents en ce sens, mais est seulement limit� � la RNN dans la couche cach�e � la couche cach�e utilis�e dans la transformation.

Mais nous nous attendons � en savoir plus ancienne matrice rectangulaire g�n�rale orthogonale au r�seau de neurones. Il y a aussi une m�thode de punition avant d'utiliser des contraintes.

Parce que nous nous attendons � apprendre matrice orthogonale, alors nous pouvons mettre cette question comme un probl�me d'optimisation des restrictions. Je pose la question d�finie comme l'optimisation sur plusieurs personnes � charge Stiefel Collecteurs (OMDSM). Il y a deux raisons pour lesquelles ainsi d�fini, une comprenant une pluralit� de sous-flux embarqu�s, la seconde est la perte de fonction de la surface d'erreur pour chaque matrice de poids interd�pendants.

Apr�s avoir d�fini les probl�mes que nous essayons d'utiliser la m�thode de Riemann pour r�soudre ce probl�me, mais les r�sultats ne sont pas satisfaisants.

Inspir�s par la transformation orthogonale m�thode, et un param�tre de pond�ration est la conclusion diff�rentiables, notre approche consiste � concevoir une matrice des param�tres d'agent, soumis � la transformation orthogonale de la matrice orthogonale de poids, et l'optimisation des param�tres de la matrice est bas�e sur l'agent.

Pour assurer la stabilit�, il est souhaitable que la matrice orthogonale de pond�ration de transformation apr�s la matrice et l'agent a une masse surfacique minimum matrice de param�tre de diff�rence. Le chiffre pour la r�solution des probl�mes peut �tre le r�sultat de la figure ci-apr�s.

Avec la transformation de l'avant et des conclusions � ce sujet, nous propagation vers l'arri�re peut �tre telle que l'�coulement � travers le gradient transformation orthogonale. Ces deux processus emball�s en tant que module, je l'appelle Orthogonal Module lin�aire (OLM).

Enfin, je voudrais aussi �tre un d�veloppement pertinent, par exemple compte tenu de la fa�on de d�velopper la convolution et ainsi de suite.

Puis bri�vement je pr�sente des exp�riences connexes que je fais.

Les r�sultats exp�rimentaux montrent que l'utilisation de l'OLM nous remplacer la couche originale pour am�liorer l'efficacit� de la formation plus importante. Mon document explique deux choses, on peut d'abord savoir exactement quel r�seau de neurones au filtre orthogonal, et en second lieu, cet apprentissage aux filtres en quadrature peuvent renforcer l'effet de la profondeur du r�seau de neurones. Je pense que cette approche � d'autres aspects de l'utilisation de la formation GAN peut �galement obtenir de bons r�sultats.

Ce sont le r�seau Lei Feng de partager tout ce genre de droite. Si vous �tes int�ress� � pouvez regarder le replay vid�o: http: //www.mooc.ai/open/course/478.

Route de la soie

Apprenez � conna�tre la Chine

Huang Lei doctorat du Nord: Application de la normalisation en profondeur la formation du r�seau de neurones | Partager R�sum�