La machine n'apprend pas: comp�tences d'apprentissage en profondeur la formation cr�pus une normalisation par lots par lots Normalization

BN a �t� d�velopp� par Google en 2015, qui est une technique de formation du r�seau de neurones profonds, il peut non seulement acc�l�rer le mod�le de convergence, mais surtout dans une certaine mesure att�nu� le probl�me � diffusion gradient � r�seau profond, ce qui profondes marques de formation mod�le de r�seau plus facile et stable. Alors maintenant BN est devenu les techniques de convolution standards quasi-totalit� du r�seau de neurones.

De la signification litt�rale semble lot Normalization (appel� BN) pour chaque lot de donn�es est normalis�, en effet, les donn�es d'une formation de lot particulier {x1, x2, ..., xn}, notez que ces donn�es sont entr�e peut �tre une couche interm�diaire d'une sortie de r�seau. Avant BN se montre, notre exploitation normalis�e g�n�ralement dans la couche d'entr�e de donn�es, l'entr�e de donn�es de la moyenne et cherchent �carts font la normalisation, mais BN semblent briser cette disposition, nous pouvons une dans le r�seau couche traitement de normalisation, puisque la plupart m�thode d'optimisation, nous avons utilis� est min-lot SGD, donc on normalise le fonctionnement devient normalisation par lots.

Pourquoi avons-nous besoin de BN?

Une fois que nous savons le train le r�seau, la mise � jour des param�tres se produira, en plus de la couche d'entr�e de donn�es (donn�es de la couche en entr�e, nous avons artificiellement normalis� pour chaque �chantillon), le r�seau de distribution de donn�es d'entr�e derri�re chaque couche a une dans les changements, comme dans la formation, le param�tre de mise � jour de formation couche avant de la couche arri�re se traduira par un changement dans la distribution de donn�es d'entr�e. Dans la deuxi�me couche de r�seau � titre d'exemple: la seconde couche d'entr�e du r�seau, a �t� calcul�e � partir des param�tres d'entr�e et la premi�re couche, la premi�re couche du param�tre au cours du processus de formation a chang�, provoque donc in�vitablement derri�re chaque entr�e de la couche des changements de distribution de donn�es. Nous couche r�seau interm�diaire dans le processus de formation, en changeant la distribution des donn�es est appel�e: � Covariable interne Shift �. BN propos�, il est � r�soudre dans le processus de formation, la couche interm�diaire de changements de distribution de donn�es.

BN comment faire?

Comme indiqu� ci-dessus, BN �tape est divis� en quatre �tapes:

la moyenne des donn�es pour chaque lot de formation

A la recherche de la variance pour chaque lot de donn�es de formation

Calcul�e en utilisant la moyenne et la variance ne se stabilisent le lot de donn�es de formation pour obtenir 0-1 distribution. o�

est un petit nombre positif � la division �viter par z�ro lorsqu'il est utilis�.

D�calage et de transformation � grande �chelle: X-

xi multipli� par

La valeur de r�glage de la taille, , ainsi que

Apr�s addition d'un d�calage pour donner y

yi, o�

est un facteur d'�chelle,

est un facteur de traduction. Cette �tape est l'essence de la BN, x due apr�s la normalisation

xi distribution sensiblement normale est limit�e, de sorte que la capacit� d'expression du r�seau diminue. Pour r�soudre ce probl�me, nous pr�sentons deux nouveaux param�tres:

est le r�seau au cours de la formation obtiennent leur propre apprentissage.

BN � la fin de r�soudre quoi?

Une �tape de normalisation standard consiste � soustraire la variance moyenne, sauf que cette op�ration de normalisation quel effet? Nous observons la figure suivante,

un milieu est laiss� sans traitement des donn�es d'entr�e, la courbe est fonction sigmo�de, si les donn�es de gradient dans une petite zone, le taux d'apprentissage sera tr�s lent ou m�me tomber dans une longue p�riode de stagnation. Sauvegarder la variance moyenne de l'addition, les donn�es sont d�plac�es vers la droite comme repr�sent� sur la r�gion centrale, pour la majorit� de la fonction d'activation, le gradient dans cette r�gion est la plus grande, ou � gradient (par exemple RELU), qui peut �tre consid�r� comme un moyen efficace contre gradient dispara�t. Pour une telle couche, si les donn�es pour chaque couche de le faire, ainsi que la distribution des donn�es est toujours sensible aux changements dans la r�gion, ce qui �quivaut sans tenir compte des changements de distribution de donn�es, afin de les former plus efficaces.

Alors, pourquoi avoir l'�tape 4, en plus non seulement en utilisant l'op�ration de r�duction de la variance moyenne sera en mesure d'obtenir l'effet d�sir�? Nous pensons � un probl�me, on obtient en plus de la distribution de la variance de la r�duction moyenne d'une distribution normale, on peut consid�rer la distribution normale est le meilleur ou incarne le mieux les caract�ristiques de notre distribution d'�chantillons de formation de celui-ci? Ne peut pas, par exemple des donn�es est lui-m�me fonction asym�trique ou d'activation ne sont pas n�cessairement les meilleurs donn�es de performance de variance 1, comme fonction d'activation sigmo�de, peu de d�nivel� entre -1 et 1, l'effet de la transformation non-lin�aire il ne peut pas tr�s bien r�fl�chi, autrement dit, la variance de la r�duction moyenne, en plus de l'op�ration peut affaiblir la performance du r�seau! Dans ce cas, l'ajout de l'�tape 4 dans les trois �tapes pr�c�dentes apr�s l'ach�vement d'une v�ritable normalisation des lots.

BN est l'essence m�me du changement en contradiction avec la taille optimis�e et l'emplacement signifie que la nouvelle r�partition de la distribution r�elle des donn�es plus pertinentes et d'assurer le mod�le d'expression non lin�aire. BN est le cas extr�me de ces deux param�tres �gale � la mini-s�rie de la moyenne et la variance, puis par l'entr�e de donn�es de la normalisation des lots apr�s exactement la m�me chose, bien s�r, la situation g�n�rale est diff�rente.

Comment moyenne et la variance de la pr�vision de la demande?

En formation, nous allons r�soudre le m�me lot de la moyenne et la variance des donn�es, puis les op�rations normalis�es. Mais pour pr�dire comment la demande, nous entendons et de la variance de celui-ci? Par exemple, nous pr�voyons un seul �chantillon, et qui est aussi comment ah m�thode de calcul de la moyenne! En fait, c'est le chemin, la moyenne et la variance pour la phase de pr�vision utilis�e, en effet, est d�riv� de l'ensemble de la formation. Par exemple, lorsque nous enregistrons la formation du mod�le que nous entendons et de la variance dans chaque lot, jusqu'� ce que la formation est termin�e, nous trouvons la moyenne et la variance des attentes � travers les �chantillons de formation, r�alis�es moyenne et la variance de BN comme nous pr�voyons:

phase finale de test, BN � l'aide de la formule est:

BN est une position sur l'utilisation, en g�n�ral CNN avant que la fonction d'activation non lin�aire est appliqu�e, de la fonction de type s (x) de l'argument x est le r�sultat du traitement par l'interm�diaire du BN. Ainsi, la formule de calcul de conduction directe doit �tre:

En fait, �tant donn� que le param�tre offset b apr�s couche BN est en fait d'aucune utilit�, sera la derni�re normalisation moyenne, bien s�r, il y a un param�tre couche derri�re BN comme un terme de polarisation, b de sorte que le param�tre ne peut pas. Ainsi, la derni�re fonction d'activation de la couche + couche BN devient:

CNN BN

La fa�ade de la note est �crite pour le cas g�n�ral, pour un r�seau de neurones de convolution est l�g�rement diff�rente. Du fait que le r�seau neuronal convolutif caract�ris� en ce que la r�ponse correspond � une caract�ristique entier sur la figure, BN devrait le faire en fonction de la courbe de r�ponse de chaque dimension � la place de l'unit�. Par exemple, dans une couche, la taille du lot m, en r�ponse taille figure w � h, puis faire la quantit� de donn�es de BN est m � p � h.

BN r�le DNN est clair: Si vous rencontrez une convergence lente de la formation des r�seaux de neurones, ou � explosion gradient � et BN peut essayer de r�soudre la situation lorsqu'ils ne sont pas la formation a lieu. En m�me temps, en utilisation normale peut �galement �tre ajout� pour acc�l�rer la formation du mod�le BN, et m�me d'am�liorer la pr�cision du mod�le.

Route de la soie

Apprenez � conna�tre la Chine

La machine n'apprend pas: comp�tences d'apprentissage en profondeur la formation cr�pus une normalisation par lots par lots Normalization