Trois lots de domaine de connaissances normalis� (articles Code) | apprentissage machine que vous rencontrerez la � fosse �

BN utilisation de Keras

Un grand nombre dans le cadre de la normalisation des lots (ci-apr�s d�nomm� BN) op�rations dans une pratique particuli�re est tr�s simple, ne fait pas exception � keras, il suffit d'ajouter la couche BN dans le mod�le, cela signifie que face � couche en normalisation :

de BatchNormalization d'importation de keras.layers comme BN

BN (epsilon = 0,001, centre = True, �chelle = True, beta_initializer = 'z�ros', gamma_initializer = 'les')

Ici principalement sur les param�tres li�s au processus de formation. Nous utilisons les r�glages des param�tres par d�faut officiels, o� epsilon (

) Est l'�cart type estim� au n�cessaire d'ajouter un nombre tr�s faible de la variance, ne peut pas �tre d�finie pour �viter gradient:

centre (

) Et l'�chelle (

) Est de deux param�tres d'apprentissage peuvent �tre mesur�s de nouveau, nous avons mis � vrai, cela signifie que nous pouvons apprendre � utiliser ces deux param�tres.

En particulier l'utilisation de nous, peut �tre retenir s�lectivement ou de rejeter certains. Enfin, la m�thode peut apprendre l'initialisation des param�tres, nous pouvons utiliser keras l'initialisation se fait.

Les programmes de recherche et m�thodes

Nous avons principalement discut� de plusieurs questions mentionn�es dans un article paru dans la th�orie:

En g�n�ral, BN peut vraiment acc�l�rer la formation elle?
Ne tenez compte que l'�chelle de fonction, sans tenir compte de changement de covariable interne, avec l'augmentation de la couche BN, la formation ne sera pas mieux en mieux?
Si le poids a chang� les param�tres du probl�me des couches coordonnent la mise � jour, puis en l'algorithme d'apprentissage adaptatif de vitesse et de BN vont obtenir de meilleurs r�sultats, il?
Nous utilisons un lot diff�rent dans la formation, BN aura un look d'impact comme?

Nous faisons toujours utiliser ensemble de donn�es de formation MNIST, d'utiliser l'ancienne structure (ou de mieux voir l'effet, de sorte que nous pouvons r�seau plus profond propre), enregistrer les r�sultats de la formation, des r�sultats optimaux ont �t� observ�s. Dans certains cas, dans la phase de test, il prend la sortie de chaque couche, les r�sultats de l'observation.

formation acc�l�r�e BN

Nous avons d'abord les donn�es d'importation, faites-le avec le codage d'un chaud, normalis�:

importer numpy comme np

de keras.datasets mnist d'importation

de keras.utils to_categorical d'importation

# Importer des donn�es

(X_train, y_train), (X_test, y_test) = mnist.load_data ()

train_labels = to_categorical (y_train)

test_labels = to_categorical (y_test)

X_train_normal = X_train.reshape (60000,28 * 28)

X_train_normal = X_train_normal.astype ( 'float32') / 255

X_test_normal = X_test.reshape (10000, 28 * 28)

X_test_normal = X_test_normal.astype ( 'float32') / 255

Et en utilisant une fonction sigmo�de comme une unit� cach�e au commun de construction anticipatrice r�seau de neurones:

importer numpy comme np

de keras.datasets mnist d'importation

de keras.models importer s�quentielle

de keras.layers Dense d'importation

de optimiseurs d'importation KERAS

de BatchNormalization d'importation de keras.layers comme BN

def �normal_model (a):

mod�le s�quentiel = ()

model.add (Dense (512, activation = a, input_shape = (28 * 28,)))

model.add (Dense (256, activation = a))

model.add (Dense (128, activation = a))

model.add (Dense (64, activation = a))

model.add (Dense (10, activation = 'softmax'))

model.compile (optimiseur = optimizers.SGD (dynamique = 0,9, nesterov = True), \

perte = 'categorical_crossentropy', \

m�triques = )

retour (Mod�le)

Ajout d'une couche de BN sur la base du mod�le ci-dessus, comme un nouveau mod�le:

def �BN_model (a):

mod�le s�quentiel = ()

model.add (Dense (512, activation = a, input_shape = (28 * 28,)))

model.add (BN ())

model.add (Dense (256, activation = a))

model.add (Dense (128, activation = a))

model.add (Dense (64, activation = a))

model.add (Dense (10, activation = 'softmax'))

model.compile (optimiseur = optimizers.SGD (dynamique = 0,9, nesterov = True), \

perte = 'categorical_crossentropy', \

m�triques = )

retour (Mod�le)

Deux mod�les de formation � 10 �poques, pour observer ses performances:

Mod�le_1 = normal_model ( 'sigmo�de')

his_1 = model_1.fit (X_train_normal, train_labels, batch_size = 128, validation_data = (X_test_normal, test_labels), verbeux = 1, �poques = 10)

w1 = his_1.history

model_2 = BN_model ( 'sigmo�de')

his_2 = model_2.fit (X_train_normal, train_labels, batch_size = 128, validation_data = (X_test_normal, test_labels), verbeux = 1, �poques = 10)

w2 = his_2.history

matplotlib.pyplot importation comme plt

Seaborn d'importation comme sns

sns.set (style = 'whitegrid')

plt.plot (plage (10), w1 , '-.', label = 'Sans BN)

plt.plot (plage (10), w2 , '-.', label = 'Avec BN_1')

plt.title ( 'sigmo�de')

plt.xlabel ( '�poques')

plt.ylabel ( 'perte')

plt.legend ()

Comme le montre, vous pouvez voir juste ajouter une couche de BN, le taux de convergence devient plus �lev� que le mod�le sans ajouter beaucoup plus rapide.

Nous avions � communs unit�s cach�es � � l'aide Relu au lieu de sigmo�de, le taux de convergence devient plus rapide, alors nous serons si la couche BN Relu a d�montr� si bien les unit�s cach�es pour acc�l�rer encore? Nous allons utiliser Relu, pour observer ses effets:

Comme on le voit, comme Relu �tre soulag�es par l'interm�diaire d'un gradient approximativement lin�aire de disparaissant sigmo�de, mais BN est d�pendant des actes en affaiblissant entre les couches, le BN peut en outre acc�l�rer la convergence sur la base Relu.

BN augmenter le nombre de couches

Sur la base de notre compr�hension du BN si elle est vraiment d'acc�l�rer la convergence en affaiblissant la d�pendance entre les couches (ou affaiblir le shfit covariable interne dans le processus de repr�sentation) pour nos mod�les 4 couches, puis ajoutez seulement une couche de BN, est ind�pendante du sous-jacent avec les trois autres au large, trois couches d'optimisation est une influence encore les uns des autres. Par cons�quent, il est pr�vu que, si l'on ajoute la couche BN, la vitesse de convergence devient plus rapide.

La pratique sp�cifique, nous nous tournons pour construire quatre mod�les, chacun avec diff�rentes couches de BN et ont �t� form�s pour donner perte Avec le changement de la carte �poques:

Comme repr�sent�, le mod�le en utilisant la fonction d'activation sigmo�de, et l'effet de la vitesse de convergence augmente � mesure que le nombre de couches augmente, l'utilisation du mod�le ne semble pas num�ro RELU sensible de couches de BN, en utilisant une couche d'un empilement sans diff�rence significative, cela est tr�s probablement parce que le r�seau est assez profond, Relu ajouter une couche de BN semble avoir atteint les limites de cette optimisation du mod�le.

algorithme de taux d'apprentissage adaptatif par rapport � BN

Notre prochain code ne traitera pas Relu, parce que la fonction d'activation du mod�le semble avoir un plus grand espace d'accord, nous sommes �galement facile de voir son effet. Pour ce faire relativement simple, nous changeons l'algorithme algorithme SGD Adam, d'une part, nous pouvons ajouter le mod�le d'algorithme d'optimisation des taux d'apprentissage adaptatif n'utilise pas la couche BN, d'autre part, nous pouvons ajouter le mod�le � utiliser la couche BN adapter l'algorithme d'optimisation de taux d'apprentissage pour voir si acc�l�rer la convergence.

Selon la connaissance, BN et le taux d'apprentissage adaptatif est de changer l'amplitude de la mise � jour des param�tres des deux moyens, dans la mesure du possible de conserver les param�tres sont mis � jour l'ampleur dans un ordre de grandeur, et il n'y a pas hi�rarchique.

La pratique sp�cifique, nous d�finissons deux nouveaux mod�les bas�s sur le mod�le ci-dessus, celui-ci n'utilise pas BN, mais avec Adam, et l'autre en utilisant BN, �galement utiliser l'algorithme Adam, et par rapport au d�but des deux mod�les, doivent faire attention nous gardons Adam et le taux d'apprentissage SGD devraient �tre les m�mes, sont de 0,01, les param�tres par d�faut dans les deux keras pas le m�me, r�gler manuellement:

Comme le montre, nous avons trouv� ajouter le mod�le d'algorithme Adam bas� sur l'utilisation du BN, de sorte que d'acc�l�rer encore le mod�le de convergence, sans utiliser le mod�le BN, ajoutez algorithme Adam, et BN a �galement fait le m�me effet.

impact Lot

On peut voir en th�orie, la normalisation est effectu�e sur la base du lot, le lot est un sous-ensemble de l'ensemble de la formation, sa taille influera directement sur le calcul de la moyenne et la variance de BN, il est probable que chaque lot a une autre moyenne et la variance.

On suppose que pour la d�termination du lot, les param�tres normalis�s sont fix�s. variance r�duite (variance non BN) entre les lots taille de lot augmente, ce qui rend le r�seau ont une volatilit� plus grande. Notez, cependant, m�me sans l'utilisation de BN, la taille des lots affectera encore le lot gradient estim� d'it�rations plus rapides, mais facile � tomber dans minimum local, plus petit caract�re al�atoire de lots, mais un besoin de d�placement des �poques plus de temps. Donc, apr�s avoir chang� la taille du lot, ne peut pas d�terminer efficacement l'effet de la convergence � la fin parce que la couche BN ou parce que l'estimation du gradient.

Mais nous pouvons utiliser ce probl�me dans un autre probl�me, � savoir, le mod�le et le mod�le ajout� BN BN n'a pas �t� ajout�, et comparer leurs performances sur les diff�rents lots, si sur un petit lot, ajouter le mod�le par rapport � la non-BN Ajouter mod�le BN n'a pas donn� de bons r�sultats, il montre, dans un petit lot, la couche BN ne fonctionne pas.

Selon cette id�e, nous utilisons 4,64,256,1024 quatre types de taille de lot, respectivement mod�le BN BN et le mod�le n'ajoute pas la formation, vous pouvez obtenir:

Comme le montre, nous pouvons trouver beaucoup d'informations, pour ajouter le mod�le de la couche BN (ligne en pointill�s), lorsque la taille du lot de 64 et 4, l'effet de la convergence et de la vitesse sont les meilleurs pour le mod�le BN (ligne solide) n'est pas ajout�, le lot 4 lorsque l'effet est aussi le meilleur. Mais dans un petit lot, BN d'utilisation devrait �tre peu d'impact sur les performances, petit lot, mais la couche BN fait des performances m�diocres.

Auteur: moine sans t�te et �paules Pour r�imprimer, s'il vous pla�t laisser un message dans les coulisses, se conformer aux normes de r�impression

Route de la soie

Apprenez � conna�tre la Chine

Trois lots de domaine de connaissances normalis� (articles Code) | apprentissage machine que vous rencontrerez la � fosse �