REVUE DE l'apprentissage de la machine � papier est ing�nieur Google Chris Rawles �crit par un blog technique, la formation sur la fa�on discute d'utiliser la profondeur du lot et tf.keras tensorflow Normalization acc�l�rent le r�seau de neurones. Nous savons que la profondeur du r�seau de neurones est g�n�ralement tr�s complexe, m�me dans la b�n�diction du GPU actuelle en mati�re de performance �lev�, afin de former rapidement la profondeur du r�seau de neurones est toujours pas facile. Lot pourrait �tre une normalisation bonne m�thode d'acc�l�ration, cet article d�crit comment il peut aider � r�soudre la disparition des gradients et probl�me d'explosion gradient, et discute activation Relu et d'autres fonctions d'activation pour r�le de gradient disparaissant offset. Enfin, utilisez tensorflow et tf.keras r�alis� par lots sur MNIST Normalization, aide � approfondir la compr�hension du lecteur.

Comment utiliser Batch avec tensorflow et Normalization tf.keras pour former plus rapidement des r�seaux de neurones profonds

la formation approfondie du r�seau de neurones peut �tre tr�s chronophage. Mais peut �tre consid�rablement r�duite en �liminant le temps de formation de gradient, cela se produit parce que le r�seau de gradient (en particulier au d�but de la couche de gradient) proche de z�ro et arr�te la mise � jour. initialisation Xavier combin� du poids et de l'activation RELU aider � compenser le probl�me de gradient disparaissent. Ces technologies contribuent �galement � r�soudre le probl�me de contraste de gradient d'explosion, dans ce cas, le gradient devient tr�s important, il emp�che la mise � jour du mod�le.

lot de normalisation (lot Normaliser) est peut-�tre le plus puissant outil Tiduo dispara�tre et les probl�mes explosifs � traiter. la standardisation des lots fonctionne comme suit: Pour une couche donn�e dans chaque cellule, z-score est d'abord calcul�, puis form� en deux variables � et l'application d'une transformation lin�aire. La normalisation est g�n�ralement compl�t� par lots (voir ci-dessous) avant que la fonction d'activation non lin�aire, mais l'application peut �galement �tre lots standards avantageux apr�s la fonction d'activation. V�rifiez ce s�minaire pour apprendre plus de d�tails sur la fa�on dont la technologie fonctionne.

Dans le processus de retour � la propagation, les gradients ont tendance � devenir plus petits dans la couche inf�rieure afin de ralentir la mise � jour de poids et donc de r�duire les temps de formation. normalisation par lots permet d'�liminer le gradient disparaissant soi-disant.

normalisation des lots peut �tre r�alis� de trois fa�ons tensorflow en. utilisation:

1. tf.keras.layers.BatchNormalization

2. tf.layers.batch_normalization

3. tf.nn.batch_normalization

tf.keras font partie de ce module de base de la version 1.4 API tensorflow. Et fournir une API de haut niveau pour la construction de mod�le tensorflow, donc je vais vous dire comment faire en Keras. fonction tf.layers.batch_normalization ont des fonctions similaires, mais Keras av�r� �tre une fonction de mod�le pr�par� d'une mani�re plus simple tensorflow.

in_training_mode = tf.placeholder (tf.bool) cach�s = tf.keras.layers.Dense (n_units, activation = Aucun) (X) # pas de fonction d'activation, encore batch_normed = tf.keras.layers.BatchNormalization () (masqu�, = formation in_training_mode) output = tf.keras.activations \ .relu (batch_normed) # Relu est g�n�ralement effectu�e apr�s la normalisation des lots # Code Optimizer ici ... extra_ops = tf.get_collection (tf.GraphKeys.UPDATE_OPS) avec tf.control_dependencies (extra_ops): train_op = optimizer.minimize (perte)

Notez que la fonction de formation normalis�e � volume variable. Cela est n�cessaire parce que les diff�rents lots standardis�s fonctionnement et �tape de la demande pendant la formation. Au cours de la formation, le score z est calcul� en utilisant la moyenne et la variance du lot, et l'inf�rence, on estime en utilisant la moyenne et la variance calcul�e � partir de l'ensemble d'apprentissage.

En tensorflow, les quantit�s normalis�es peuvent �tre utilis�es comme une couche suppl�mentaire de tf.keras.layers mis en uvre.

Tf.GraphKeys.UPDATE_OPS comprenant un second bloc de code est important. Pour chaque cellule dans le r�seau, en utilisant tf.keras.layers.BatchNormalization, tensorflow continuera � r�estimer le droit de jeu de donn�es de formation sur la moyenne et la variance. Ces valeurs sont stock�es pour le temps de pr�diction des applications en vrac normalis�. La formation mis en moyenne et la variance de chaque unit� peut �tre consid�r�e par extra_ops impression, extra_ops couches, chacune d'une liste du r�seau:

imprimer (extra_ops)

Bien que la normalisation peut �galement �tre utilis� dans le lot tf.nn module, mais il n�cessite des enregistrements suppl�mentaires n�cessaires pour les param�tres moyenne et la variance de la fonction. Par cons�quent, l'utilisateur doit calculer manuellement la moyenne et la variance du niveau de charge et le niveau de jeu de formation. Par cons�quent, il est inf�rieur ou niveau d'abstraction tf.layers de tf.keras.layers, tf.nn mise en uvre doit �tre �vit�e.

normalisation des lots sur MNIST

Maintenant, j'utilise tensorflow en vrac MNIST importante demande normalis�e � un ensemble de donn�es. Regardez le code ici. MNIST est facile � analyser un ensemble de donn�es, ne pas besoin de beaucoup de couches peuvent obtenir une erreur de classification inf�rieure. Cependant, nous pouvons encore construire la profondeur du r�seau et observer comment la convergence standardis�e par lots.

Nous utilisons tf.estimator API pour construire estimateur personnalis�. D'abord, nous construisons le mod�le:

def dnn_custom_estimator (caract�ristiques, des �tiquettes, des attributs, params): in_training = mode == tf.estimator.ModeKeys.TRAIN use_batch_norm = params net = tf.feature_column.input_layer (caract�ristiques, params ) pour i, n_units � �num�rer (params ): net = build_fully_connected (net, n_units = n_units, formation = in_training, batch_normalization = use_batch_norm, activation = params , name = 'hidden_layer' + str (i)) logits = output_layer (net, 10, batch_normalization = use_batch_norm, formation = in_training) predicted_classes = tf.argmax (logits, 1) = perte tf.losses.softmax_cross_entropy (onehot_labels = �tiquettes, logits = logits) pr�cision = tf.metrics.accuracy (�tiquettes = tf.argmax (�tiquettes, 1), pr�dictions = predicted_classes, name = 'acc_op') tf.summary.scalar ( 'pr�cision', pr�cision ) # pour visualiser en TensorBoard si le mode de tf.estimator.ModeKeys.EVAL: retour tf.estimator.EstimatorSpec (mode, perte = perte, eval_metric_ops = { 'pr�cision': pr�cision}) # Cr�ation op de formation. Mode assert == tf.estimator.ModeKeys.TRAIN extra_ops = tf.get_collection (tf.GraphKeys.UPDATE_OPS) optimiseur = tf.train.AdamOptimizer (learning_rate = params ) avec tf.control_dependencies (extra_ops): train_op = optimizer.minimize (perte, global_step = tf.train.get_global_step ()) retour tf.estimator.EstimatorSpec (mode, la perte = perte, train_op = train_op)

Apr�s nous d�finissons la fonction de mod�le, b�tissons un estimateur personnalis� et le train et �valuer notre mod�le:

def train_and_evaluate (output_dir): caract�ristiques = classificateur = tf.estimator.Estimator (model_fn = dnn_custom_estimator, model_dir = output_dir, params = { 'caract�ristiques': caract�ristiques, 'Batch_norm': USE_BATCH_NORMALIZATION, 'Activation': ACTIVATION, 'Hidden_units': HIDDEN_UNITS, 'Learning_rate': LEARNING_RATE}) train_spec = tf.estimator.TrainSpec (input_fn = train_input_fn, max_steps = NUM_STEPS) eval_spec = tf.estimator.EvalSpec (input_fn = eval_input_fn) tf.estimator.train_and_evaluate (classificateur, train_spec, eval_spec) train_and_evaluate ( 'mnist_model')

test Let comment l'impact du mod�le de normalisation des lots � diff�rentes profondeurs. Apr�s notre paquet de code paquet python, nous pouvons utiliser ML-Cloud Engine ex�cution en parall�le de multiples exp�riences:

# Def ml moteur fonction submitMLEngineJob () { emploi gcloud ml-moteur $ NOMTACHE formation submit \ --package-path = $ (PWD) / mnist_classifier / formateur \ --module nom trainer.task \ --region $ REGION \ --staging seau = gs: // $ SEAU \ --scale-tier = BASE \ --runtime-version = 1,4 \ - \ --outdir $ OUTDIR \ --hidden_units $ net \ --num_steps 1000 \ $ BatchNorm } # lancer des travaux en parall�le export PYTHONPATH = $ {PYTHONPATH}: $ {} PWD / mnist_classifier pour batchNorm dans � � � --use_batch_normalization � faire net = '' pour la couche en 5004003002001005025; faire net = $ net couche $ netname = $ {// net, / _ $ {} batchNorm / - use_batch_normalization / _bn} JOBNAME = mnist $ _ $ netname (date -u +% y% m% d_% H% M% S) OUTDIR = gs: // $ {} SEAU / mnist_models / mnist_model $ netname / trained_model echo $ OUTDIR $ R�GION $ NOMTACHE gsutil -m rm -rf $ OUTDIR submitMLEngineJob net = $ net, fini fini

Le montre la figure ci-dessous de 90% du nombre d'it�rations de formation n�cessaires pr�cision (taille du lot 1500 it�ratifs) atteint de. De toute �vidence, la normalisation en vrac acc�l�rer consid�rablement la formation de la profondeur du r�seau. S'il n'y a pas de normalisation par lots, avec l'augmentation de chaque couche suivante, il augmentera le nombre d'�tapes de formation, mais apr�s l'avoir utilis�, le nombre d'�tapes de formation est rest�e pratiquement inchang�e. Dans la pratique, il est beaucoup plus difficile ensemble des donn�es, une condition sine qua non pour le succ�s lorsque plusieurs couches de structure de r�seau.

S'il n'y a pas de lot standardis�, jusqu'� 90% le nombre exact d'it�rations de formation requis augmente avec le nombre de couches augmente, cela peut �tre d� au gradient a provoqu� la disparition.

En outre, comme repr�sent�, le r�seau ayant une couche cach�e 7 est enti�rement connect�, il n'y a pas de charge normalis�s temps de convergence lente

l'utilisation exp�rimentale de l'activation classique d�crit ci-dessus RELU. Bien que pas comme ci-dessus r�sister aux effets provoqu�s par la disparition du gradient montr�, Relu que l'activation sigmo�de ou la fonction d'activation tanh beaucoup mieux. fonction d'activation sigmo�de du gradient dispara�t tr�s faible. Lorsque la plus grande valeur (positive ou n�gative extr�mement), la d�riv�e de la fonction sigmo�de � de saturation � de la fonction S-forme qui est proche de z�ro. De plus en plus satur�s noeuds, ce qui r�duit le nombre de mises � jour, la formation d'arr�t du r�seau.

En utilisant la fonction d'activation sigmo�de sans l'utilisation de la normalisation des lots, la m�me formation de r�seau � sept couches freinera consid�rablement. Lors de l'utilisation normalisation des lots, le nombre d'it�rations lors de l'utilisation convergence des r�seaux Relu est atteint similaire.

D'autre part, d'autres fonctions d'activation (tels que l'indice Relu ou une fuite fonction Relu) peuvent aider � r�sister � la pente disparait probl�me, car ils sont tous deux nombres positifs et n�gatifs avec un d�riv� non nul.

Enfin, il est important de noter que la formation en vrac normalis� donnera les co�ts de temps suppl�mentaire. Bien que la normalisation des lots r�duit g�n�ralement le nombre d'�tapes pour parvenir � la convergence de la formation, mais il vous en co�tera plus de temps, car il introduit des op�rations suppl�mentaires, et a �galement donn� chaque unit� pr�sente deux nouveaux param�tres de formation.

Pour le classement MNIST (en utilisant 1080 GPU GTX), la normalisation des lots peut convergent vers moins d'it�rations, mais � chaque fois d'it�ration est plus lente. Le lot final version normalis�e de la vitesse de convergence est encore plus rapide, mais l'int�gration du temps de formation, d'am�liorer l'effet est pas �vident.

On peut produire des lots de liaison et de m�lange XLA normalisation (fusionn�e lot de Normalisation) (Les param�tres d'int�gration de tf.layers.batch_normalization) par plusieurs op�rations s�par�es dans un seul noyau normalis� pour acc�l�rer le fonctionnement par lots.

Dans tous les cas, la normalisation en vrac peut �tre un outil tr�s pr�cieux pour acc�l�rer la profondeur de la formation du r�seau de neurones. Comme la formation du r�seau de neurones en profondeur pour d�terminer la meilleure fa�on de r�soudre le probl�me de savoir si un moyen d'aider est de faire des exp�riences!

ressources officielles KERAS attach�s

�Site officiel: keras.io

�version chinoise du document: keras.io/zh/

�Mise en route: keras.io/zh/#30-kera ...

�Github: github.com/keras-team / ...

�Google+ Groupes: groups.google.com/forum / # pour ...!

�jeu: kerasteam.slack.com/

r�f�rences:

https://towardsdatascience.com/how-to-use-batch-normalization-with-tensorflow-and-tf-keras-to-train-deep-neural-networks-faster-60ba4d054b73

sortie d'origine au nombre de micro-cha�ne publique - expertise (Quan_Zhuanzhi)

Route de la soie

Apprenez � conna�tre la Chine

[Sec] Lot � l'�chelle: comment former le r�seau de neurones plus rapide profondeur

ressources officielles KERAS attach�s