La machine n'apprend pas: comp�tences d'apprentissage en profondeur cr�pus formation de trois lots de gradient stochastique descente descente de gradient

Une m�thode de descente de gradient

Dans les algorithmes d'apprentissage machine, mod�le d'apprentissage supervis� pour beaucoup, la perte de la fonction de la n�cessit� de construire le mod�le d'origine, l'�tape suivante consiste � optimiser la fonction de perte en optimisant l'algorithme pour trouver les param�tres optimaux. Dans l'algorithme d'optimisation des param�tres dans l'apprentissage de la machine, plus l'utilisation est bas�e sur un algorithme d'optimisation (gradient de descente, GD) descente de gradient.

m�thode de descente de gradient pr�sente de nombreux avantages, dans lequel, au cours du processus de solution de descente de gradient, juste r�solution de la premi�re d�riv�e de la fonction de la perte, le calcul des co�ts est relativement faible, ce qui rend la m�thode de descente de gradient peut �tre appliqu� dans de nombreux grands ensembles de donn�es. m�thode de descente de gradient est de trouver le sens d'un nouveau point d'it�ration par point, la direction du gradient de courant.

peut �tre compris l'id�e de base: apr�s notre d�part d'un certain point de la colline, la pente la plus raide de trouver une franchir une �tape (qui est, de trouver la direction du gradient), pour atteindre un point, trouver la pente la plus raide, une autre �tape jusqu'� ce que nous en permanence donc, march� le plus point "faible" (point de convergence minimum de fonction de co�t).

En second lieu, la d�formation sous la forme d'une descente de gradient

Dans le processus sp�cifique en utilisant une m�thode de descente de gradient, il existe plusieurs vari�t�s diff�rentes, � savoir: lot, mini-lot, SGD. La principale diff�rence est le choix des donn�es de formation dans diff�rentes variantes.

1, la descente de gradient discontinu BGD

�Proc�d� par lots de descente de gradient (descente de gradient par lots) est � l'ensemble du jeu de donn�es, en calculant pour tous les �chantillons pour r�soudre la direction du gradient.

�Lot descente de gradient fonction de perte:

�gradient plus batch formule d'it�ration de descente:

�Chaque �tape d'it�ration, � utiliser dans la formation mis toutes les donn�es, si la taille de l'�chantillon est grand, alors on peut imaginer la vitesse d'it�ration de cette m�thode!

�Avantages: solution globale optimale, facile � mettre en uvre en parall�le;

�Inconv�nients: lorsque le nombre d'�chantillons de beaucoup, le processus de formation sera tr�s lente.

�Du point de vue du nombre d'it�rations, le nombre d'it�rations BGD relativement faible. Ce qui est une vue sch�matique de la courbe de convergence it�rative peut �tre repr�sent�e comme suit:

2, de faibles quantit�s de descente de gradient MBGD

�De la m�me mani�re de gradient de lots � chaque it�ration doivent utiliser tous les �chantillons, la quantit� de donn�es est particuli�rement importante, telles que les applications d'apprentissage machine � grande �chelle, chaque it�ration pour r�soudre tous les �chantillons prend beaucoup de co�ts informatiques. Puis-je utiliser une partie de l'�chantillon pendant chaque it�ration au lieu de tous les �chantillons il? Sur la base de cette id�e, ce qui donne naissance au concept de mini-lot.

�Supposons que le nombre d'�chantillons dans l'ensemble d'apprentissage est de 1000, alors chaque mini-batch que seul un sous-ensemble de prise en charge, chaque mini-lot contenant 10 �chantillons, de sorte que les donn�es de formation enti�res r�gl� 100 peut �tre divis� en mini-batch . code de pseudo-suit en tant que:

3, la m�thode du gradient stochastique descente SGD

algorithme de descente de gradient stochastique (descente de gradient stochastique) peut �tre vu comme un cas particulier de la descente de gradient mini-batch, � savoir, � chaque fois seulement dans le r�glage des param�tres de mod�le dans une m�thode de descente de gradient stochastique �chantillon, est �quivalent � l'd�crite ci-dessus b = mini-batch dans un cas de descente de gradient, � savoir, chacun des mini-batch seul �chantillon de formation.

�m�thode d'optimisation de descente de gradient est Stochastique:

�descente de gradient est Stochastique � it�rer � travers chaque �chantillon est mis � jour, si une grande taille de l'�chantillon (par exemple des centaines de milliers), il ne peut �chantillon dans lequel des dizaines de milliers ou quelques milliers, il doit �tre la meilleure it�ration th�ta solution, la descente de gradient par lots de comparaison ci-dessus, une it�ration aura besoin de centaines de milliers d'�chantillons de formation, la prochaine it�ration ne peut pas �tre optimale, si 10 it�rations, alors vous devez traverser l'�chantillon de formation 10 fois. Cependant, un probl�me SGD accompagn� d'un bruit � plus de BGD, de sorte que chaque it�ration SGD vers la direction d'optimisation globale.

�Avantages: la vitesse de formation;

�Inconv�nients: perte de pr�cision, et non pas l'optimum global, pas facilement mis en uvre en parall�le.

�Du point de vue du nombre d'it�rations, plus fr�quemment it�rations SGD, regards aveugles lors d'une recherche de l'espace de solution. Ce qui est une vue sch�matique de la courbe de convergence it�rative peut �tre repr�sent�e comme suit:

Troisi�mement, la descente de gradient compr�hension populaire

(1) descente de gradient en vrac - R�duire au minimum la perte de la fonction de tous les �chantillons de formation (donn�es de formation obtenues pour toutes les erreurs des param�tres sont mis � jour apr�s), de sorte que la r�solution finale de la solution globale optimale, � savoir que le param�tre de risque est fonction r�solu un minimum. Lot descente de gradient similaire � un certain point dans les montagnes de regarder autour, pour calculer la plus forte baisse dans le sens de la (multidimensionnelle), puis prendre une �tape, ce qui est une premi�re it�ration. descente lot gradient it�ration des mises � jour toutes les th�ta, chaque mise � jour est dans la direction la plus raide.

(2) algorithme du gradient stochastique - en minimisant la fonction de perte pour chaque �chantillon, mais pas chaque it�ration direction r�sultante des fonctions de perte vers l'optimum global, mais une grande orientation g�n�rale de la solution globale optimal, le r�sultat final est souvent est une solution � court optimale au niveau mondial. Que j'ai utilis� un �chantillon al�atoire d'exemple pour approcher tous mes �chantillons pour ajuster th�ta, il ne calcule pas le sens de la pente maximale, mais � chaque fois que s�lectionner une dimension � l'�tape suivante, une baisse de la premi�re it�ration uniquement les mises � jour th�ta, a rapport� que la marche est pas rigoureuse et voir l'attitude � venir.

Quatre, explication batch_size

Batch_size (taille du lot) est un param�tre important dans l'apprentissage de la machine, impliquant de nombreuses contradictions, d�veloppez la suivante par un.

1, tout d'abord, pourquoi avoir batch_size cet argument?

option de lot, d'abord d�cider de la direction est vers le bas. Si l'ensemble de donn�es est relativement faible, il peut prendre la forme de l'ensemble des donn�es (Full lot d'apprentissage), et de faire au moins deux avantages: Tout d'abord, d�terminer la direction de l'ensemble des donn�es de l'�chantillon plus repr�sentatif de la population, afin de mani�re plus pr�cise vers la direction dans laquelle la valeur extr�me. En second lieu, en raison des diff�rents poids des valeurs de gradient �norme diff�rence, afin de choisir un taux global d'apprentissage est tr�s difficile. La pleine Batch L'apprentissage RPROP peut �tre utilis� que mis � jour en fonction d'un gradient pour chaque symbole et le poids sp�cifique de l'individu.

Pour les ensembles de donn�es plus volumineux, plus de deux avantages, il est un deux inconv�nients: Tout d'abord, avec la croissance massive des ensembles de donn�es et limites de la m�moire, charge une seule fois toutes les donn�es � venir en devient moins disponible. En second lieu, afin de RPROP de mani�re it�rative, en raison de diff�rences entre les �chantillons individuels par lots, la valeur de correction de gradient � chaque fois d�cal� de l'autre, ne peut pas �tre corrig�e. Cela a compromis la suite RMSProp.

2, �tant donn� que la pleine Batch L'apprentissage ne concerne pas les grands ensembles de donn�es, alors que diriez-vous l'autre extr�me?

Le soi-disant autre extr�me, est un temps pour former un �chantillon qui batch_size = 1. Ceci est l'apprentissage en ligne (apprentissage en ligne). surface d'erreur neuronal lin�aire moyenne fonction de co�t d'erreur quadratique est une section transversale parabolique est une ellipse. Multilayer neural, le r�seau non lin�aire, reste localement sensiblement parabolique. L'utilisation de l'apprentissage en ligne, chaque correction de cours � la direction de gradient de chaque correction d'�chantillon, saccage fragment�, difficile � r�aliser la convergence. Comme le montre:

3, peut choisir une valeur mod�r�e batch_size il?

Bien s�r, cela est la descente de gradient de lots (mini-lots d'apprentissage). Parce que si l'ensemble de donn�es assez suffisant, compt� par la moiti� (voire beaucoup moins) du gradient de formation de donn�es et une formation avec tout le gradient de donn�es est presque le m�me.

4, dans des limites raisonnables, quels sont les avantages de l'augmentation batch_size?

utilisation de la m�moire am�lior�e, une grande am�lioration de l'efficacit� multiplication matrice parall�lis�e.

le temps d'arriv�e Epoch (full ensemble de donn�es) pour r�duire le nombre d'it�rations n�cessaires pour la m�me quantit� de donn�es que la vitesse de traitement est en outre acc�l�r�e.

Au sein d'une certaine plage, batch_size g�n�rale, plus permettant la d�termination de la direction de descente, plus le choc caus� par la formation.

5, aveugle Quel mal augmente batch_size?

Utilisation de la m�moire am�lior�e, mais la capacit� de m�moire peut � peine.

le temps d'arriv�e Epoch (ensemble complet de donn�es) pour r�duire le nombre d'it�rations afin d'obtenir la m�me pr�cision, il faut batch_size augmente dans une certaine mesure, d�termine la direction de recul n'a pas sensiblement chang�.

6, � la fin sur la fa�on de r�gler l'impact effet de la formation batch_size?

Ici, une performance en cours d'ex�cution sur le jeu de donn�es MNIST Lenet. MNIST est une biblioth�que standard manuscrite, j'utilise le cadre Th�ano. Ceci est une biblioth�que Python de l'apprentissage en profondeur. Facile � installer (seulement quelques lignes de commande), un r�glage facile (Profil natif), prise CPU tous les GPU /, le tutoriel officiel est complet, le support des modules est tr�s riche (sauf CNNs, soutient �galement RBM / DBN / LSTM / RBM-RNN / sda / MLP). Une couche sup�rieure de l'emballage a Keras support GRU / JZS1, JZS2, JZS3 plus r�cente comme la structure, l'optimisation du support Adagrad / Adadelta / RMSprop / Adam analogues. Comme le montre:

R�sultats de l'op�ration comme indiqu� ci-dessus, dans lequel le temps absolu pour faire du traitement par unit�. les r�sultats et les analyses ci-dessus confirme d'exploitation:

Batch_size trop petit, l'algorithme ne convergeait pas � moins de 200 �poques.

Avec batch_size augmente, la m�me quantit� de traitement plus rapide des donn�es de vitesse.

Avec batch_size augmente, un nombre croissant d'�poque � atteindre la m�me pr�cision souhait�e.

En raison de la contradiction de ces deux facteurs, batch_size a augment� � un point du temps optimal.

�tant donn� que la pr�cision de la convergence ultime tombera dans diff�rents extr�me locale, donc batch_size a augment� � un moment donn�, pour atteindre la convergence ultime sur la pr�cision optimale.

Route de la soie

Apprenez � conna�tre la Chine

La machine n'apprend pas: comp�tences d'apprentissage en profondeur cr�pus formation de trois lots de gradient stochastique descente descente de gradient