La machine n'apprend pas: facile � comprendre! � Les math�matiques de lyc�e � Principes math�matiques de lecture descente de gradient

Descente de gradient algorithme est l'un des plus couramment utilis� l'apprentissage de la machine pour optimiser, vers la science des donn�es a r�cemment publi� un article facile � comprendre l'explication du principe de descente de gradient et processus.

� L'optimisation pr�matur�e est la racine de tout le mal. �

- informaticiens et math�maticiens Donald Ervin Knuth

processus de d�veloppement logiciel Agile (agile de) est un terme dans un tr�s connu. L'id�e de base est simple: construire rapidement sa sortie commentaires R�p�tez ce processus � modifier en fonction des commentaires. L'objectif de cette approche est de rendre la fin du produit � l'utilisateur, et permet aux utilisateurs de commentaires pour vous guider pour obtenir un minimum d'erreurs peuvent �tre les meilleurs produits. En outre, les mesures am�lior�es doivent �tre petites et doivent �galement permettre aux utilisateurs de continuer � y participer. D'une certaine mani�re, le processus de d�veloppement logiciel agile implique l'it�ration rapide. Le processus de base de descente de gradient est presque est le cas - d'une solution le plus rapidement possible, et la mesure it�rative aussi souvent que possible.

objectif

algorithme de descente de gradient est un processus it�ratif qui nous permet d'obtenir un minimum de fonction (ici, sans parler de quelques consid�rations suppl�mentaires). La formule suivante tout au long de l'algorithme de descente de gradient ensemble et forment une ligne:

Mais comment avons-nous cette formule? Il est en fait assez simple, et ne comprend que peu de math�matiques du secondaire (Tracy: outre-mer derri�re sa haute math�matiques de l'�cole?). Nous esp�rons que gr�ce � ce contexte de l'article lin�aire mod�le de r�gression � comprendre et � reproduire dans cette formule.

Un mod�le d'apprentissage de la machine

Avec quelques points de donn�es dans un espace 2D. Ces donn�es et la prise en charge d'un groupe d'�tudiants sur la taille et du poids. Nous voulons pr�dire une relation entre ces quantit�s, afin que nous puissions pr�dire l'avenir d'un nouveau poids corporel de l'�tudiant. Il est un cas simple technologie d'apprentissage machine supervis� de cette nature.

Maintenant, nous allons tracer une ligne dans l'espace une ligne et le faire � travers quelques-uns des points de donn�es. Ensuite, cette ligne est l'�quation y = mx + b, o� m est la pente, b est l'ordonn�e � l'origine de cette ligne sur l'axe Y.

pr�vision

�tant donn� un ensemble d'entr�es connues et leurs sorties correspondantes. mod�les d'apprentissage de la machine � partir de ces donn�es tenteront de pr�dire la sortie d'une nouvelle entr�e.

processus d'apprentissage de la machine

La diff�rence entre les deux est le r�sultat de l'erreur de pr�diction (erreur).

Un concept connexe est la fonction de co�t ou de la perte.

Fonction de co�t �

La fonction co�t / fonction de perte est d'�valuer les performances de notre algorithme d'apprentissage automatique. fonction de perte est l'erreur �chantillon de formation individuelle calcul�e, la fonction de co�t est fonction de la perte moyenne sur l'ensemble d'apprentissage. Donc, je voudrais utiliser alternativement les deux termes.

Fondamentalement, la fonction de co�t peut nous dire quand donn� les valeurs de m et b du mod�le pour pr�dire la performance de � la qualit� �.

Par exemple, si l'ensemble des donn�es ensemble de points N, et pour tous les points de donn�es N, nous voulons minimiser l'erreur. Ainsi sera la fonction de co�t est l'erreur quadratique totale, qui est la suivante:

N points de donn�es de la fonction de co�t

Pourquoi utilisons-nous la diff�rence au carr� sans utiliser directement la diff�rence absolue il? Parce que le carr� de la diff�rence, nous pouvons le rendre plus facile � tracer une ligne de r�gression. En fait, pour trouver cette ligne, il faut calculer la d�riv�e premi�re de la fonction de co�t, qui calcule la valeur absolue de l'inverse beaucoup plus difficile que le calcul de la valeur carr�e du d�riv�.

R�duire au minimum la fonction de co�t �

Tout algorithmes d'apprentissage machine cible est de minimiser la fonction de co�t.

En effet, plus l'erreur entre les valeurs r�elles et pr�vues, il montre les performances de l'algorithme dans l'apprentissage, le mieux. Puisque nous voulons que la valeur d'erreur le plus bas, nous esp�rons que ces valeurs de m et b erreur obtenue est r�duite au minimum, autant que possible.

Nous exactement comment minimiser toute fonction?

Une observation attentive, notre fonction de co�t est Y = X� de la forme. Dans le syst�me de coordonn�es cart�siennes, qui est une �quation parabolique, il peut �tre aspir� dans la forme de la figure:

parabole

�Pour minimiser la fonction ci-dessus, nous devons trouver la valeur de X pour obtenir Y valeur la plus faible, ce point rouge. Parce que c'est une carte en 2D, le positionnement est facile � sa valeur minimale, mais pas le cas o� la dimension sup�rieure. Dans ces cas, nous devons concevoir un minimum de positionnement algorithme, cet algorithme est descente de gradient.

descente de gradient

descente de gradient est l'un de l'algorithme d'optimisation le plus couramment utilis�, est actuellement la fa�on la plus commune d'optimisation r�seau de neurones. Ceci est une fonction it�rative pour trouver la valeur minimale de l'algorithme d'optimisation.

La compr�hension intuitive

Supposons que vous marchez le long des chiffres suivants, et se trouve actuellement � la position de point vert. Votre objectif est d'atteindre un minimum, ce point rouge, mais � votre emplacement, vous ne pouvez pas voir o� la valeur minimale.

Les actions possibles seraient comme ceci:

Vous pouvez �tre haut ou le bas
Si vous d�cidez de la direction � suivre, afin d'atteindre la destination, vous pouvez prendre un pas de g�ant, il peut prendre un petit pas.

Pour l'essentiel, afin d'atteindre le minimum, vous devez savoir deux choses: quoi et comment le pas beaucoup de rythme.

algorithme de descente de gradient peut utiliser des instruments d�riv�s pour nous aider efficacement � prendre ces d�cisions. D�riv� est un terme d�riv� du calcul, peut �tre calcul�e comme �tant la pente de la figure point particulier. Donc, si nous avons la capacit� de calculer cette tangente, nous pouvons �tre en mesure de calculer la direction pour atteindre le minimum qui doit �tre s�lectionn�. Nous allons d�crire plus en d�tail plus tard.

� minimum

Sur la figure, on peut dans une tangente stippling verte, nous savons que si nous remontons, nous serons loin du minimum ou vice versa. De plus, cela nous permet �galement de comprendre la pente tangente d�clivit�.

La pente au point bleu n'est pas raide � Green Point, cela signifie que pour atteindre le minimum requis par rapport au rythme de point bleu que sur le point vert est beaucoup plus petit.

explication math�matique de la fonction de co�t

Maintenant, toutes les formules math�matiques �crites LET d�crites ci-dessus. Dans l'�quation y = mx + b, m et b sont les param�tres. Au cours de la formation, leurs valeurs seront des modifications mineures. Nous allons changer ce petit exprim� en . Les valeurs des param�tres sont mises � jour pour m = m-m, et b = b-AB mani�re. Notre objectif ici est de trouver l'erreur minimum y = mx + b valeurs de m et b dans la bo�te, � savoir, ce qui r�duit la valeur de fonction de co�t.

�R��crire la fonction de co�t:

L'id�e est que, gr�ce � des fonctions de calcul d�riv�s et la pente, on peut trouver la d�riv�e / pente de la fonction.

le taux d'apprentissage

Atteint la valeur minimale ou la taille de pas est appel� un taux d'apprentissage en bas. Grand foul�e / taux d'enseignement sup�rieur peut couvrir des zones plus vastes, mais ils ont travers� le minimum de risque. D'autre part, les petites �tapes / baisse du taux d'apprentissage a atteint le point le plus bas besoin de consommer beaucoup de temps.

L'image ci-dessous montre le concept du taux d'apprentissage. Dans la troisi�me figure, nous utilisons le nombre minimum d'�tapes pour atteindre le minimum. Ceci est la meilleure �tude de cette question.

On peut voir lorsque le taux d'apprentissage est trop faible, il n�cessite de nombreuses �tapes � converger. Lorsque le taux d'apprentissage est trop �lev�, la descente de gradient ne sera pas atteint la valeur minimale, comme indiqu� ci-dessous.

�Les r�sultats des diff�rents taux d'apprentissage se rapportent �: https: //developers.google.com/machine-learning/crash-course/fitter/graph.

d�riv� �

l'apprentissage de la machine � utiliser des instruments d�riv�s dans les probl�mes d'optimisation. Comme algorithme d'optimisation gradient de descente d�termine l'utilisation r�elle des d�riv�s pour augmenter ou diminuer le poids, pour augmenter ou diminuer la fonction cible.

Si on peut calculer la d�riv�e d'une fonction, nous savons que la direction est la direction que vous voulez continuer cette fonction est r�duite au minimum. Nous traitons principalement avec deux concepts de calcul:

droit puissance �

Le calcul de la loi de puissance est d'am�liorer la puissance du d�riv� variable.

r�gle de la cha�ne �

r�gle de la cha�ne de calcul de la d�riv�e de la fonction composite. La r�gle de la cha�ne notation Leibniz peut �tre utilis� comme suit:

Si la variable y qui d�pendent de la variable z, et les variables Y sont �galement fonction de la variable x, alors y et z est la variable d�pendante, mais aussi par la variable interm�diaire z d�pend de x. On appelle cela la r�gle de la cha�ne, on peut �crire une �quation math�matique:

Comprenons par un exemple:

La loi de puissance et la r�gle de la cha�ne des produits d�riv�s, nous pouvons calculer la fonction de co�t par rapport � l'�volution de la fa�on de m et b. Cela implique le concept de d�riv�e partielle, � savoir s'il existe une fonction de deux variables, la fonction est de trouver un proc�d� par rapport � un nombre variable de d�riv�es partielles est une autre variable comme une constante. Explication sera plus clair avec un exemple:

Calcul de descente de gradient �

Nous allons maintenant appliquer � ces r�gles que nous avions �quations de calcul et de trouver la d�riv�e de la fonction de co�t par rapport � m et b. Revisiter la fonction de co�t:

Par souci de simplicit�, d�barrassons-nous d'eux le symbole de sommation. La partie la somme est tr�s important, en particulier par rapport � la descente de gradient stochastique (SGD) Concept baisse du temps de gradient de traitement par lots. Dans le processus de descente de gradient de traitement par lots, nous avons une erreur d'un temps � v�rifier tous les �chantillons de formation, et dans le processus de SGD, chaque fois que nous v�rifions chaque erreur. Cependant, pour simplifier, nous supposons que chaque fois que nous v�rifions chaque erreur.

�Maintenant, on calcule le gradient m et b associ� � une erreur:

Ces valeurs Rentrant dans la fonction de co�t, et multiplie le taux d'apprentissage:

Maintenant, l'�quation 2 est pas si important, car cela signifie que nous devons apprendre deux fois le taux ou moiti�. Nous avons donc jeter directement. Par cons�quent, l'ensemble de ce dernier article sont concentr�s dans deux �quations simples repr�sentent une descente de gradient.

m�, B� = param�tre de position suivante; m, b = param�tre de position actuelle.

Par cons�quent, afin de r�soudre le gradient, on utilise une nouvelle it�ration de m et b valeurs nos points de donn�es et le calcul des d�riv�es partielles. Le nouveau gradient de la fonction de co�t peut pointer vers la position actuelle de la pente et la direction que nous devrions passer afin de mettre � jour nos param�tres. Mis � jour par la taille de notre contr�le de la vitesse d'apprentissage.

r�sum�

Le but de cet article est de d�montrer le concept de descente de gradient. Nous utilisons la descente de gradient strat�gie d'optimisation comme une r�gression lin�aire. Pour mesurer la relation entre la taille et le poids des �tudiants en tra�ant une ligne de meilleur ajustement. Cependant, il est important de noter que cet exemple est de d�montrer le choix lin�aire de r�gression simple, descente de gradient peut �galement �tre utilis� pour d'autres techniques d'apprentissage de la machine.

Transfert: le coeur de la machine https://www.jiqizhixin.com/articles/2019-04-07-6

Route de la soie

Apprenez � conna�tre la Chine

La machine n'apprend pas: facile � comprendre! � Les math�matiques de lyc�e � Principes math�matiques de lecture descente de gradient