Xiao contr�le � partir du bas de la non-Temple encastr�

rapports Qubit | Num�ro public QbitAI

Laissez rouler la boule sur la colline, ils ont �t� trouv�s qui tombent vall�e. original Descente de gradient algorithme Il peut devenir comme les jeux vid�o comme cool:

Ce sont le fondateur fast.ai Jeremy Howard a partag� une vid�o, � premi�re vue comme un combat en terrain complexe d'exercices sur table, en effet, r�v�lent que la nature de l'algorithme de gradient stochastique descente (SGD).

Google cerveau Tokyo chercheur hardmaru a transmis l'article correspondant vid�o, �valuer, � comme la plupart du jeu de strat�gie en temps r�el. �

Ne pas fr�quenter le plaisir, ont ainsi l'essai vid�o � prendre � sera efficace. Ce qui pr�c�de est extrait du membre de fast.ai vid�o populaire Javier Ideami �crire un texte de vulgarisation scientifique.

Si le code et les formules pour vous faire sentir ennuyeux, il peut commencer � partir de SGD cette vid�o cool, alors lisez cet article, il vous aidera � �tre compris de fa�on plus intuitive la profondeur de l'apprentissage.

Descente de gradient algorithme de visualisation

En fin de compte ce qui est le gradient?

Architecture et les derniers d�veloppements dans la profondeur de l'apprentissage, y compris CNN, RNN, cr�er un nombre incalculable de faux visage de GAN, sont ins�parables de l'algorithme de descente de gradient.

Le gradient peut �tre comprise comme un terrain en pente de point de direction augmente le plus rapidement, il est le plus rapide d�clin dans la direction oppos�e de la direction. Vous voulez que la fa�on la plus rapide en bas de la montagne, il va dans le sens oppos� du gradient.

On dirait chose de jeu de guerre, en fait, nous �tendons la balle, ils vont rouler vers le bas dans le sens de la descente de gradient.

Le but ultime de l'algorithme de descente de gradient est de trouver le point le plus bas (minimum global) l'ensemble � terrain � dans le, qui est la vall�e de la plus basse altitude.

Mais sur ce terrain, la vall�e peut �tre plus d'un (minimum local), nous avons donc besoin de se propager beaucoup de balles, de sorte qu'ils sont tomb�s dans diff�rentes vall�es, et enfin trouver la hauteur de contraste au dessus du niveau de la mer le point le plus bas d'entre eux.

Ce sont l'id�e de base de l'algorithme de descente de gradient stochastique (SGD).

Entr�e-sortie de r�seau neuronal

Ayant algorithme de descente de gradient, ce qui suit a commenc� � introduire les bases des r�seaux de neurones.

Essentiellement, le r�seau de neurones � travers une s�rie de � poids � deviendront nos donn�es d'entr�e n�cessaires sortie.

Nous commen�ons par la plus simple r�seau de neurones 2 couches pour commencer, expliquer bri�vement la structure du r�seau de neurones. En fait, le r�seau de neurones est beaucoup plus complexe que cela, il y a g�n�ralement des dizaines ou des centaines m�me de la couche de couches.

entr�e : Source de donn�es d'entr�e du r�seau de neurones, dans lequel le nombre de neurones � correspondre au nombre de donn�es de base. La figure quatre entr�es � l'exemple.

La premi�re couche : Ceci est une couche cach�e, il contient de nombreux neurones cach�s, qui � son tour est reli� aux unit�s de couche environnantes.

La seconde couche La seconde couche est la derni�re couche a une cellule, � savoir la sortie.

W entre l'entr�e et la sortie Z est une relation lin�aire:

Pour la premi�re couche de r�seau, Z1 = W1X + b1, A1 = RELU (Z1), A1 est Z1 apr�s r�sultat de traitement de la fonction d'activation.

Pour la seconde couche du r�seau, ne sont pas envoy�es en entr�e de la premi�re couche A1, la deuxi�me couche, Z2 = W2A1 + b2, A2 = sigmo�de (Z2).

W repr�sente la couche r�seau poids , Qui repr�sente la force de la connexion entre les diff�rents �l�ments du r�seau. b repr�sente terme Bias , Peut offrir une plus grande flexibilit� du r�seau.

La sortie finale Yh = A2 de la seconde couche est la sortie finale du r�seau de neurones.

Yh = A2 = sigmo�de (W2 RELU (W1 X + b1) + b2)

Yh repr�sentant le r�sultat de pr�diction du r�seau neuronal, X est l'entr�e � la sortie produite par le r�seau.

Dans cette �quation, W1, b1, W2, b2 est inconnue, il est n�cessaire de former le r�seau pour trouver leur valeur correcte.

S�lectionnez la fonction d'activation

Vous avez peut-�tre remarqu� que, dans les r�seaux de neurones ci-dessus, chaque sortie est le r�sultat d'un fonctionnement lin�aire avec un � filtre �. Pourquoi devrait-il �tre trait�?

La relation entre la r�alit� des entr�es et sorties sont g�n�ralement pas lin�aires. Si l'architecture de r�seau de neurones compos� uniquement d'algorithmes lin�aires, il est difficile de calculer le comportement non lin�aire. Nous devons donc ajouter un de chacune des extr�mit�s Fonction d'activation .

Activer diff�rentes fonctions ont des caract�ristiques diff�rentes. S�lectionnez le gradient conduira � une mauvaise devenir tr�s faible, ce qui est commun�ment appel� disparait gradient Probl�me.

De plus il y a un probl�me oppos�, qui est, explosion gradient Lorsque la pente est trop grand, le r�seau deviendra tr�s instable.

quatre types communs de fonctions d'activation sont: sigmo�de, tanh, Relu, qui fuit Relu, bri�vement ci-dessous discuter de leurs avantages et inconv�nients.

sigmo�de

1 / (1 + e -x )

Cette fonction est id�ale pour l'entr�e en deux cat�gories. Sa forme est att�nu�e, de sorte qu'un gradient peut �tre bien contr�l�.

Le principal inconv�nient est que, dans les cas extr�mes, une fonction de la sortie devient tr�s plat. Cela signifie qu'il est un gradient dispara�t de probl�me.

tanh

(2 / (1 + e-2x)) - 1

Sigmo�de il est tr�s similaire. courbe de fonction est plus raide, et donc sa production deviendra plus puissant. lacunes et similaires sigmo�de.

Relu

max (0, x)

Si l'entr�e est sup�rieur � 0, la sortie est �gale � l'entr�e. Dans le cas contraire, la sortie est 0.

Sa gamme de sortie de 0 � l'infini. Cela signifie que sa production peut devenir tr�s grand, il peut y avoir un probl�me d'explosion gradient. Il a �galement un probl�me sur le c�t� gauche est compl�tement � plat, elle peut conduire � la disparition du gradient.

calcul de simples RELU, est le plus couramment utilis� la fonction d'activation de la couche interne du r�seau de neurones.

Leaky Relu

La fonction de la premi�re moiti� RELU remplac� par 0,01x.

softmax

e-x / Sum (e-x)

Plage de sortie est compris entre 0 et 1.

entr�e Softmax distribution de probabilit� normalis�e. Il compresse la plage d'entr�e de 0-1, comme sigmo�de.

Il est g�n�ralement la couche de sortie dans une classification multi-sc�ne, Softmax faire en sorte que la probabilit� de chaque classe est 1.

En fait, le r�seau de neurones est une combinaison d'une s�rie de fonctions, il y a une certaine lin�aire, dont certains sont de pr�f�rence non lin�aire, qui forment ensemble une fonction complexe, l'entr�e reli�e � la donn�e de sortie dont nous avons besoin.

L'auteur original de cet article discutera du sujet est divis� en trois parties, le contenu peut encore �tre li�e � son texte � la d�couverte de fin:

https://towardsdatascience.com/the-keys-of-deep-learning-in-100-lines-of-code-907398c76504

Route de la soie

Apprenez � conna�tre la Chine

L'algorithme de descente de gradient devient jeu cool, qui est une �tude approfondie des conf�rences populaires

Descente de gradient algorithme de visualisation

Entr�e-sortie de r�seau neuronal

S�lectionnez la fonction d'activation