Xiao contrôle à partir du bas de la non-Temple encastré
rapports Qubit | Numéro public QbitAI
Laissez rouler la boule sur la colline, ils ont été trouvés qui tombent vallée. original Descente de gradient algorithme Il peut devenir comme les jeux vidéo comme cool:
Ce sont le fondateur fast.ai Jeremy Howard a partagé une vidéo, à première vue comme un combat en terrain complexe d'exercices sur table, en effet, révèlent que la nature de l'algorithme de gradient stochastique descente (SGD).
Google cerveau Tokyo chercheur hardmaru a transmis l'article correspondant vidéo, évaluer, « comme la plupart du jeu de stratégie en temps réel. »
Ne pas fréquenter le plaisir, ont ainsi l'essai vidéo « prendre » sera efficace. Ce qui précède est extrait du membre de fast.ai vidéo populaire Javier Ideami écrire un texte de vulgarisation scientifique.
Si le code et les formules pour vous faire sentir ennuyeux, il peut commencer à partir de SGD cette vidéo cool, alors lisez cet article, il vous aidera à être compris de façon plus intuitive la profondeur de l'apprentissage.
Descente de gradient algorithme de visualisation
En fin de compte ce qui est le gradient?
Architecture et les derniers développements dans la profondeur de l'apprentissage, y compris CNN, RNN, créer un nombre incalculable de faux visage de GAN, sont inséparables de l'algorithme de descente de gradient.
Le gradient peut être comprise comme un terrain en pente de point de direction augmente le plus rapidement, il est le plus rapide déclin dans la direction opposée de la direction. Vous voulez que la façon la plus rapide en bas de la montagne, il va dans le sens opposé du gradient.
On dirait chose de jeu de guerre, en fait, nous étendons la balle, ils vont rouler vers le bas dans le sens de la descente de gradient.
Le but ultime de l'algorithme de descente de gradient est de trouver le point le plus bas (minimum global) l'ensemble « terrain » dans le, qui est la vallée de la plus basse altitude.
Mais sur ce terrain, la vallée peut être plus d'un (minimum local), nous avons donc besoin de se propager beaucoup de balles, de sorte qu'ils sont tombés dans différentes vallées, et enfin trouver la hauteur de contraste au dessus du niveau de la mer le point le plus bas d'entre eux.
Ce sont l'idée de base de l'algorithme de descente de gradient stochastique (SGD).
Entrée-sortie de réseau neuronal
Ayant algorithme de descente de gradient, ce qui suit a commencé à introduire les bases des réseaux de neurones.
Essentiellement, le réseau de neurones à travers une série de « poids » deviendront nos données d'entrée nécessaires sortie.
Nous commençons par la plus simple réseau de neurones 2 couches pour commencer, expliquer brièvement la structure du réseau de neurones. En fait, le réseau de neurones est beaucoup plus complexe que cela, il y a généralement des dizaines ou des centaines même de la couche de couches.
entrée : Source de données d'entrée du réseau de neurones, dans lequel le nombre de neurones à correspondre au nombre de données de base. La figure quatre entrées à l'exemple.
La première couche : Ceci est une couche cachée, il contient de nombreux neurones cachés, qui à son tour est relié aux unités de couche environnantes.
La seconde couche La seconde couche est la dernière couche a une cellule, à savoir la sortie.
W entre l'entrée et la sortie Z est une relation linéaire:
Pour la première couche de réseau, Z1 = W1X + b1, A1 = RELU (Z1), A1 est Z1 après résultat de traitement de la fonction d'activation.
Pour la seconde couche du réseau, ne sont pas envoyées en entrée de la première couche A1, la deuxième couche, Z2 = W2A1 + b2, A2 = sigmoïde (Z2).
W représente la couche réseau poids , Qui représente la force de la connexion entre les différents éléments du réseau. b représente terme Bias , Peut offrir une plus grande flexibilité du réseau.
La sortie finale Yh = A2 de la seconde couche est la sortie finale du réseau de neurones.
Yh = A2 = sigmoïde (W2 RELU (W1 X + b1) + b2)
Yh représentant le résultat de prédiction du réseau neuronal, X est l'entrée à la sortie produite par le réseau.
Dans cette équation, W1, b1, W2, b2 est inconnue, il est nécessaire de former le réseau pour trouver leur valeur correcte.
Sélectionnez la fonction d'activation
Vous avez peut-être remarqué que, dans les réseaux de neurones ci-dessus, chaque sortie est le résultat d'un fonctionnement linéaire avec un « filtre ». Pourquoi devrait-il être traité?
La relation entre la réalité des entrées et sorties sont généralement pas linéaires. Si l'architecture de réseau de neurones composé uniquement d'algorithmes linéaires, il est difficile de calculer le comportement non linéaire. Nous devons donc ajouter un de chacune des extrémités Fonction d'activation .
Activer différentes fonctions ont des caractéristiques différentes. Sélectionnez le gradient conduira à une mauvaise devenir très faible, ce qui est communément appelé disparait gradient Problème.
De plus il y a un problème opposé, qui est, explosion gradient Lorsque la pente est trop grand, le réseau deviendra très instable.
quatre types communs de fonctions d'activation sont: sigmoïde, tanh, Relu, qui fuit Relu, brièvement ci-dessous discuter de leurs avantages et inconvénients.
sigmoïde
1 / (1 + e -x )
Cette fonction est idéale pour l'entrée en deux catégories. Sa forme est atténuée, de sorte qu'un gradient peut être bien contrôlé.
Le principal inconvénient est que, dans les cas extrêmes, une fonction de la sortie devient très plat. Cela signifie qu'il est un gradient disparaît de problème.
tanh
(2 / (1 + e-2x)) - 1
Sigmoïde il est très similaire. courbe de fonction est plus raide, et donc sa production deviendra plus puissant. lacunes et similaires sigmoïde.
Relu
max (0, x)
Si l'entrée est supérieur à 0, la sortie est égale à l'entrée. Dans le cas contraire, la sortie est 0.
Sa gamme de sortie de 0 à l'infini. Cela signifie que sa production peut devenir très grand, il peut y avoir un problème d'explosion gradient. Il a également un problème sur le côté gauche est complètement à plat, elle peut conduire à la disparition du gradient.
calcul de simples RELU, est le plus couramment utilisé la fonction d'activation de la couche interne du réseau de neurones.
Leaky Relu
La fonction de la première moitié RELU remplacé par 0,01x.
softmax
e-x / Sum (e-x)
Plage de sortie est compris entre 0 et 1.
entrée Softmax distribution de probabilité normalisée. Il compresse la plage d'entrée de 0-1, comme sigmoïde.
Il est généralement la couche de sortie dans une classification multi-scène, Softmax faire en sorte que la probabilité de chaque classe est 1.
En fait, le réseau de neurones est une combinaison d'une série de fonctions, il y a une certaine linéaire, dont certains sont de préférence non linéaire, qui forment ensemble une fonction complexe, l'entrée reliée à la donnée de sortie dont nous avons besoin.
L'auteur original de cet article discutera du sujet est divisé en trois parties, le contenu peut encore être liée à son texte à la découverte de fin:
https://towardsdatascience.com/the-keys-of-deep-learning-in-100-lines-of-code-907398c76504