L'algorithme de descente de gradient devient jeu cool, qui est une étude approfondie des conférences populaires

Xiao contrôle à partir du bas de la non-Temple encastré

rapports Qubit | Numéro public QbitAI

Laissez rouler la boule sur la colline, ils ont été trouvés qui tombent vallée. original Descente de gradient algorithme Il peut devenir comme les jeux vidéo comme cool:

Ce sont le fondateur fast.ai Jeremy Howard a partagé une vidéo, à première vue comme un combat en terrain complexe d'exercices sur table, en effet, révèlent que la nature de l'algorithme de gradient stochastique descente (SGD).

Google cerveau Tokyo chercheur hardmaru a transmis l'article correspondant vidéo, évaluer, « comme la plupart du jeu de stratégie en temps réel. »

Ne pas fréquenter le plaisir, ont ainsi l'essai vidéo « prendre » sera efficace. Ce qui précède est extrait du membre de fast.ai vidéo populaire Javier Ideami écrire un texte de vulgarisation scientifique.

Si le code et les formules pour vous faire sentir ennuyeux, il peut commencer à partir de SGD cette vidéo cool, alors lisez cet article, il vous aidera à être compris de façon plus intuitive la profondeur de l'apprentissage.

Descente de gradient algorithme de visualisation

En fin de compte ce qui est le gradient?

Architecture et les derniers développements dans la profondeur de l'apprentissage, y compris CNN, RNN, créer un nombre incalculable de faux visage de GAN, sont inséparables de l'algorithme de descente de gradient.

Le gradient peut être comprise comme un terrain en pente de point de direction augmente le plus rapidement, il est le plus rapide déclin dans la direction opposée de la direction. Vous voulez que la façon la plus rapide en bas de la montagne, il va dans le sens opposé du gradient.

On dirait chose de jeu de guerre, en fait, nous étendons la balle, ils vont rouler vers le bas dans le sens de la descente de gradient.

Le but ultime de l'algorithme de descente de gradient est de trouver le point le plus bas (minimum global) l'ensemble « terrain » dans le, qui est la vallée de la plus basse altitude.

Mais sur ce terrain, la vallée peut être plus d'un (minimum local), nous avons donc besoin de se propager beaucoup de balles, de sorte qu'ils sont tombés dans différentes vallées, et enfin trouver la hauteur de contraste au dessus du niveau de la mer le point le plus bas d'entre eux.

Ce sont l'idée de base de l'algorithme de descente de gradient stochastique (SGD).

Entrée-sortie de réseau neuronal

Ayant algorithme de descente de gradient, ce qui suit a commencé à introduire les bases des réseaux de neurones.

Essentiellement, le réseau de neurones à travers une série de « poids » deviendront nos données d'entrée nécessaires sortie.

Nous commençons par la plus simple réseau de neurones 2 couches pour commencer, expliquer brièvement la structure du réseau de neurones. En fait, le réseau de neurones est beaucoup plus complexe que cela, il y a généralement des dizaines ou des centaines même de la couche de couches.

entrée : Source de données d'entrée du réseau de neurones, dans lequel le nombre de neurones à correspondre au nombre de données de base. La figure quatre entrées à l'exemple.

La première couche : Ceci est une couche cachée, il contient de nombreux neurones cachés, qui à son tour est relié aux unités de couche environnantes.

La seconde couche La seconde couche est la dernière couche a une cellule, à savoir la sortie.

W entre l'entrée et la sortie Z est une relation linéaire:

Pour la première couche de réseau, Z1 = W1X + b1, A1 = RELU (Z1), A1 est Z1 après résultat de traitement de la fonction d'activation.

Pour la seconde couche du réseau, ne sont pas envoyées en entrée de la première couche A1, la deuxième couche, Z2 = W2A1 + b2, A2 = sigmoïde (Z2).

W représente la couche réseau poids , Qui représente la force de la connexion entre les différents éléments du réseau. b représente terme Bias , Peut offrir une plus grande flexibilité du réseau.

La sortie finale Yh = A2 de la seconde couche est la sortie finale du réseau de neurones.

Yh = A2 = sigmoïde (W2 RELU (W1 X + b1) + b2)

Yh représentant le résultat de prédiction du réseau neuronal, X est l'entrée à la sortie produite par le réseau.

Dans cette équation, W1, b1, W2, b2 est inconnue, il est nécessaire de former le réseau pour trouver leur valeur correcte.

Sélectionnez la fonction d'activation

Vous avez peut-être remarqué que, dans les réseaux de neurones ci-dessus, chaque sortie est le résultat d'un fonctionnement linéaire avec un « filtre ». Pourquoi devrait-il être traité?

La relation entre la réalité des entrées et sorties sont généralement pas linéaires. Si l'architecture de réseau de neurones composé uniquement d'algorithmes linéaires, il est difficile de calculer le comportement non linéaire. Nous devons donc ajouter un de chacune des extrémités Fonction d'activation .

Activer différentes fonctions ont des caractéristiques différentes. Sélectionnez le gradient conduira à une mauvaise devenir très faible, ce qui est communément appelé disparait gradient Problème.

De plus il y a un problème opposé, qui est, explosion gradient Lorsque la pente est trop grand, le réseau deviendra très instable.

quatre types communs de fonctions d'activation sont: sigmoïde, tanh, Relu, qui fuit Relu, brièvement ci-dessous discuter de leurs avantages et inconvénients.

sigmoïde

1 / (1 + e -x )

Cette fonction est idéale pour l'entrée en deux catégories. Sa forme est atténuée, de sorte qu'un gradient peut être bien contrôlé.

Le principal inconvénient est que, dans les cas extrêmes, une fonction de la sortie devient très plat. Cela signifie qu'il est un gradient disparaît de problème.

tanh

(2 / (1 + e-2x)) - 1

Sigmoïde il est très similaire. courbe de fonction est plus raide, et donc sa production deviendra plus puissant. lacunes et similaires sigmoïde.

Relu

max (0, x)

Si l'entrée est supérieur à 0, la sortie est égale à l'entrée. Dans le cas contraire, la sortie est 0.

Sa gamme de sortie de 0 à l'infini. Cela signifie que sa production peut devenir très grand, il peut y avoir un problème d'explosion gradient. Il a également un problème sur le côté gauche est complètement à plat, elle peut conduire à la disparition du gradient.

calcul de simples RELU, est le plus couramment utilisé la fonction d'activation de la couche interne du réseau de neurones.

Leaky Relu

La fonction de la première moitié RELU remplacé par 0,01x.

softmax

e-x / Sum (e-x)

Plage de sortie est compris entre 0 et 1.

entrée Softmax distribution de probabilité normalisée. Il compresse la plage d'entrée de 0-1, comme sigmoïde.

Il est généralement la couche de sortie dans une classification multi-scène, Softmax faire en sorte que la probabilité de chaque classe est 1.

En fait, le réseau de neurones est une combinaison d'une série de fonctions, il y a une certaine linéaire, dont certains sont de préférence non linéaire, qui forment ensemble une fonction complexe, l'entrée reliée à la donnée de sortie dont nous avons besoin.

L'auteur original de cet article discutera du sujet est divisé en trois parties, le contenu peut encore être liée à son texte à la découverte de fin:

https://towardsdatascience.com/the-keys-of-deep-learning-in-100-lines-of-code-907398c76504

Jedi pour survivre matériellement bug aussi pire que le bouchon! Les conséquences sont très graves!
Précédent
Jeux peuvent être l'éclatement du scandale! L'équipe d'accueil perdre inopinément mystère caché en réalité
Prochain
Dans d'autres renforts ABC Guangdong 3 pour voir comment, après la mort de six points, ils veulent toujours grand change
DNF plus populaire profession! Ne pas battre groupe nommé, maintenant contre-attaque en ligne, les joueurs excuses collectives
Déserteurs Jeux Asiatiques donné le coup fou! Heung-Min Son de Corée est toujours pas jouer la victoire de balle sur la centrale Ouest 6
Deux super aide étrangère pour la première fois une formation commune, Guangdong fermé pour éviter les fuites, ou dans la tendance de l'utilisation de l'aide étrangère
Une équipe des plus exigeants, d'une valeur de l'aide étrangère zéro lob ultra-long d'un corner pour briser versé
LOL équipe féminine mais aussi montrer l'opération? Ho prendre 14 équipes de cartes sauvages de grande taille, permet aux joueurs triste vérité
Google version $ puce TPU niveau, tensorflow remplacer Logo a lancé la dernière version 2.0
6-0 score outsider n'est pas les yeux épicés, les yeux scène vraiment chaud sur la touche, les fans nationaux de football vraiment puissant
le visage des joueurs a été gonflée? Pas PROMETTEURS le jeu, le joueur après l'éruption de vapeur en ligne
6 L'équipe masculine de basketball asiatiques dans la phase finale de la Coupe du monde, qui est la plus grande menace à l'équipe chinoise un accès direct à Tokyo
jeu asiatiques Jeux de soccer pour hommes de données les plus fous derrière dans les cinq premières équipes, le Japon et la Corée du Sud sont difficiles à égaler
Les joueurs sprayer comment bétail? Malédiction pour diriger Warcraft a ajouté une nouvelle carrière! Blizzard designers grelottant