Dry | 6 fonction activation Zhong points de connaissances de base, assurez-vous de ma�tre!

Source: AI Youdao

Cet article sur 2800 mots Il a recommand� la lecture de 6 minutes.

Cet article est de r�sumer la fonction d'activation commune sigmo�de, tanh, points de connaissances cl�s Relu, Leaky Relu, ELU, MAXOUT de.

Nous savons que le mod�le de r�seau de neurones, chaque couche cach�e et la couche de sortie, y compris la n�cessit� d'activer la fonction (Fonction d'activation). Nous sommes plus familiers avec la fonction d'activation utilis�e est �galement Relu, sigmo�de et ainsi de suite. Cependant, la m�thode de s�lection pour chaque fonction d'activation, sauf si il y a quelques fonctionnalit�s qui n�cessitent une attention particuli�re. Aujourd'hui, nous avons et tout le monde travailler ensemble pour r�sumer la fonction d'activation commune sigmo�de, tanh, points de connaissances cl�s Relu, Leaky Relu, ELU, MAXOUT de.

Pourquoi avons-nous besoin d'activer la fonction

La structure de base d'un seul neurone r�seau neuronal est constitu� de sortie lin�aire et non lin�aire une sortie Z de deux parties. Comme indiqu� ci-dessous:

Dans lequel, f (x) est la sortie lin�aire Z, g (x) est la sortie non-lin�aire, g () repr�sente la fonction d'activation. Populaire, la fonction d'activation est g�n�ralement fonction non lin�aire, son r�le est de se joindre � une partie du r�seau de neurones non lin�aire � des facteurs tels r�seaux de neurones peut mieux r�soudre des probl�mes plus complexes.

A titre d'exemple simple, classification binaire, sans l'utilisation de la fonction d'activation, par exemple, en utilisant une simple r�gression logistique, une simple division lin�aire, comme indiqu� ci-dessous:

Si la fonction d'activation est la division non-lin�aire peut �tre atteint, comme indiqu� ci-dessous:

Visible, la fonction d'activation peut nous aider � introduire des facteurs non lin�aires que les r�seaux de neurones sont mieux en mesure de r�soudre des probl�mes plus complexes.

Il y a un probl�me, pourquoi sont g�n�ralement fonction d'activation non lin�aire, mais il ne peut pas �tre lin�aire? Du c�t� n�gatif, si toutes les fonctions d'activation est lin�aire, la fonction d'activation g (z) = z, � savoir a = z. Ainsi, avec le r�seau de neurones � deux couches, par exemple, le r�sultat final est la suivante:

Apr�s nous avons trouv� des restes de sortie du r�seau de d�rivation X combinaison lin�aire. Cela donne � penser que l'utilisation des r�seaux de neurones et l'effet direct de l'utilisation d'un mod�le lin�aire et est pas diff�rent. Un r�seau de neurones multicouche comprenant la couche cach�e m�me, si l'on utilise une fonction lin�aire en tant que fonction d'activation, la sortie finale est toujours mod�le lin�aire. Dans ce cas, le r�seau de neurones ne joue aucun r�le dans le. Ainsi, la fonction d'activation de la couche cach�e non-lin�arit�, si n�cessaire.

Il est � noter que, si la totalit� de la totalit� de la couche cach�e � l'aide d'une fonction d'activation lin�aire, seule la couche de sortie en utilisant une fonction d'activation non lin�aire, puis toute la structure du r�seau de neurones est semblable � un simple mod�le de r�gression logistique, l'effet ne diff�re pas � un seul neurone. De plus, si l'ajustement est pas un probl�me de classification, la fonction d'activation de la couche de sortie peut �tre utilis� une fonction lin�aire.

sigmo�de

expression du graphe de la fonction d'activation sigmo�de suit en tant que:

fonction sigmo�de dans la plage entre (0,1), monotone continue, la d�rivation facile, g�n�ralement utilis� pour la couche de sortie binaire r�seau de neurones.

Ci-dessous pour se concentrer sur les lacunes de la fonction sigmo�de.

Tout d'abord, une large gamme de la r�gion de saturation en fonction sigmo�de, ce qui rend dispara�t gradient facile. r�gion satur�e, comme indiqu� ci-dessous:

Repr�sent� sur la r�gion de saturation rouge courbe elliptique plat marqu�, la valeur de gradient est faible, d'environ z�ro. Gamme de fonction sigmo�de et la zone satur�e est tr�s large, par exemple, en plus de , les r�gions restantes sont � peu pr�s la zone de saturation. Cette situation est susceptible de causer un gradient dispara�tre, gradient dispara�tre va augmenter la difficult� de la formation du r�seau de neurones, affecte la performance du mod�le de r�seau de neurones.

D'autre part, la fonction sigmo�de est non nulle de sortie sym�trique, � savoir rival de sortie z�ro. Quel impact cela? Nous regardons, si la sortie fonction sigmo�de est (Wx + b), et satisfait 0 < (Wx + b) < 1. Proc�d� de d�rivation dans le sens inverse, de sorte que la perte de la fonction J de (Wx + b) la d [sigma] est une d�rivation, maintenant calculer la d�riv�e partielle de J W est:

Dans lequel, (Wx + b) > 0,1- (Wx + b) > 0.

Si les x d'entr�e du neurone > 0, quelle que soit la fa�on dont le d signe, donnent toujours dW toujours positif ou toujours n�gatif. Que chaque matrice param�tre �l�ment W va changer dans la m�me direction, avec le m�me positif ou n�gatif. Cette formation de r�seau de neurones est nuisible, tous les changements r�duiront W sont la vitesse de formation, mod�le de temps de formation d'augmentation vers le m�me symbole de direction. Comme mieux que diapositive directe vers le bas beaucoup de temps plus long que le temps n�cessaire � nos bas de l'escalier, comme indiqu� ci-dessous:

FIG, polyligne rouge est le cas discut� ci-dessus, o� W est le changement ombrag� bleu de d�faillance dans le m�me sens.

Il est � noter que, pour r�soudre ce probl�me fonction sigmo�de, entr�e neuronale x faire normalement le pr�traitement, la normalisation sera bient�t moyenne � z�ro. Cela a �galement peut effectivement �viter dw toujours positif ou toujours n�gatif.

Last but not least, la fonction sigmo�de contient exp op�ration exponentielle, le co�t de fonctionnement est relativement importante.

tanh

Fonction d'activation expression graphique tanh est la suivante:

fonction tanh dans la plage comprise entre (-1,1), monotone continue, la d�rivation facile.

fonction sigmo�de par rapport aux avantages de la fonction tanh principalement deux: d'abord, un taux de convergence plus rapide, comme illustr� ci-dessous, la pente de la fonction tanh de r�gion lin�aire sup�rieure � sigmo�de. Au sein de cette formation r�gionale sera plus rapide. En second lieu, tanh sortie de fonction moyenne nulle, il n'y aurait pas de probl�me sigmo�de fonction dW toujours positive ou toujours n�gative, affectant ainsi la vitesse du train.

Cependant, la fonction et la fonction tanh sigmo�de, car il y a zone de saturation disparaissant gradient. r�gion de saturation sigmo�de encore plus grand que certains, mais pas �vident.

Relu

Fonction d'activation Relu signifie Rectifi� Unit� lin�aire, qui est le mod�le d'expression ci-dessous:

fonction Relu est l'une des derni�res quelques ann�es la fonction d'activation plus de feu. fonction par rapport sigmo�de et tanh, qui comprennent les principaux avantages suivants:

Aucune zone satur�e, le gradient dispara�t il n'y a pas de probl�me.
Pas compliqu� op�rations exponentielles, l'efficacit� de calcul simple.
La vitesse de convergence r�elle est environ six fois sigmo�de / tanh est.
rapport sigmo�de plus en ligne avec les m�canismes d'activation de neurones biologiques.

Ci-dessous une comparaison des diff�rences de convergence figure. Relu de vitesse et le tanh. L'ensemble de donn�es est ICRA 10, un mod�le � quatre couches est un r�seau neuronal convolutif. La figure, la ligne continue repr�sente RELU, la ligne pointill�e repr�sente tanh, RELU est arriv� au taux d'erreur tanh plus rapide que 0,25. (Citation du papier "IMAGEnet Classification avec Deep convolutifs Neural Networks")

Cependant, l'inconv�nient est �galement �vidente fonction Relu. Tout d'abord, la sortie Relu est encore nulle sym�trique, il peut appara�tre comme dW positive constante constante ou n�gative, affectant ainsi la vitesse de formation.

En second lieu, et le plus important, lorsque x < 0, sortie Relu est toujours �gale � z�ro. La sortie du neurone est �gal � z�ro, alors le r�tro-propagation, les coefficients de pond�ration du param�tre de gradient transversale � z�ro, r�sultant en poids, des param�tres jamais mises � jour, � savoir, ce qui provoque l'�chec de neurones, la formation de � neurones morts �. Ainsi, pour r�soudre ce probl�me, et parfois les neurones vont Relu sont initialis�s � des valeurs biais�es positivement, telles que 0,01.

Leaky Relu

Leaky RELU de RELU am�lior�e, son profil d'expression ci-dessous:

Leaky Relu avantage avec Relu comme ceci:

Aucune zone satur�e, le gradient dispara�t il n'y a pas de probl�me.
Pas compliqu� op�rations exponentielles, l'efficacit� de calcul simple.
La vitesse de convergence r�elle est environ six fois sigmo�de / tanh est.
Il ne causera pas les neurones ne parviennent pas � former un � neurones morts. �

Bien s�r, le coefficient 0,01 est r�glable, g�n�ralement pas trop grand.

ELU

ELU (Exponential lin�aire Unit�s) est une variante RELU que le motif d'expression ci-dessous:

ELU h�rite de tous les avantages de Leaky Relu:

Aucune zone satur�e, le gradient dispara�t il n'y a pas de probl�me.
Pas compliqu� op�rations exponentielles, l'efficacit� de calcul simple.
La vitesse de convergence r�elle est environ six fois sigmo�de / tanh est.
Il ne causera pas les neurones ne parviennent pas � former un � neurones morts. �
Sortie moyenne nulle
r�gion telle qu'il y Satur� est un n�gatif ELU plus robuste que Leaky Relu, anti-bruit plus fort.

Cependant, ELU contient calcul de l'indice, il y a une grande quantit� de probl�mes de calcul.

MAXOUT

MAXOUT fait son apparition sur ICML2013, propos� par Goodfellow. Ce qui a �t� exprim� comme suit:

capacit� MAXOUT montage est tr�s forte, il peut adapter une fonction convexe. La plupart explication intuitive est fonction convexe peut �tre toute pr�cision arbitraire en ajustant une fonction lin�aire par morceaux, tandis que la valeur maximale est MAXOUT k i�me noeud de la couche cach�e, le nud � couche cach�e � est lin�aire, � diff�rents la plage, la valeur maximale peut �tre consid�r�e comme lin�aire par morceaux (au-dessus de formules k = 2).

La figure est tir�e du document "MAXOUT Networks. Ian J. Goodfellow, David Warde-Farley, Mehdi Mirza, Aaron Courville, Yoshua Bengio", on peut dire, peut �tre mont� sur toute fonction MAXOUT convexe, plus la valeur de k, les autres segments, effet d'ajustement est mieux.

Il MAXOUT assurer que la zone est toujours lin�aire, pas de zone de saturation, la vitesse de formation rapide, et n'appara�tra neurones n�crotiques.

Comment choisir la fonction d'activation droite

Le Relu pr�f�r�, vitesse rapide, mais attention � ajuster le taux d'apprentissage,
Si Relu inefficace, essayez d'utiliser tels que Leaky Relu, ELU ou variantes MAXOUT.
Vous pouvez essayer d'utiliser tanh.
Sigmo�de et tanh RNN �t� appliqu�es dans la structure (LSTM, les m�canismes de l'attention, etc.), la valeur de probabilit� ou comme d�clenchement. Dans d'autres cas, r�duire le sigmo�de.
Faible profondeur r�seau de neurones, s�lectionnez la fonction d'activation � utiliser ce peu d'effet.

Route de la soie

Apprenez � conna�tre la Chine

Dry | 6 fonction activation Zhong points de connaissances de base, assurez-vous de ma�tre!