Pourquoi est fonction de r�seau de neurones inactif est pas disponible?

Auteur | Vandit Jain

Compile | Gong Qian

Modifier | fin Cong

Fonction d'activation du r�seau de neurones est un concept essentiel, d�termine si un neurone est activ�, les neurones d'obtenir des informations pour d�terminer l'utilit� et d�cider de conserver ou supprimer le ce neurone.

L'auteur Vandit Jain de la fonction d'activation des connaissances a r�alis� un r�sum� plus complet de l'objet de l'accent mis sur les aspects suivants:

1. Quelle est la fonction d'activation est qu'il a un r�le dans le r�seau?

2. Pourquoi avez-vous besoin de fonctions activate sans utiliser la fonction lin�aire?

3. Quelles sont les caract�ristiques id�ales de la fonction d'activation ont?

4. Actuellement diff�rentes fonctions non lin�aire utilis�.

5. vu le jour dans la derni�re valeur d'�tude attention fonction d'activation non lin�aire.

6. Quelle est la fonction d'activation doit �tre utilis�e dans les r�seaux de neurones profonds et comment les utiliser?

Tout d'abord, quelles fonctions sont activ�es?

En termes simples, la fonction d'activation est ajout� � une fonction r�seau de neurones artificiels, qui vise � aider les mod�les complexes d'apprentissage r�seau de neurones � partir des donn�es.

Par rapport au mod�le des neurones du cerveau humain sur la base, la fonction d'activation consiste � d�terminer quelle est la prochaine unit� de neurone de transmission d'informations, ce qui est la fonction d'activation dans les r�seaux de neurones artificiels. Recevoir un signal avant que la fonction d'activation de l'unit� de sortie, et le convertit en quelque chose qui peut �tre re�u sous la forme de l'unit� suivante.

La figure ci-dessous r�sume la diff�rence entre les deux:

Source: Cours de cs231n � l'Universit� Stanford

D'autre part, pourquoi la n�cessit� d'activer la fonction?

Il y a de nombreuses raisons d'utiliser la fonction d'activation non lin�aire des r�seaux de neurones.

1. En plus de la similitude de la biologie discut� pr�c�demment, la fonction d'activation nous permet �galement de d�finir une valeur de sortie de neurone en fonction des besoins � l'int�rieur d'une certaine plage. Ceci est important, parce que l'entr�e est la fonction d'activation W * x + b, o� W est le poids de l'unit� de poids, x est la valeur d'entr�e, et plus Bias b. Si la valeur de sortie n'est pas d�finie dans une certaine gamme, il peut devenir tr�s grand, en particulier dans le r�seau de neurones profond avec des millions de param�tres, ce qui entra�ne dans le calcul excessif. Par exemple, une partie de la fonction d'activation (par exemple SoftMax) d�livre en sortie des valeurs sp�cifiques pour diff�rentes valeurs d'entr�e (0 ou 1).

2. La caract�ristique la plus importante est sa capacit� � activer la fonction en ajoutant r�seau de neurones non-lin�aire. Pour faciliter la compr�hension, nous les donn�es multidimensionnelles souhaitera peut-�tre, comme indiqu� ci-dessous:

fonction lin�aire a trois propri�t�s (dans ce chiffre sont de poids corporel, pression art�rielle systolique et �ge), de sorte que nous obtenons une parcourir Lin�aire espace � trois dimensions, mais il ne peut jamais apprendre un mod�le pour �tre une personne � pr�cision divis�e en fumeurs et non-fumeurs (probl�me de classification existant � port�e de main, par exemple). La raison est simple, la d�finition de cette cat�gorie de mod�le n'est pas lin�aire.

Ce r�seau de neurones artificiels, si nous utilisons une seule unit� sans activer la fonction de r�seau de neurones va se passer? Dans ce cas, nous obtenons une sortie ou presque W * x + b, ce qui est bon, parce que la premi�re puissance W * x est x, et donc la fonction est toujours lin�aire, sensiblement identique � une fonction lin�aire.

Si nous superposer plusieurs couches de celui-ci? Si nous utilisons une fonction f (x) est repr�sent�e couche n, il peut �tre �tabli:

Cependant, cela ne suffit pas compliqu�, en particulier dans un sch�ma complexe de probl�mes avec la vision informatique et le traitement du langage naturel et autres.

Afin de mod�liser le mode non lin�aire pour apprendre (ou avoir une plus grande complexit�), une couche non lin�aire sp�cifique (fonction d'activation) est ajout�.

En troisi�me lieu, la fonction d'activation ayant des caract�ristiques souhaitables

1. gradient dispara�t question: est l'utilisation de la formation de la proc�dure de descente de gradient de r�seau de neurones.

Par une composition � base de r�gle de la cha�ne de descente de gradient back-propagation, changer la valeur du droit d'acc�s � la r�gle de la cha�ne pour chaque afin de r�duire les pertes apr�s la formation. Consid�rons un r�seau � deux couches, la premi�re couche est repr�sent�e par f (x), la seconde couche est exprim�e en f (x). L'ensemble du r�seau est o (x) = f (f (x)).

Si nous nous tournons pour calculer les poids, vous pouvez obtenir O` (x) = f (x) * f` (x). O� f (x) lui-m�me est une fonction composite de composition Act (W * x + b), o� Act est une fonction d'activation apr�s la premi�re couche. Application de la r�gle de la cha�ne � nouveau, vous pouvez obtenir f` (x) = Loi (W * + b x) * x, ce qui signifie que ce r�sultat est �galement d�pendant directement de la valeur d'activation. Maintenant, vous pouvez voir, une telle cha�ne dans la r�gle r�tropropagation passera par un grand nombre de couches.

Si la valeur est comprise entre 0 et 1 Loi entre, alors il sera multipli� par le nombre de ces valeurs pour calculer le gradient de la couche initiale. Ce processus permettra de r�duire la valeur de la couche de gradient initial, et ces couches ne peut pas apprendre correctement.

En d'autres termes, �tant donn� que la profondeur du r�seau et le processus d'activation en une valeur proche de 0, le gradient de leur disparition, qui est appel�e la disparition du gradient. Nous esp�rons donc que ne font pas gradient de la fonction d'activation id�al devient progressivement z�ro.

2. centr�e sur z�ro: la fonction d'activation de sortie doit �tre sym�trique par rapport � z�ro, de sorte que le gradient ne se d�place pas dans une direction particuli�re.

3. Calculer le co�t: chaque couche sera appliqu�e pour activer la fonction r�seau, il est n�cessaire de calculer des millions de fois dans le r�seau profond. Par cons�quent, le calcul du co�t de la fonction d'activation devrait �tre faible.

4. diff�rentiabilit�: Comme d�crit ci-dessus, le r�seau neuronal est form� en utilisant un proc�d� de descente de gradient, de sorte que la couche de mod�le est n�cessaire pour �tre micro-ou au moins partiellement d�rivable. Ceci est une condition n�cessaire en fonction de la fonction d'activation de la couche.

Quatri�mement, diff�rentes fonctions non lin�aire actuellement utilis� 1, la fonction sigmo�de

Fonction comme indiqu� ci-dessous:

Cette fonction d'activation n'a jamais �t� utilis� dans un mod�le r�el, uniquement pour des raisons historiques �num�r�es ici. fonction sigmo�de intensive informatiquement, peut causer des probl�mes disparaissent pas gradient centr�e sur z�ro, sera g�n�ralement utilis� dans un probl�me de classification binaire.

mod�le de r�gression logistique softmax: mod�le de r�gression logistique softmax est une g�n�ralisation de la fonction sigmo�de sur les probl�mes multi-classification. fonction sigmo�de avec le m�me, il produit une valeur dans une plage de 0 � 1, et est donc utilis� en tant que le dernier mod�le de classification de couche.

2, la fonction tangente hyperbolique tanh

Comme le montre:

Par rapport � la fonction sigmo�de, il ne r�sout que le probl�me centr� � z�ro.

3, une fonction lin�aire du redresseur (Rectified Unit� lin�aire, RELU)

Cette fonction est connue sous le nom d'une unit� de correction lin�aire est d�finie par f (x) = max (0, x):

Ceci est une utilisation tr�s �tendue de la fonction d'activation, en particulier dans le r�seau de neurones convolutionnel. Il est simple � calculer, non satur�, pas pr�s de gradient, mais pas � z�ro comme le centre. Il a �galement question � mourir Relu �, qui est, lorsque l'entr�e est n�gative, la sortie sera z�ro, ce qui conduit, le neurone � certains des noeuds compl�tement � morts � ne sera pas apprendre.

Un autre probl�me est d'activer explosion RELU, car il est la limite sup�rieure inf, au noeud g�n�rant parfois est indisponible.

4, la fonction Leaky RELU et Parametric RELU

Fonction est d�finie par f (x) = max (aX, x), comme illustr� ci-dessous:

Quand est de 0,1

Ici, est un param�tre habituellement r�gl� � d�passer 0,01. De toute �vidence, Leaky Relu dans une certaine mesure, r�soudre le � mourir Relu � cette question. S'il vous pla�t noter que si nous est fix� � 1, le Leaky Relu deviendra une fonction lin�aire f (x) = x, et d'aucune utilit�.

Ainsi, la valeur de est jamais mis � une valeur proche de 1. Si nous devions ensemble de chaque hyper-param�tres de neurones, r�sultant Parametric Relu ou Prelu.

5, la fonction ReLU6

ReLU6 en x > 0 r�gion est sensiblement identique � RELU, d�finie comme f (x) = min (max (0, x), 6)

Cela contribue � emp�cher l'activation de la croissance, emp�chant ainsi d'autres probl�mes explosion gradient de mineurs (� l'infini) approche et Relus normale a eu lieu.

Notre id�e g�n�rale est, pourquoi ne pas ReLU6 et Leaky Relu combiner Jusqu'� maintenant r�soudre tous les probl�mes connus de la fonction d'activation. cadre populaire DL ne fournit pas cette fonction d'activation ready-made, mais je pense que cela est une bonne id�e.

V. a �merg� dans la derni�re valeur d'�tude attention La fonction d'activation non lin�aire 1, Fonctions Swish

Swish en 2017 propos� par Ramachandran et al, d�fini par f (x) = x * sigmo�de (x).

Par rapport � Relu, bien que les graphismes sont tr�s similaires, Swish ont des performances l�g�rement meilleures. Cependant, Relu = x 0 se produira soudainement lors d'un changement, mais Swish diff�rent de cela, il ne changera pas tout d'un coup � un moment donn�, ce qui rend la formation plus facile convergence Swish.

Cependant, l'inconv�nient Swish est son co�t �lev� de calcul, afin de r�soudre ce probl�me, nous examinons la prochaine version de Swish.

2, la fonction Hard-Swish ou H-Swish

La fonction est d�finie comme suit:

Le plus grand avantage est fonction presque similaire Swish, swish mais inf�rieur au calcul des co�ts, car elle remplace la fonction sigmo�de de type exponentielle Relu lin�aire fonction de type.

Sixi�me, comment utiliser ces fonctions pour activer les r�seaux de neurones profonds?

Tout d'abord, Tanh et gradient de la fonction sigmo�de causera des probl�mes �normes disparaissent, il est g�n�ralement pas recommand�.

r�seau de neurones d'abord tent� d'introduire la fonction Relu. Comme d�crit ci-dessus, apr�s que la couche active est ajout�e dans la couche de masse (comme CNN, RNN, LSTM ou couche au courant lin�aire). Si vous pensez que les mod�les ont l'apprentissage d'arr�t, vous pouvez le remplacer par Leaky Relu, afin d'�viter probl�me � Mourir Relu �. Mais Leaky Relu augmenter l�g�rement le temps de calcul.

S'il y a couche r�seau lot-Norm (couche de lot standardis�), vous devez ajouter la couche avant la fonction d'activation, l'ordre est pour CNN-Lot (Lot convolutionnel r�seau de neurones), puis Norm-Act (l'action normalis�) . Tout en ordre de marche par lots Norm (de normalisation par lots) et la fonction d'activation est un sujet controvers�, certains ont dit que l'ordre ne compte pas vraiment, pour �tre compatible avec les documents originaux Lot-Norm, les auteurs utilisant ce mentionn� ci-dessus sorte d'ordre.

Les param�tres par d�faut de la fonction super activation si elle est utilis�e dans un tel tensorflow et Pytorch comme cadre, il est le meilleur. Cependant, vous pouvez r�gler la pente n�gative Leaky Relu et le mettre � 0,02 afin d'acc�l�rer la vitesse d'apprentissage.

via https: // towardsdatascience .com / Tout-you-need-to-know-about-activation des fonctions-en-deep-apprentissage-mod�les-84ba9f82c253

Route de la soie

Apprenez � conna�tre la Chine

Pourquoi est fonction de r�seau de neurones inactif est pas disponible?