Wang Hanchen compil� � partir Vidhya Analytics

Qubit produit | Num�ro public QbitAI

l'intelligence artificielle, de la profondeur de l'apprentissage, l'apprentissage machine ...... peu importe quel genre de travail que vous �tes, nous devons comprendre ces concepts. Sinon, dans les trois ans, vous deviendrez un dinosaure. - Mark Cuban

Les paroles de Cuba, certains peuvent sembler extr�me, mais � si une manipulation brutale pas difficile, � nous sommes maintenant au milieu d'un torrent de r�forme par le grand calcul intensif et les donn�es d�clench�es.

Tout d'abord, nous imaginons, si une personne vivant dans le pouvoir au d�but, mais ne sais pas pourquoi la question du 20e si�cle, quelle exp�rience. Au cours des derni�res ann�es, il a utilis� une m�thode particuli�re pour r�soudre le probl�me, tous un coup les choses ont chang� de fa�on spectaculaire autour. Ancien exige beaucoup de main-d'uvre et des ressources au travail, et maintenant seulement besoin d'une personne pour compl�ter le pouvoir.

Et dans le contexte actuel, l'apprentissage de la machine, l'apprentissage en profondeur est le nouveau � pouvoir �.

Donc, si vous ne connaissez pas la profondeur de l'apprentissage la puissance, nous pourrions aussi bien commencer par cet article. Dans cet article, les auteurs Dishashree Gupta que les gens veulent conna�tre la profondeur de l'apprentissage, des listes et explique les 25 termes les plus couramment utilis�s dans ce domaine.

25 Ce terme est divis� en trois groupes:

Le concept de base du r�seau de neurones (y compris une fonction d'activation commun)
Convolution r�seau de neurones
R�seaux de neurones r�currents

Concept de base:

(1) neurone (neurone)

Comme l'unit� de base de notre cerveau, les neurones sont compos�s d'une infrastructure de r�seau de neurones. Imaginez quand il est expos� � de nouvelles informations, notre corps traite, et enfin de g�n�rer une r�action sp�cifique.

De m�me, dans le r�seau neuronal, apr�s avoir re�u le signal d'entr�e, le neurone fournit en sortie le r�sultat � d'autres neurones, soit directement en tant que sortie finale par le traitement.

(2) le poids / poids (poids)

Lorsque le signal d'entr�e dans les neurones, est multipli�e par le facteur de pond�ration correspondant. Par exemple, si un neurone a deux signaux d'entr�e, chaque entr�e, il y aura un facteur de pond�ration correspondant � celui-ci. Dans l'initialisation du r�seau, ces poids seront fix�s au hasard, puis change constamment au cours du mod�le de formation.

Apr�s le r�seau de neurones form�s, l'entr�e a un facteur de pond�ration plus �lev�, souvent, cela signifie plus son importance, plus l'effet sur la sortie. D'autre part, lorsque le facteur de pond�ration de 0 signifie que l'entr�e est sans valeur.

Ci-dessous est suppos� que l'une d'entr�e, le poids appropri� est W1. Ensuite, la souche d'entr�e correspondant d'un * W1 en donnant le noeud.

(3) de d�calage / polarisation (Bias)

En plus de l'ajout de poids, besoin de passer par l'entr�e suppl�mentaire d'un processus lin�aire, appel� d�calage. En polarisant le signal d'entr�e pond�r� avec un b * W1 ajout�s directement, en tant que fonction du signal d'entr�e est actif.

(4) la fonction d'activation

Le signal d'entr�e avant et apr�s le processus de transformation lin�aire effectu� par la fonction d'activation non lin�aire pour obtenir un signal de sortie. � savoir, le signal final de sortie ayant le f (a + b * W1) sous la forme o� f () est la fonction d'activation.

Dans l'illustration ci-dessous, il est suppos� X1 ... Xn et similaires correspondent � l'entr�e de n WK1 ... WKN facteur de pond�ration et la b1 de polarisation respective ... bn. Les r�sultats que nous avons le droit d'entr�e Xi est multipli�e par le facteur de pond�ration correspondant wki plus de bi est appel� u.

u = w * x + b

La fonction d'activation f u agit sur, � savoir le neurone de sortie finale est yk = f (u)

Ensuite, nous parlons une partie de la fonction d'activation utilis�e: fonction sigmo�de, une fonction lin�aire du redresseur (Relu) et la fonction softmax

(A) fonction sigmo�de

Une des plus couramment utilis� comme la fonction d'activation, qui est d�fini comme suit:

�Source: Wikipedia

fonction sigmo�de pour la plage comprise entre 0 et 1 fonction lisse, quand il est n�cessaire d'observer un l�ger changement dans la valeur du signal d'entr�e, par rapport � une fonction en escalier, la fonction de lissage (telle que la fonction sigmo�de) obtenu de meilleurs r�sultats.

(B) la rectification d'une fonction lin�aire (RELU-rectifi�es lin�aire Unit�s)

R�cemment, les r�seaux de neurones ont tendance � utiliser alternatif perdu fonction sigmo�de RELU que la fonction d'activation de la couche cach�e, qui est d�finie comme suit:

f (x) = max (x, 0).

Lorsque x est sup�rieur � 0, la sortie de la fonction X, le reste de la sortie est �gal � z�ro. fonctions de l'image sont les suivantes:

�Source: cs231n

Les avantages de l'utilisation de la fonction RELU est, pour toutes les entr�es est sup�rieure � z�ro, le d�riv� est une constante, ce qui peut acc�l�rer la formation du r�seau.

(C) fonction softmax

softmax fonction d'activation est g�n�ralement utilis�e pour le classement de la couche de sortie.

Il est similaire � la fonction sigmo�de, la seule diff�rence �tant fonction de la sortie est normalis�e. fonction sigmo�de peut fonctionner lorsque la double sortie, mais face � de nombreux types de probl�mes de classification, fonction de probabilit� softmax peuvent facilement �tre calcul�es directement chaque cat�gorie apparaissent.

(5) r�seau de neurones

Un r�seau neuronal est compos� d'un syst�me d'apprentissage de la profondeur d'image. t�che de r�seau de neurones est de trouver une expression approch�e d'une fonction inconnue, qui est reli� � l'autre �l�ment neural compos� de ces neurones pour modifier les poids et les erreurs de polarisation dans le proc�d� selon la formation du r�seau. La fonction d'activation non lin�aire varie lin�airement avec le changement repr�sent� par une combinaison, pour produire le r�sultat final.

A propos de la meilleure d�finition du r�seau de neurones est donn�e par Matthew Mayo:

Les r�seaux de neurones sont reli�s par un grand nombre de transferts de donn�es avec un autre conceptualisation de neurones artificiels de la composition, de ces neurones les uns aux autres, �galement avec le poids correspondant du r�seau neuronal subit des ajustements. Neurones ont �t� activ�s avec un seuil, quand ils rencontrent seront activ�s lorsque les donn�es correspondantes, ainsi que le poids, ces neurones sont activ�s en combinaison conduit � la cr�ation � appris � le comportement.

(6) / couche de sortie / couche cach�e

Peut �tre vu � partir du nom, la couche d'entr�e repr�sentant des donn�es d'entr�e de la couche r�ceptrice, la premi�re couche est sensiblement r�seau; couche de sortie produire la couche de sortie, ou de la couche finale du r�seau, les couches de traitement de r�seau interm�diaire appel�e la couche cach�e.

La couche cach�e de donn�es d'entr�e pour le traitement sp�cifique, et ensuite entr�e dans la couche suivante. des couches d'entr�e et de sortie sont visibles, et la couche interm�diaire sont habituellement masqu�es.

�Source: cs231n

(7) Le perceptron multicouche (MLP-Perceptron multicouche)

Une t�che complexe de neurone unique ne peut pas �tre termin�, il est n�cessaire de les empiler et produire une sortie de travail utile.

Le plus simple r�seau de neurones comprend une couche d'entr�e, une couche cach�e et une couche de sortie. Chaque couche est constitu�e d'une pluralit� de neurones, chaque neurone de chaque couche sont connect�s � tous les neurones de la couche suivante. De tels r�seaux peuvent �tre appel�s r�seau enti�rement connect� .

(8) de propagation vers l'avant (propagation vers l'avant)

Elle se r�f�re � un signal se propageant � travers la transmission vers l'avant de la couche de sortie � partir de la couche d'entr�e vers la couche cach�e. Dans la propagation vers l'avant, le signal se propage dans une seule direction, � savoir, la couche d'entr�e vers la couche cach�e pour fournir l'entr�e, et de produire ainsi en fin de compte une sortie correspondante.

(9) fonction de co�t (fonction des co�ts)

Lors de la construction du r�seau de neurones, le r�sultat des constructeurs qui veulent �tre en mesure de fermer la sortie possible de la valeur r�elle, et donc la fonction de co�t pour d�crire la pr�cision du r�seau.

r�seau de neurones cible est d'augmenter la pr�cision de l'erreur de pr�diction de mani�re � r�duire, � savoir minimiser la fonction de co�t. En r�gle g�n�rale, la sortie de l'optimisation correspondent souvent au minimum de la fonction de co�t.

Si une erreur erreur quadratique moyenne en tant que co�t, � savoir est exprim�e en C = 1 / m (y - a) 2, o� m est le nombre de donn�es d'entr�e du processus de formation, a est la valeur de pr�diction correspondante, y repr�sente la valeur r�elle.

Mod�le de processus d'apprentissage tourne autour des co�ts r�duisant au minimum effectu�.

(10) de descente de gradient (descente de gradient)

Est l'algorithme gradient d'optimisation de descente afin de minimiser la fonction de co�t.

En descente de gradient, les x commence � partir d'un point de d�part, un petit mouvement, comme le mouvement du delta h, puis remplacer les informations d'emplacement h x-delta, r�p�t� jusqu'� ce que la valeur atteint un minimum local, auquel cas cette valeur minimale est l'emplacement des co�ts minimum.

Ledit Math�matiquement, la fonction peut �tre obtenue selon les fonctions de mouvement de gradient de n�gatif minimum local.

(11) le taux d'apprentissage (taux d'apprentissage)

Le taux d'apprentissage est d�fini comme �tant le nombre de fois pour minimiser la fonction de co�t � chaque it�ration. Autrement dit, le taux d'apprentissage se r�f�re au taux de d�croissance vers la fonction de co�t minimum. S�lectionnez le taux d'apprentissage requis tr�s prudent, travers� l'Assembl�e g�n�rale pourrait conduire � la solution optimale, est trop faible conduira � la convergence prend trop de temps.

(12) r�tro-propagation (propagation arri�re)

Dans le processus de d�finition d'un r�seau de neurones, chaque noeud sera poids et de polarisation r�parties au hasard. Apr�s la premi�re it�ration, on peut calculer l'�cart en fonction du r�sultat de l'ensemble du r�seau, puis combin� avec le gradient de variation de la fonction de co�t, facteurs de pond�ration correspondant au processus d'ajustement de sorte que la prochaine it�ration de la d�viation devient plus petite. Un tel gradient de la fonction de co�t en liaison avec le processus d'ajustement du facteur de pond�ration est appel�e la propagation arri�re.

Dans r�tropropagation, le signal de direction est transmis, en m�me temps que l'erreur de gradient de fonction de co�t propag� � partir de la couche de sortie vers l'arri�re le long de la couche cach�e, accompagn�e par l'ajustement des facteurs de pond�ration.

(13) par portions (lots)

Quand un temps de formation du r�seau de neurones, en une seule fois par rapport � l'ensemble de l'entr�e de donn�es dans, il y a une meilleure fa�on: les premi�res donn�es al�atoires dans plusieurs blocs de donn�es de m�me taille, puis les lots d'entr�e. Par rapport au mod�le de la formation � usage unique, la formation en lots permettent une meilleure application du mod�le.

(14) cycles (�poques)

Une p�riode � l'�gard de tous les lots de donn�es ont r�alis� la premi�re it�ration, y compris un temps de propagation de propagation et � l'arri�re vers l'avant, de sorte que des moyens de p�riode / �re que toutes les donn�es d'entr�e pour effectuer une propagation de propagation et � l'arri�re vers l'avant, respectivement.

Le nombre de cycle de formation du r�seau est facultative, souvent plus le nombre de cycles, plus la pr�cision du mod�le, cependant, prend souvent plus. De m�me, vous devez �galement consid�rer si le nombre de cycles / �re est trop �lev�, il y a eu des cas pourraient s'adapter.

(15) Proc�d� d'abandon

Abandon est un proc�d� ordinaire peut �viter une sur-ajustement du r�seau. Comme son nom l'indique, cach� dans le processus de formation de certains neurones seront ignor�s (drop). Cela signifie que le r�seau de la formation se fait dans plusieurs configurations diff�rentes.

Cela ressemble � une sorte d'ensemble d�crochage, une pluralit� de combinaisons diff�rentes de la structure de r�seau de sortie produit la sortie finale.

�Source: papier Hinton � L'am�lioration des r�seaux de neurones en emp�chant la co-adaptation des d�tecteurs de caract�ristique �

Adresse: https: //arxiv.org/pdf/1207.0580.pdf

(16) normalis� par lots (batch Normalisation)

Lot normalisation comme les gens pour surveiller les stations de surveillance du niveau d'eau dans le m�me fleuve. Est de faire en sorte que la couche suivante des donn�es du r�seau ont �t� la distribution appropri�e. Au cours de la formation du r�seau de neurones, apr�s chaque descente de gradient des facteurs de pond�ration seront modifi�s, ce qui va changer la structure de donn�es correspondante.

Cependant, la couche suivante peut �tre obtenue avec les souhaits de r�seau distribu�s � des donn�es similaires avant que les donn�es sont n�cessaires et donc un processus de r�gularisation avant chaque transfert de donn�es.

Convolution r�seau de neurones

(17) le filtre / filtre (le filtre)

Le filtre CNN, se r�f�re sp�cifiquement � une matrice de poids, on le multiplie avec une partie de l'image d'entr�e, la convolution produit un signal de sortie correspondant.

Par exemple, pour un 28 � 28 image du filtre d'image et le 3 � 3 matrice 3 � 3 est multipli� s�quentiellement, pour donner la sortie de convolution correspondant. Taille du filtre est g�n�ralement plus petite que l'image originale, avec un poids similaire, la minimisation des co�ts r�tropropagation, le filtre sera mis � jour.

Comme l'image ci-dessous, � travers un filtre, multiplier successivement chaque bloc d'image de 3 � 3, produisant ainsi le r�sultat de la convolution.

(18) CNN (r�seau de neurones � convolution)

r�seau neuronal convolutif est g�n�ralement utilis� pour traiter les donn�es d'image, les donn�es d'entr�e est suppos� que la forme de 28 � 28 � 3 (x les 28pixels de 28pixels valeur RVB), puis pour les r�seaux de neurones traditionnels, il y aura 2352 (28 � 28 � 3) les variables. Avec l'augmentation de la taille de l'image, le nombre de variables augmente rapidement.

Par cons�quent, la convolution de l'image, le nombre de variables peut �tre r�duite. Comme le coulisseau de filtre le long de deux directions de la largeur et la hauteur de l'image, il va produire une carte d'activation 2 dimensions correspondant, et enfin l'ensemble de la cartographie d'activation longitudinalement empil�es, g�n�re la sortie finale.

Vous pouvez consulter le sch�ma suivant.

�Source: cs231n

(19) mis en commun (mise en commun)

Afin de r�duire encore le nombre de variables tout en emp�chant surapprentissage, une pratique courante consiste � introduire la couche cellulaire (couche mise en commun) dans la couche de convolution. Comme on le voit ci-dessous, le fonctionnement de la plupart r�servoir commun de chaque couche est de 4 � 4 blocs prend la valeur maximale dans l'image originale pour former une nouvelle matrice, qui est appel� une valeur maximale de la piscine (de mise en commun max).

�Source: cs231n

Bien s�r, certaines personnes essaient de la mode, comme moyen commun (mise en commun moyenne) et similaires, mais pour maximiser la mise en commun ont de meilleurs r�sultats dans des situations pratiques.

(20) rembourrage (rembourrage)

Comme cela est repr�sent� ci-dessous, le remplissage (padding) d�signe g�n�ralement le bord de l'image du flan additionnel, de sorte que l'image d'entr�e est l'image convolu�e en accord avec la taille de la sortie, qui est �galement fait r�f�rence � la m�me rembourrage (Padding m�me).

rembourrage efficace (Rembourrage valide) fait r�f�rence � chaque pixel sur le maintien de l'image r�elle, ne pas augmenter l'�cart, de sorte que la taille des donn�es apr�s l'exp�rience de convolution continuera � devenir plus petit. (Note du traducteur: d�signe un rembourrage particuli�rement efficace est mis au rebut chaque point de temps d'une derni�re convolution du pixel ne peut �tre satisfaite, par exemple un filtre 3 * 3, les donn�es de pixel 32 pour une ligne apr�s avoir �t� soumis � une convolution pixel va perdre les deux derniers, m�me � travers le rembourrage, placez un blanc � augmenter, de sorte que chaque ligne 33 pixels, la taille des donn�es apr�s la convolution ne devient pas plus petit.

(21) (Enhanced Data de donn�es d'augmentation)

am�lioration des donn�es (donn�es d'augmentation) fait r�f�rence � la cr�ation de nouvelles donn�es � partir des donn�es existantes, en augmentant la quantit� de la formation � attendre � am�liorer la pr�cision de la pr�vision.

Par exemple, dans ladite identification num�rique, les chiffres que nous rencontrions peut �tre inclin� ou tourn�, si la formation est une rotation modeste de l'image, ce qui augmente la quantit� de formation, pourrait �tre am�lior� la pr�cision du mod�le. En op�rant la � rotation �, la qualit� des donn�es de formation est am�lior�e, ce processus est appel� des donn�es am�lior�es.

R�seaux de neurones r�currents

(22) neurones r�cursifs (r�seau de neurones r�currents)

Pour les neurones r�currents, via ses propres donn�es trait�es deviendront leur entr�e prochaine, ce processus sera un total de temps t. Comme indiqu� ci-dessous, l'�quivalent de neurones r�cursive expansion t neurones diff�rents en s�rie, les avantages de ce neurone est capable de produire une sortie plus compl�te.

�Source: cs231n

(23) Recurrent Neural Network (RNN-r�currente Neural Network)

les r�seaux de neurones r�current sont couramment utilis�s pour traiter une s�quence de donn�es, � savoir, la sortie de la pr�c�dente est utilis�e pour pr�dire la prochaine.

La pr�sence de la structure cyclique du r�seau neuronal r�current, la structure cyclique de telle sorte que ces temps de neurones avant que leurs donn�es peuvent �tre stock�es, de sorte que la sortie peut �tre pr�dite.

neurones r�cursifs similaires dans la couche cach�e sortie RNN est entr�e comme la prochaine fois, et ainsi de suite fois l'exp�rience t, puis afficher les r�sultats transmis � la couche suivante de r�seau. De cette fa�on, les r�sultats de la production finale sera plus compl�te, et l'information est tenue avant que le temps de formation sera plus longue.

(24) gradient de disparition

Lorsque la fonction d'activation de gradient est faible gradient se produira de dispara�tre. Au cours de l'arri�re-propagation, le facteur de pond�ration sera multipli� plusieurs fois ces petits gradient, obtenant ainsi de plus en plus petits, comme la profondeur de r�cursivit� ont tendance � � dispara�tre � de sorte que le r�seau de neurones a perdu sa fiabilit� � long terme. Ce probl�me est plus fr�quent dans le r�seau de neurones r�currents.

(25) explosion de gradient

correspond � gradient avec la disparition du probl�me, lorsque le gradient de la fonction d'activation est grande, l'explosion se produit � gradient. Dans le proc�d� de propagation arri�re, la grande partie du gradient du noeud de telle sorte que leur poids devient extr�mement grande, ce qui affaiblit l'effet des r�sultats des autres noeuds, le probl�me peut �tre tronqu�e (par exemple, d�finir un gradient maximal admissible) de mani�re efficacement �vit�.

[Fin]

recrutement

Nous recherchons des r�dacteurs en chef et les journalistes, les op�rateurs et les autres postes, bas� � Zhongguancun de Beijing, nous r�jouissons de votre arriv�e, � l'exp�rience de l'intelligence artificielle en pleine progression.

D�tails, le num�ro de l'interface de dialogue public, r�ponses: mot � recrutement �.

Encore une chose ...

Qu'est-ce que la pr�occupation de la communaut� AI d'aujourd'hui? En bit quantique (QbitAI) Interface s�ance publique n � r�ponse � Aujourd'hui � pour voir l'industrie et la recherche AI collecte dynamique de notre r�seau. recharge ~

Route de la soie

Apprenez � conna�tre la Chine

�tude approfondie Mise en route: 25 d�butants doivent conna�tre le concept de

Concept de base:

Convolution r�seau de neurones

R�seaux de neurones r�currents