Une compr�hension intuitive de la profondeur d'une partie de convolution d'apprentissage

Lei Note du r�seau Feng: Cet article est une compilation du blog de la technologie de groupe de Lei Feng, le titre original Intuitivement Comprendre Convolutions pour Deep apprentissage, auteur Irhum Shafkat.

Traduction | Zhipeng Relecture Zhao Pengfei | Dixiu Chuan finition | Jiang Fan

Ces derni�res ann�es, avec l'�mergence d'un cadre puissant d'apprentissage profond, pour construire un r�seau de neurones convolution devient tr�s facile � apprendre dans le mod�le de profondeur, ou m�me une seule ligne de code peut �tre compl�t�.

Mais il faut comprendre convolution, en particulier pour la premi�re fois le contact avec convolution r�seau de neurones, il noyaux de convolution concept souvent confus, les filtres, et d'autres canaux et leur architecture d'empilage tel. Cependant convolution est un concept puissant et hautement �volutive, dans cet article, nous allons progressivement briser les principes de fonctionnement de convolution, son niveau liaisons r�seau connect� pleinement, et d'explorer comment construire une solide hi�rarchie visuelle, ce qui rend image haute performance caract�ristique d'extraction.

2 convolution dimensions: op�rateur

2 convolution dimensionnelle est une op�ration assez simple: depuis le d�but du noyau de convolution, qui est une petite matrice de poids. Le noyau de convolution � deux dimensions sur les donn�es d'entr�e � glissement � de certains �l�ments de la multiplication de la matrice d'entr�e en cours, puis les r�sultats sont r�sum�s dans un seul pixel de sortie.

Une norme convolutif

Ce processus est r�p�t� noyau de convolution savoir traverser toute l'image, une matrice � deux dimensions dans une autre matrice � deux dimensions. Dans lequel la sortie et l'entr�e pond�r�e sensiblement dans la m�me position sur les donn�es (poids du noyau de convolution est une valeur elle-m�me)

Si les donn�es d'entr�e entrent dans cette � zone � peu pr�s semblable �, d�termine directement les donn�es de sortie apr�s que le noyau de convolution. Cela signifie que la taille du noyau de convolution d�termine directement la quantit� de convergence (ou plusieurs) fonction d'entr�e lors de la cr�ation de nouvelles fonctionnalit�s.

Ceci est tout � fait contraire � la couche enti�rement connect�. Dans l'exemple ci-dessus, nous vous proposons entr�e est de 5 * 5 = 25, les donn�es de sortie est �gal � 3 * 3 = 9. Si l'on utilise une norme enti�rement connect� couche, elle produira un 25 * 9 = 225 param�tre matrice de poids chaque sortie est la somme pond�r�e de toutes les donn�es d'entr�e. op�ration de Convolution nous permet de r�aliser cette transformation avec seulement neuf param�tres, caract�ristiques de chaque sortie ne sont pas � voir � chaque fonction d'entr�e, mais juste � voir � la fonction d'entr�e d'environ au m�me endroit. S'il vous pla�t noter car il est essentiel pour nous plus tard dans la discussion.

Certaines techniques couramment utilis�es

Avant de continuer � introduire convolution de r�seau de neurones, la couche de convolution d�crit deux techniques couramment utilis�es: Rembourrage et Strides

Padding: Si vous voyez l'animation ci-dessus, vous remarquerez que dans le processus de convolution noyaux diapositive, le bord est essentiellement � coup� � out, comportera 5 * 5 transformation de la matrice est caract�ris�e par 3 * 3 matrice. Pixels sur le bord de l'�ternit� est pas au centre du noyau de convolution, parce que rien du noyau peut s'�tendre au-del� des bords. Ce n'est pas id�al parce que nous voulons souvent la taille de la sortie est �gale � l'entr�e.

Certaines op�rations de remplissage

Rembourrage a des moyens tr�s intelligents pour r�soudre ce probl�me: avec des pixels de � faux � suppl�mentaires (g�n�ralement une valeur de 0, si souvent utilis� le terme � z�ro padding �) de bord rempli. Ainsi, lorsque le noyau de convolution peut permettre un coulissement pixel de bord brut en son centre, tout en prolongeant au-del� du bord du pixel factice, r�sultant en entr�e et en sortie de la m�me taille.

Striding: Lors de l'ex�cution couche de convolution, on g�n�ralement souhaitable que la taille d'entr�e de la sortie est plus faible. Il est courant dans le r�seau neuronal convolutif, ce qui r�duit le nombre de canaux augmente dans les m�mes dimensions spatiales. Une m�thode consiste � utiliser la couche mise en commun (par exemple, 2 x 2, pris chaque moyen de grille / mi-hauteur des dimensions de l'espace). Une autre m�thode consiste � utiliser Franchir:

Une op�ration de convolution de l'�tape 2 de

id�e Stride est de changer le noyau de convolution �tape de d�placement des pixels sauter. Enjamb�e est un noyau de convolution repr�sente une distance est gliss�e au-dessus de chaque pixel de l'une, est la glissi�re en une �tape la plus �l�mentaire en tant que mode de convolution standard. 2 est repr�sent� par un noyau de convolution de foul�e d�placer l'�tape 2, pour sauter les pixels adjacents, l'image originale est r�duite � 1/2. Enjamb�e 3 est repr�sent� par le noyau de convolution est une �tape de d�placement 3, en sautant deux pixels adjacents, l'image est r�duite � 1/3 de l'original

De plus en plus nouvelle structure de r�seau, tel que ResNet, a compl�tement abandonn� la couche de mise en commun. Lorsque la n�cessit� d'une m�thode de r�duction de l'image sera utilis�e Stride.

Multi-canaux Version

Bien s�r, l'image de la figure comporte un seul canal d'entr�e. En fait, la majeure partie de l'image d'entr�e est un 3 canaux, le num�ro de canal augmentera seulement la profondeur de votre r�seau. Le canal sera g�n�ralement consid�r� comme une image enti�re, mettant l'accent sur tous ses �l�ments et ne pas se concentrer sur un c�t� de leurs diff�rences.

La plupart du temps, nous traitons l'image � trois canaux de RBG (Cr�dit: Andr� Mouton)

Filtre: un ensemble de noyaux de convolution

Les deux sont essentiellement la diff�rence entre les termes: que dans le cas du canal 1 et le filtre du noyau est �quivalent � deux termes, en g�n�ral, ils sont diff�rents. Chaque filtre est en fait un ensemble de noyau de convolution, chaque couche de canal d'entr�e comporte un noyau de convolution, et est unique.

des couches de chaque convolution de sortie du filtre un seul canal, ils sont mis en oeuvre comme suit:

Chaque filtre � noyau de convolution sur un canal d'entr�e respectif � coulisse �, chaque r�sultat de calcul est g�n�r�e. D'autres noyaux que le noyau peut avoir un poids plus important � certains des canaux d'entr�e est sup�rieur � un certain noyau d'accentuation (par exemple, le filtre � noyau de convolution de canal rouge peut avoir un poids plus important que les autres canaux du noyau de convolution, par cons�quent, la r�action des caract�ristiques de canal rouge mieux que d'autres canaux).

Le r�sultat de chaque canal de traitement est coule ensuite ensemble pour former un canal. Filtres de noyau de convolution g�n�rent chacun un canal de sortie respectif, et enfin l'ensemble du filtre produit un canal de sortie totale.

Le dernier terme: parti pris. r�le polariser est d'augmenter ici le terme de polarisation pour chaque sortie de filtre pour produire un canal de sortie finale.

Autre nombre brut de filtres et le filtre unique Chengdu m�me: chaque filtre en utilisant un ensemble diff�rent de terme de polarisation de noyau de convolution et le scalaire ayant la proc�dure ci-dessus pour traiter les donn�es d'entr�e, pour g�n�rer un canal de sortie final. Ils ont ensuite �t� r�unis ensemble pour produire la sortie totale, dans lequel le nombre de canaux de sortie est le nombre de filtres. Avant que les donn�es de sortie de convolution dans une autre couche, g�n�ralement aussi la fonction d'activation non lin�aire. Pour terminer l'op�ration ci-dessus est r�p�t�e pour construire un r�seau.

2 convolution dimensions: Intuition

Convolution est encore transformation lin�aire

M�me avec la couche de convolution de m�canisme, il est encore difficile avec le feed-forward de liaison standard de r�seau, mais il n'explique pas pourquoi la convolution sera �tendue au domaine du traitement des donn�es d'image, et une bonne performance � cet �gard.

Supposons que nous ayons une entr�e d'un 4 � 4, nous devons convertir en un tableau 2 � 2. Si l'on utilise le r�seau de pr�compensation, nous allons d'abord convertir l'entr�e en une longueur de 4 x 4 pour les vecteurs 16 et 16 poss�de une entr�e 4 d'entr�e et de la couche dense connexion de sortie. Cette couche peut imaginer une matrice de poids W:

En r�sum�, il y a 64 param�tres.

En d�pit de l'op�ration de convolution semble d'abord �trange, mais il est encore une transformation lin�aire, il y a une matrice de transformation �quivalente. Si on entre une taille de 4 � 4 K 3 apr�s transformation nucl�aire est appliqu�e pour obtenir la sortie de la 2 � 2, la matrice de transformation �quivalente est:

Il y a neuf param�tres

(Note: Bien que la transformation de la matrice ci-dessus est �quivalente � une matrice, mais l'op�ration proprement dite est g�n�ralement tr�s diff�rente comme une multiplication de matrice r�alis�e )

Circonvolution, dans son ensemble, continue d'�tre une transformation lin�aire, mais en m�me temps, cela est un autre type de transformation. Une matrice � 64 �l�ments, seuls neuf param�tres sont r�utilis�s. Chaque noeud ne peut voir le nombre de sortie (import nucl�aire interne) entr�es sp�cifiques. Aucune interaction avec d'autres entr�es, parce que le poids est r�gl� sur 0.

L'op�ration de convolution est consid�r�e comme une matrice de poids a priori est tr�s utile. Dans cet article, je les param�tres r�seau pr�d�finis. Par exemple, lorsque vous utilisez le mod�le pr�-form� pour faire la classification d'images, � condition que les param�tres du r�seau � l'aide de pr�-formation, comme une caract�ristique d'une liaison de couche dense extracteur.

Dites En ce sens, il y a deux intuition est pourquoi il est tr�s efficace (par rapport � leur remplacement). La migration pour en savoir plus efficace que les commandes d'initialisation al�atoire de grandeur, parce que vous avez seulement besoin d'optimiser les param�tres de la couche finale de enti�rement connect�, ce qui signifie que vous pouvez avoir des performances exceptionnelles, chaque classe quelques images douzaine.

Ici, vous n'avez pas besoin d'optimiser tous les param�tres 64, parce que nous allons dont la plupart est fix� � 0 (et toujours maintenir cette valeur), la part restante est convertie en param�tres qui conduisent en fait seulement neuf param�tres � optimiser. Cette efficacit� est importante, lorsque le r�el dans 224 � 224 � 3784 l'image de la conversion entr�e temps MNIST, il y aura 150.000 entr�es. vue de la couche dense de l'entr�e divis�e par deux � 75000, ce qui n�cessite encore param�tre 10 milliards. En revanche, ResNet-50 un total de seulement 2000 l'argument 5.000.000.

Ainsi, certains des param�tres fixes � 0, les param�tres de liaison pour am�liorer l'efficacit�, mais avec autre �tude de la migration, l'�tude de la migration, nous savons a priori n'est pas bon, car il d�pend d'un grand nombre d'images, comment pouvons-nous savoir ce qui est bon ou mauvais il?

La r�ponse se trouve dans la combinaison des caract�ristiques, en face du param�tre est un param�tre � apprendre.

localit�

Au d�but de cet article, nous examinons les questions suivantes:

noyau de convolution � partir de seulement une petite r�gion locale de pixels pour former une composition de sortie. En d'autres termes, les caract�ristiques de sortie seulement � voir � les caract�ristiques d'entr�e d'une petite r�gion.
le noyau de convolution est appliqu�e � l'ensemble de l'image, pour g�n�rer une matrice de sortie.

Donc, avec l'arri�re-propagation est venu tout de noeuds classifi�s du r�seau, le noyau de convolution a une t�che int�ressante d'apprendre des poids de l'entr�e locale, les caract�ristiques de g�n�ration. En outre, �tant donn� que le noyau de convolution lui-m�me est appliqu�e � l'ensemble de l'image, dans lequel le noyau de convolution doit �tre suffisamment g�n�rale pour apprendre, il peut �tre de toute partie de l'image.

Si tel �tait tout autre type de donn�es, par exemple, l'installation APP de donn�es ventil�es, ce qui serait une catastrophe, car le nombre de vos applications install�es et les types d'applications sont contigu�s, ne signifie pas qu'ils ont quelque chose � voir avec l'application install�e date et l'heure que les communes � caract�ristiques locales, partag�es. � Bien s�r, ils peuvent avoir une des caract�ristiques de haut niveau potentiels se trouvent (par exemple. Les gens ont le plus besoin est ce que les applications), mais assez ne nous donne pas des raisons de croire que deux des deux premiers param�tres et param�tres compl�tement m�me. Ces quatre peut �tre une s�quence (constante), et est toujours valide!

Cependant, le pixel est toujours dans un ordre coh�rent d'apparition, et les pixels influence pr�s de l'autre. Par exemple, si un pixel � proximit� de tous les pixels sont rouges, alors le pixel est susceptible de rouge aussi. S'il y a un �cart, ce qui est une anomalie int�ressante, il peut �tre transform� en fonction, tous ces �carts peuvent �tre d�tect�s en comparant avec les pixels environnants.

L'id�e est en fait la base pour un grand nombre des premi�res vision par ordinateur des m�thodes d'extraction de caract�ristiques. Par exemple, pour la d�tection de bord, on peut utiliser le filtre de d�tection de bord Sobel, qui est un coeur, et une norme de convolution processus de fonctionnement mono-canal ayant comme param�tres fixes:

convolution de d�tection de bord vertical

Pour pas de bord de la matrice (par exemple fond de ciel), la plupart des pixels sont de la m�me valeur, la sortie du noyau de convolution est �gale � z�ro � ces points. Pour les matrices de bords verticaux, bords gauche et droit des pixels sont diff�rents, les r�sultats du noyau de convolution est non nulle, r�v�lant ainsi le bord. Dans la d�tection d'anomalie zone locale, un noyau de convolution d'agir uniquement sur une matrice 3 � 3, mais lorsqu'il est appliqu� � l'image enti�re, mais aussi assez pour d�tecter une caract�ristique particuli�re de l'image � une position quelconque dans la port�e globale ,!

Ainsi, la diff�rence essentielle que nous faisons dans l'�tude approfondie de cette question est de se demander: l'�nergie nucl�aire est utile pour apprendre? Pour les couches initiales de la base de pixels d'origine, on peut raisonnablement attendre d�tecteur de caract�ristiques ayant des caract�ristiques de niveau relativement bas, comme des lignes secondaires.

Etude approfondie et la recherche accent est mis sur l'ensemble de la branche du interpr�tabilit� du r�seau de neurones. L'un des outils les plus puissants pour cette branche est caract�ris�e en utilisant une m�thode d'optimisation pour visualiser . L'id�e de base est simple: � l'image optimize (en utilisant g�n�ralement l'initialisation du bruit al�atoire) pour activer le filtre, le rendre aussi fort. Ceci est en effet tr�s simple: si le bord est compl�tement rempli d'image optimis�e, qui est le filtre lui-m�me et des preuves solides que trouver d'activation. Avec cela, nous pouvons jeter un regard dans l'�tude de filtre, les r�sultats sont stup�fiants:

De GoogLeNet une troisi�me caract�ristique du canal convolutif diff�rente couche de visualisation, il est � noter, m�me lorsqu'ils d�tectent diff�rents types de pointe, ils sont encore tr�s bas d�tecteur de bord.

Caract�ris� en ce canal 12 � partir de la deuxi�me et de la troisi�me visualisation de convolution.

Il convient de noter que la chose importante est le r�sultat d'une convolution de l'image encore d'image. Fond de sortie de la matrice de pixels dans le coin sup�rieur gauche de la d�pouille d'image. Ainsi, vous pouvez ex�cuter une autre couche de convolution (par exemple, deux � gauche) au-dessus d'une autre pour extraire des caract�ristiques plus profondes, que nous pouvons imaginer.

Cependant, peu importe la profondeur de notre d�tecteur de caract�ristiques peut d�tecter, sans autre modification, ils peuvent encore ne fonctionne que sur une tr�s petite image. Peu importe la profondeur de votre d�tecteur, vous ne pouvez pas �tre d�tect� � partir du tableau 3 � 3 d'un visage humain. Tel est le concept d'exp�rience de domaine.

champ r�ceptif

Tous les choix de conception de base l'architecture CNN est entr�e � la fin de la taille du r�seau devient de plus en plus petit depuis le d�but, alors que le nombre de canaux de plus en plus profond. Comme d�crit pr�c�demment, cette �tape est souvent par des couches compl�tes ou piscines. Localit� d�termine l'entr�e de la couche de sortie voir couche pr�c�dente. champ r�cepteur d�termine la r�gion d'entr�e d'origine vu du point de vue de l'ensemble de sortie de r�seau.

Les bandes concept convolution est que nous traitons uniquement avec une distance fixe, tout en ignorant milieu de ceux-ci. D'un autre point de vue, nous ne gardons que la sortie � une distance fixe, et enlever la partie restante de .

3 � 3 convolution, l'�tape 2

Nous appliquons ensuite la sortie lin�aire, et en fonction de la situation normale, la convolution se superpose une autre nouvelle couche. Ce qui est int�ressant. M�me si nous avons la m�me taille et la m�me r�gion locale nucl�aire (3 � 3), une bande appliqu�e � la sortie de convolution, aura un champ r�cepteur nucl�aire plus:

En effet, les bandes de couche de sortie repr�sente toujours la m�me image. Il n'a pas �t� redimensionn�e comme culture, le seul probl�me est que la sortie de chaque pixel est une grande r�gion (d'autres pixels � �tre mis au rebut), la position grossi�re � typique � � partir de la m�me entr�e d'origine. Par cons�quent, lorsque les noyaux de couche inf�rieure en cours d'ex�cution � la sortie, il est effectivement en cours d'ex�cution sur le pixel recueillies � partir d'une zone plus grande.

(Note: Si vous �tes familier avec l'expansion de convolution, note de convolution ci-dessus n'est pas l'expansion sont deux fa�ons d'augmenter r�ceptifs convolution d'expansion de champ est une seule couche, ce qui se passe sur une convolution r�guli�re, rayures suivi. convolution, le cadre interm�diaire est non-lin�aire)

Chaque grand visualisant convolution de canal ensemble de blocs, en augmentant progressivement la complexit� de l'�cran

Ceci permet l'expansion du champ r�cepteur des caract�ristiques de convolution de la couche de niveau bas (c�t� ligne) et la caract�ristique de niveau plus �lev� (courbe, texture) combinaison, comme nous l'avons vu dans la couche comme mixed3a.

Suivie par la mise en commun / � travers la couche, le r�seau continue de cr�er un d�tecteur de niveau sup�rieur est une caract�ristique des composants, (mode). Comme nous l'avons vu dans mixed4a.

R�seau, la taille de l'image r�p�t�e diminue, ce qui entra�ne la convolution du cinqui�me bloc, seule la taille de l'entr�e 7 � 7, par rapport � l'entr�e 224 � 224. De ce point de vue, chaque pixel repr�sente la matrice de 32 � 32 pixels, ce qui est assez grande.

Par rapport � la couche pr�c�dente, une couche de ce qui pr�c�de, l'activation d'un moyen de d�tection de limite, et ici, une caract�ristique de haut niveau est activ�e sur un 7 � 7, par exemple des oiseaux.

L'ensemble du r�seau � partir d'un petit filtre (GoogLeNet 64), seule la d�tection des caract�ristiques de faible niveau, le d�veloppement de filtres avec un grand nombre (1024 dans la convolution finale du r�seau), chaque filtre est utilis� pour trouver une fonction de haut niveau sp�cifique . Apr�s couche de mise en commun est, chacun des 7 � 7 du tableau simplifi� dans un pixel, chaque canal est un d�tecteur de caract�ristique a une image enti�re correspondant au champ r�ceptif.

Par rapport aux travaux r�alis�s ant�rieurement � diffuser le r�seau, o� la sortie surprenant. Avant un vecteur standard g�n�r� � partir d'un ensemble abstrait de pixels dans l'image aux r�seaux de communication, les donn�es n�cessite beaucoup de formation est difficile � manipuler.

Circonvolution r�seau de neurones, avec les prieurs qui lui sont impos�es, en apprenant des d�tecteurs de caract�ristiques � faible niveau de d�part, �tape par �tape l'expansion de son champ r�ceptif, l'apprentissage de l'int�gration progressive de ces caract�ristiques � faible niveau et les caract�ristiques de haut niveau, abstrait pas chaque pixel combin�, mais puissant concept de hi�rarchie visuelle.

La d�tection d'objets par le premier niveau, et les utiliser pour d�tecter les caract�ristiques de haut niveau, avec le niveau de d�veloppement visuel, et, finalement, �tre en mesure de d�tecter l'ensemble des concepts visuels, tels que des visages humains, les oiseaux, les arbres, etc., ce qui explique pourquoi ils sont si puissants, mais il peut effectivement utiliser des donn�es d'image.

Enfin, une description de l'attaque contre

Avec la construction du r�seau de neurones de convolution de hi�rarchie visuelle, on peut raisonnablement supposer que leur syst�me visuel similaire � l'homme. Ils montrent une grande dans le traitement des images r�elles, mais ils ont �galement �chou� � certains �gards, cela sugg�re fortement que leur syst�me visuel humain et ne sont pas tout � fait similaire. Le principal probl�me: �chantillon de confrontation , ces �chantillons a �t� apport� des modifications sp�ciales conduit au mod�le dup�.

Pour les humains, deux images sont �videmment panda, mais le mod�le est pas le cas.

Si les humains peuvent remarquer ces cas conduisent � l'�chec du mod�le a �t� falsifi�, puis contre l'�chantillon est pas un probl�me. Le probl�me est que ces mod�les sont vuln�rables � l'�chantillon, ces �chantillons ont �t� l�g�rement modifi�s, et apparemment ne tromperai pas tout �tre humain. Cela ouvre une porte, un petit �chec comme un mod�le pour les v�hicules autonomes � partir d'un large �ventail d'applications aux soins de sant�, il est tr�s dangereux.

Robustesse contre les attaques est tr�s domaine de recherche, beaucoup de papiers, et m�me des probl�mes de concurrence et des solutions am�lioreront certainement l'architecture CNN pour le rendre plus s�r et plus fiable.

conclusion

Circonvolution r�seau de neurones est de permettre aux applications de vision par ordinateur vont de simples � des mod�les complexes qui pilotent les produits et services de votre phototh�que pour d�tecter les visages humains pour am�liorer le diagnostic m�dical. Il pourrait �tre la cl� pour aller de l'avant m�thode de vision par ordinateur, ou une nouvelle perc�e peut �tre en vue.

Dans tous les cas, une chose est certaine: ils sont tous chose �tonnante est au cur d'un grand nombre d'applications innovantes d'aujourd'hui, et le plus en profondeur la compr�hension.

r�f�rences

Un guide � l'arithm�tique de convolution pour l'apprentissage en profondeur (https://arxiv.org/abs/1603.07285)

CS231n convolutifs Neural Networks pour la reconnaissance visuelle - Convolutif R�seaux de Neurones (

Visualisation des fonctions - Comment les r�seaux de neurones construire leur compr�hension des images (de la note: les caract�ristiques ont �t� produites ici visualisations avec la biblioth�que Lucid, une impl�mentation open source des techniques de cet article de revue) (https://distill.pub/2017/ fonctionnalit� de visualisation /)

Attaquer Apprentissage avec les exemples accusatoires (https://blog.openai.com/adversarial-example-research/)

plus de ressources

fast.ai - Le�on 3: Am�liorer votre image classificateur (

Conv Nets: une perspective modulaire (

Construire des mod�les puissants de classification des images en utilisant tr�s peu de donn�es (https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html)

Lei Feng Lei Feng net net

Route de la soie

Apprenez � conna�tre la Chine

Une compr�hension intuitive de la profondeur d'une partie de convolution d'apprentissage