Article pour divers principes structurels et les mérites de convolution

Wang compilé de New Medium

Qubit produit | Numéro public QbitAI

Circonvolution réseau de neurones comme l'apprentissage de la profondeur du réseau typique dans de nombreux domaines de traitement d'image et vision par ordinateur ont obtenu de très bons résultats.

Paul-Louis Prouvez sur convolution moyen rapide décrit les différents types de structures (Convolution) et les avantages à travers cet article. Par souci de simplicité, cet article ne traite que de la structure de convolution à deux dimensions.

convolution

En premier lieu, les paramètres de structure définie couche de convolution.

 noyau de convolution de 3, 1 foulée et l'expansion de convolution à deux dimensions ayant une structure limite

Circonvolution taille du noyau (Kernel Taille) : Définition de l'opération de convolution des champs réceptifs. Dans la convolution à deux dimensions, généralement fixé à trois, à savoir, le noyau de convolution de dimension 3 x 3.

Stride (Stride) : Définit la taille de pas du noyau de convolution lors de la traversée de l'image. La valeur par défaut est typiquement mis à 1, l'étape largeur peut être réglée après que l'image de l'échantillon 2, ce mode de réalisation est similaire au maximum mis en commun.

l'expansion de la frontière (Padding) : Définit la façon dont la couche réseau traite les limites des échantillons. Lorsque le noyau de convolution est supérieure à 1 et non expansé limite, la taille de sortie est réduite en conséquence, lorsque l'extension limite de la convolution de la manière standard, les données de sortie des dimensions spatiales égale à l'entrée.

canaux d'entrée et de sortie (canaux) : Nécessité de définir I de canal d'entrée, et déterminer ainsi la couche canal convolution sortie de génération O. Ainsi, la quantité de chaque paramètre peut être calculé pour la couche réseau I × O × K, où K est le nombre de paramètres du noyau de convolution. Mode de réalisation, une couche de réseau 64 d'une taille de 3 x 3 noyau de convolution correspondant à une valeur K de 3 x 3 = 9.

convolution vide

convolution creux (circonvolutions ATROUS), également connu comme l'expansion de la convolution (des convolutions dilatées), est introduit dans une convolution appelée couche " Taux d'expansion (taux de dilatation) « New paramètre qui définit la hauteur de chaque valeur de noyau de convolution lors du traitement des données.

 noyau de convolution est égal à 3, et le taux d'expansion de convolution 2-D vide extension sans marge

Un taux d'expansion de 2 à 3 × 3 noyau de convolution et champ récepteur 5 × 5 noyau de convolution du même, et ne nécessite que neuf paramètres. Vous pouvez penser comme un noyau 5 × 5 convolution de chaque ligne ou supprimer une ligne ou une colonne.

Dans les mêmes conditions de calcul, il fournit plus convolution vide champs récepteurs. convolution vide souvent utilisé dans la segmentation d'images en temps réel. Lorsque la couche réseau nécessite un grand champs réceptifs, mais pas de ressources informatiques limitées et augmenter le nombre ou la taille du noyau de convolution, convolution peut être considérée comme nulle.

convolution transposer

transposition Convolution (transposée Convolutions), également connu sous déconvolution (déconvolution) ou convolution pas fractionnaire (circonvolutions fractially straced).

Déconvolution (déconvolutions) ce nom ne convient pas, car il ne se conforme pas à la notion de déconvolution. Étude approfondie, déconvolution existe, mais il est peu utilisé. En fait, la déconvolution est l'inverse de l'opération de convolution. Vous pouvez comprendre ce processus, une image est entrée à la convolution d'une seule couche, en prenant la convolution de la couche de sortie est transmis à une boîte noire, la sortie de la boîte noire de l'image originale. On peut dire que la boîte noire a terminé une opération de déconvolution, qui est le processus inverse de l'opération de convolution mathématique.

Un peu similaire à transposer la déconvolution réelle de convolution, étant donné que les deux produisent la même résolution spatiale. Cependant, le calcul réel à la fois convolution effectuée sur les données d'entrée est différent. permutation de la couche convolution est effectuée seulement une opération de convolution classique, mais la récupération de la résolution spatiale.

 noyau de convolution de 3, 2 et foulée expansion sans marge de la structure de convolution à deux dimensions

Par exemple, si la taille d'une convolution 5 x 5 à la couche d'entrée d'image, dans lequel les étapes 2, le noyau de convolution est un 3 × 3, la bordure d'extension. L'image de sortie sera la couche de convolution est de 2 × 2.

Pour mettre en uvre le processus inverse, une opération inverse mathématique correspondant peut être généré en conformité avec neuf valeurs correspondant à chaque pixel d'entrée. Ensuite, le rythme est défini sur 2, traversant l'image de sortie, qui est l'opération inverse de convolution.

 noyau de convolution est un 3 × 3, les étapes 2 et une expansion à deux dimensions de transposition de convolution sans marge

Convolution et déconvolution transposer seulement en commun que les deux sorties sont de taille 5 × 5 de l'image, mais permutation est toujours une opération de convolution classique exécutée par convolution. Afin d'atteindre l'objectif de l'expansion, il est nécessaire d'entrer pour remplir une certaine façon.

Vous pouvez comprendre, au moins en termes de valeur absolue, un processus de convolution inverse ne peut pas transposer être réalisé dans l'opération de convolution.

Convolution reconstruction transposer juste avant la résolution spatiale, effectue une opération de convolution. Ce n'est pas une convolution mathématique du processus inverse, mais un codeur - structure de décodeur, l'effet est encore très bon. Ainsi, la convolution peut être obtenue transposition grossière et convolution d'image sans être accomplie par deux processus distincts.

convolution dissociables

convolution séparable (de convolution séparable), l'opération de convolution peut être divisé en une pluralité d'étapes. Convolution avec y = conv (x, k) est représenté, qui est l'image de sortie y, l'image d'entrée est x, le noyau de convolution soit k. Ensuite, supposons que k peut être dérivé par l'équation suivante: k = k1.dot (k2). Cela permet une opération de convolution séparable, parce que vous n'effectuez l'opération de convolution k dimensions, mais pour atteindre le même effet que d'une convolution à deux dimensions par k1 et K2, respectivement.

 filtre Sobel dans les directions X, Y

opérateur de Sobel est couramment utilisé dans le traitement de l'image, comme un exemple ici. Vous pouvez multiplier chaque vecteur et transposée des vecteurs obtenus après le même filtre. La réalisation de cette opération, six paramètres, plutôt que la convolution à deux dimensions des neuf paramètres.

Cet exemple illustre ce qu'on appelle l'espace d'une convolution séparable, cette méthode n'est pas utilisé dans la profondeur de l'apprentissage, juste pour vous aider à comprendre cette structure.

Dans un réseau de neurones, nous utilisons habituellement Structure de profondeur de convolution séparable (La profondeur convolution séparable).

Cette méthode de séparation des canaux, selon le principe du maintien, relié à une structure de profondeur de convolution peut atteindre convolution spatiale. Suivi par un exemple pour que nous comprenons mieux.

Supposons qu'il y ait une taille de 3 x 3 couche de convolution qui est de 16 canaux d'entrée, les canaux de sortie 32. Plus précisément, 32 d'une taille de 3 x 3 noyau de convolution 16 traversera chacun des canaux de données pour produire 16 × 32 = 512 caractéristiques de la carte. Après un nouveau en superposant chaque canal d'entrée spectre caractéristique correspondant à une fusion obtenue à spectre caractéristique. 32 pour obtenir les canaux de sortie finale souhaitée.

Application de la profondeur de convolution séparable de cet exemple, en utilisant un noyau de convolution de dimension 3 x 3 à travers les canaux de données 16, 16 motif caractéristique obtenue. Avant l'opération de fusion, puis traverser le motif caractéristique 16, pour ajouter de l'intégration de convolution avec la taille 321 × 1. Ce procédé utilise un 16 × 3 × 3 + 16 × 32 × 1 × 1 = 656 paramètres, beaucoup moins que ce qui précède 16 × 32 × 3 × 3 = 4608 paramètres.

Cet exemple particulier est la profondeur de fonctionnement de convolution séparable, dans lequel la profondeur du multiplicateur supérieur (multiplicateur de profondeur) est réglée sur 1, ce qui est maintenant des paramètres communs tels couche réseau.

Cela se fait à l'information spatiale et le découplage des informations détaillées. effet Xception peut être vu à partir du modèle, cette méthode est plus efficace. Étant donné que les paramètres peuvent être utilisés efficacement, et par conséquent la profondeur de l'appareil mobile de convolution séparable peuvent également être utilisés.

lecture connexe

original:

https://medium.com/towards-data-science/types-of-convolutions-in-deep-learning-717013397f4d

Plus convolution Animation:

https://github.com/vdumoulin/conv_arithmetic

[Fin]

Tout le monde veut sauter Jedi survivre grande ville fertile, mais il peut survivre, sont au courant de ces astuces
Précédent
Dalian est pas une rumeur du parti? Sampaoli pas Jardim, qui a offensé Schuster à la fin?
Prochain
Guerriers défendant deux grands talon d'Achille, le problème est très grave, mais heureusement, Cole a adressé!
essai Guiyang nouvelle ligne de production d'énergie de bon augure, la haute main dans les nouveaux véhicules d'énergie en popularité
Que les forces de la Coupe du monde standings empoisonnent la liste! RNG a renversé le premier lot de panique IG
Amnesty International a également capable de ceux-ci? Ce sont les huit vous des applications inattendues AI
Guoan gardien de but tous les quatre courageux, huissier Schmidt en difficulté de bonheur! Dalian comment un bail?
Dans 153,100 2,101,10 dans les Rockets apparaissent crise fatale, cauchemar se réalise à nouveau!
Brilliance China Jinyun V6 avec des traces de la force "de la sagesse"
Classement dans les jeux les plus rentables mobiles, classé que cinquième roi de gloire! Le premier 1 d'un petit pays!
Pas grand gagnant! excuses Carrasco + de compensation de 1,2 million en échange d'un passeport, la plupart des clubs devraient refléter
Uber gouttes véhicules sans pilote embauché des experts, il vient d'être débauchés par GM
Quatre roquettes Xilinmen, 8-0, Paul Harden à la fois record, 15 + 9 retour des Titans!
Tesla déclassement, le cours des actions baisse, où l'avenir des voitures électriques?