Profondeur | algorithme de détection cible basée sur l'examen de l'apprentissage en profondeur

AI Résumé Boîte Présentation

Dans la recherche scientifique, méthodologiquement, devrait SEER forêt, au revoir les arbres. À l'heure actuelle, le développement rapide de la science et de la technologie de l'intelligence artificielle, les arbres Zheng-rong, devrait trier le contexte du système. À cette fin, nous avons choisi le papier excellente revue nationale et internationale, l'ouverture de la colonne « Résumé », donc restez à l'écoute.

introduction

tâche de détection cible est de trouver la cible dans l'image tous les intéressés (objet) pour déterminer leur emplacement et la taille, est l'une des questions fondamentales dans le domaine de la vision industrielle. Étant donné que différents types d'objets ont une apparence différente, la forme, la posture, plus interférence éléments d'imagerie lumière, l'occlusion, le champ de détection d'objet a été les plus difficiles problèmes de vision industrielle. Cet article sera analysé pour la détection cible (détection d'objets) Ce Tâches de vision machine classique, démarrer une discussion. En ce qui concerne le contenu du texte a un point de vue différent, le public sont invités au numéro sigai un message à nous, à explorer!

Quelle est la détection de la cible?

tâche de détection cible est de trouver la cible dans l'image tous les intéressés (objet) pour déterminer leur emplacement et la taille, est l'une des questions fondamentales dans le domaine de la vision industrielle. Étant donné que différents types d'objets ont une apparence différente, la forme, la posture, plus interférence éléments d'imagerie lumière, l'occlusion, le champ de détection d'objet a été les plus difficiles problèmes de vision industrielle.

Vision par ordinateur, reconnaissance d'image sur quatre tâches catégories:

Catégorie -Classification: résoudre le « ? Qu'est-ce que » Question, à savoir donner une image ou un juge de but vidéo qui contient quelle catégorie.

Positionnement -Emplacement: résoudre le « Où? » Question, qui est, déterminer la position de la cible.

Détection -Détection: résoudre le « Qu'est-ce Où ?? » Question, à savoir localiser la position de la cible et de savoir ce que la cible Oui.

Segmentation -Segmentation: divisé en instances (de niveau instance) et la division de la scène (niveau scène), pour résoudre le problème « de chaque pixel qui appartient à l'objet ou de la scène, » le.

Le noyau problème de détection de cible à résoudre

En plus de la classification d'image, détection d'objets pour résoudre le problème principal:

1. La cible peut apparaître n'importe où dans l'image.

2. Objectifs Il existe différentes tailles.

3. La cible peut avoir des formes différentes.

Si la cible est définie par un cadre rectangulaire, a un rapport d'aspect différent du rectangle. Étant donné que différents aspects de la cible, et donc la fenêtre coulissante + système de mise à l'échelle de l'image classique de la solution commune des coûts de détection de cible est trop élevé.

Détection cible

applications de détection de cibles dans de nombreux domaines. Ce qui est largement étudié est la détection de visage humain, la détection des piétons, des tests de détection de véhicules et d'autres objectifs importants. article de détection des visages « Histoire de l'algorithme de reconnaissance de visage évolution » a été une brève introduction sur sigai, nous serons de retour à écrire un article de commentaire pour cette question.

Détection des piétons

Détection de piétons dans la surveillance vidéo, des statistiques de trafic humain, la conduite automatique a un rôle important, il y aura un suivi des articles de revue pertinents.

de détection des véhicules

la détection du véhicule dans le transport intelligent, surveillance vidéo, la conduite automatique a un rôle important. Statistiques de trafic, analyse automatisée de violation du trafic de manière inséparable, le pilote automatique, le premier problème à résoudre est de déterminer où la route, autour de laquelle les voitures, les gens ou les obstacles.

D'autres applications

Les panneaux de signalisation, tels que les feux de signalisation, des signes reconnaissant les règles de conduite est également très important pour le pilote automatique, nous devons feux de circulation de l'État, que ce soit pour permettre à gauche, demi-tour et d'autres signes pour déterminer le comportement du véhicule.

Le trafic détection des signes

En plus de détecter ces objectifs communs, de nombreux domaines doivent également détecter une cible d'intérêt. Par exemple, le matériau des défauts de surface de l'inspection industrielle, un défaut d'une brosse dure de détection de surface de la carte de circuit.

détection de défauts de surface

L'identification des ravageurs des cultures et les maladies des surfaces agricoles ont également besoin d'utiliser la technologie de détection d'objet:

La détection des ravageurs des cultures et les maladies

Application de l'intelligence artificielle en médecine est actuellement un sujet brûlant, les images de lésions telles que l'imagerie médicale IRM de détection de la tumeur et le diagnostic de l'automatisation de la reconnaissance, de la qualité assurant le traitement est d'une grande importance.

détection de tumeur
algorithme de détection des cibles liées

algorithmes DPM

Différents types de visage particulier, la cible de détection des piétons, général pour détecter simultanément l'image cible de détection multicategory, plus difficile. approche classique à ce problème est de DPM (modèle Deformable partie), comme son nom l'indique, ce composant est un modèle déformable, un algorithme de détection à base de composants. Le modèle proposé en 2008 par le Felzenszwalb, et a publié une série de CVPR, NIPS articles, trois champion réélue de détection PASCAL cible de COV, a remporté le 2010 PASCAL COV « Prix d'excellence à vie. »

Avant la profondeur de convolution réseau de neurones (DCNN) se produit, l'algorithme de DPM a été les zones les plus remarquables de l'algorithme de détection de cible, son idée de base est d'extraire des caractéristiques artificiels DPM (comme indiqué ci-dessous), puis classification latentSVM. La présence de tels procédés d'extraction de caractéristiques limites évidentes, tout d'abord, la DPM caractérisée en complexité de calcul, le calcul lent, d'autre part, les caractéristiques artificielle du dessin en rotation, objet de changement de détection d'angle de vision pauvre. Ces inconvénients limitent grandement l'algorithme de scénario d'application.

Procédé de détection de cible DPM

Alexnet

L'idée moderne de la profondeur du réseau de neurones a été proposé au début de 2006 Geoffrey Hinton, jusqu'en 2012, Alex Krizhevsky avec le célèbre modèle de réseau de neurones à convolution Alexnet conduisant à la seconde 10% du score a remporté le champion de classement d'image ILSVRC2012, l'apprentissage en profondeur technologie véritablement entrée dans la vue dominante du monde universitaire et de l'industrie. Tombez dans les réseaux de neurones profonds pour subvertir les méthodes d'extraction de caractéristiques traditionnelles, grâce à sa forte capacité à exprimer, à travers une multitude de données de formation et une formation adéquate pour apprendre l'auto fonctionnalité utile. Ce rapport manuel traditionnel à fonder de la manière caractéristiques et de l'algorithme de conception est un saut qualitatif.

Structure de réseau AlexNet

Les objets peuvent être appris par le réseau de neurones de convolution (, sigai sera introduit dans le prochain article sur le principe des réseaux de neurones et pourquoi convolutifs efficaces) à différents niveaux d'expression d'abstraction:

étude de niveau de la profondeur de l'expression caractéristique résultant

OverFeat

2013 New York University équipe Yann LeCun Zhang OverFeat xiang a présenté un certain nombre d'entrer en ILSVRC2013 premier match, ils ont amélioré Alexnet, proposé d'utiliser pour compléter un certain nombre de tâches avec un réseau de méthode de convolution. Cette méthode tire pleinement parti des fonctionnalités d'extraction de caractéristiques de réseau de neurones convolutionnel, le processus de classification dans lequel les caractéristiques extraites pour une variété de tâches tandis que la détection de positionnement, en changeant les couches finales du réseau, différentes tâches peuvent être réalisées, sans avoir à partir de paramètres de formation de zéro pour l'ensemble du réseau. Cela incarne pleinement les avantages de CNN et d'explorer les caractéristiques communes.

Dans cet article, les principaux faits saillants sont les suivants:

1. Les volumes partagés de la base d'apprentissage pour les activités multitâches.

2. Une pensée réseau complet de convolution.

3. opération de fenêtre coulissante (Fenêtre coulissante) afin d'éviter un grand nombre d'opérations répétées dans une couche de fonction, qui est ensuite suivi une série d'algorithmes ont été améliorés et l'approche classique.

OverFeat plusieurs défauts évidents:

1. L'utilisation de la fenêtre de planification stratégique avide multi-échelle, ce qui conduit à calculer le montant est encore très importante.

2. A ce moment-là, pas trop bon réseau de base, caractérisé par la capacité à partager est pas trop forte couche de fonction, sans tenir compte de la fusion des fonctionnalités multi-échelle, les petits objectifs de résultats pauvres, le résultat global de détection ne sont pas satisfaisantes. mAP ILSVRC 2013 jeu de données (qui peut être comprise comme un simple précision de détection) de 24,3%.

Classique réseau neuronal convolutif a un problème en ce qu'il prend toute la taille fixe d'image d'entrée, car la taille de la matrice de poids entre la première couche et connectée à une couche de convolution complet avant qu'il ne soit fixé, et une couche de convolution , la couche entièrement connecté lui-même ne limite pas la taille de l'image d'entrée. Ce faisant détection de cible, les réseaux d'entrée convolutifs zone candidats face tailles d'image ne sont pas fixes.

Un exemple sera décrit comment faire un bon modèle DCNN a été conçu, peut supporter une image d'entrée de toute taille, où un scénario de réseau est la convolution complète (FCN), à savoir retirer toutes les couches entièrement connectées, être tous remplacés par une couche de convolution:

FCN ne l'exposition Heisei 5 × 5 calcule alors un vecteur unidimensionnel, mais en utilisant directement un 5 × 5 convolution vérifier une image entière à l'opération de convolution. Par exemple, la taille de 16 × 16 fonction de l'image, alors ce qui arriverait? Considérons le schéma suivant:

Cette fois-ci constatera que la sortie finale du réseau est une 2 × 2 caractéristiques de taille de l'image. FCN peut être trouvée en utilisant le réseau, vous pouvez entrer une image de taille. Notez que la sortie finale taille de l'image caractéristique du réseau est plus toujours un 1 × 1, mais en rapport avec la taille de l'image d'entrée.

OverFeat Il y a beaucoup d'innovation, mais ne peuvent pas être considérés comme une détection cible typique Pipeline, nous avons donc mis séparément. Ce qui suit R-CNN a commencé à introduire de la détection de courant de l'objet en fonction du contexte de développement DCNN.

Circonvolution Les réseaux de neurones pour la détection cible après des progrès rapides à court terme améliore considérablement la précision de l'algorithme, pousser la technologie à l'utilisation pratique.

L'algorithme de détection de cible sur la base feuille de route DCNN

R-CNN

Région CNN (appelée R-CNN) par le Ross Girshick

(Les rivières et les lacs connus RBG Grand Dieu, les étudiants Felzenszwalb) proposés, est une étape importante pour l'utilisation de l'apprentissage en profondeur pour la détection cible, a jeté les bases de cette sous-région. Cet article idée Qing Qi, après des années d'expérience dans le goulot d'étranglement de la méthode DPM, a amélioré de manière significative le taux de détection (sur mAP ensemble de données ILSVRC 2013 était de 31,4%). RBG est le même Dieu existe dans ce domaine, les méthodes d'améliorations ultérieures, telles que la restauration rapide R-CNN, plus rapide R-CNN, YOLO et d'autres travaux connexes, et il a raconté.

Les principales étapes de détection R-CNN est:

1. sélective algorithme de recherche extrait environ 2000 candidats de la région de l'image de trame à détecter, ce qui peut inclure un bloc candidat cible à détecter.

2. Toutes les boîtes Hou mises à l'échelle à une taille fixe (son original à l'aide de 227 × 227).

3. Caractéristiques extractibles de chaque trame candidat avec le DCNN, pour donner un vecteur caractéristique de longueur fixe.

4. Le vecteur de caractéristique obtenue dans l'information de type de classification SVM, dans la régression de réseau entièrement connecté correspondant à la position de coordonnées de l'information.

raison R-CNN le système de fenêtre coulissante sans utiliser un coût calculé est élevé, une grande quantité de la fenêtre à classer, rectangle autres objectifs de différents types ont des rapports d'aspect, la taille uniforme ne peut pas être utilisé pour scanner la fenêtre d'image. réseau de convolution pour extraire convolution de fonctions cinq couches et deux couches entièrement connectées, une image RGB d'entrée est une taille fixe, la sortie est 4096 dimensions vecteur de caractéristique. Classer les régions candidates en utilisant une machine à vecteurs de support linéaire, un vecteur de caractéristiques est calculé pour chacune de toutes les régions candidates d'une image à détecter, classé dans les machines à vecteurs de soutien; réseau entièrement connecté tout en réinjectant les coordonnées de position.

R-CNN si intelligemment conçu, mais il y a encore de nombreuses lacunes:

1. double comptage. système R-CNN mais pas exhaustive, mais par la proposition (Selective Recherche) encore environ deux mille candidat cadre, le cadre candidat a besoin d'un réseau fédérateur séparé par le montant de calcul d'extraction de caractéristiques est encore grande, le bloc candidat il y aura chevauchement entre, donc il y a vraiment beaucoup de double comptage.

2. Test de formation n'est pas simple. extraction de la région candidate, l'extraction de caractéristiques, la classification, l'opération de régression sont séparés, les données intermédiaires doit également être enregistré séparément.

3. ralentir. Devant les lacunes de la R-CNN a finalement conduit à un traitement étonnamment lent sur le GPU a besoin d'une image dix secondes, le CPU aura besoin de plus de temps.

4. Patch image d'entrée obligatoire mis à l'échelle à une taille fixe (son original à l'aide de 227 × 227), l'objet provoque une déformation, entraînant une performance de détection.

SPPNet

Après la MSRA Kaiming He et al. Sur la base de la R-CNN SPPNet, bien que cette méthode repose également générer une trame de candidat, l'opération d'extraction du cadre de candidat, mais sera transféré à la vue caractéristique de vecteur caractéristique de la convolution, le R -CNN devient plus circonvolutions d'une convolution, réduit considérablement la quantité de calcul (qui se réfèrent à la OverFeat).

R-réseau CNN ne peut accepter une convolution de l'image d'entrée de taille fixe. Pour tenir compte de cette la taille de l'image ou la taille de la zone d'image écrêté, qui conduirait à l'image ne couvre pas l'ensemble de la cible, ou redimensionner l'image, ce qui entraîne une distorsion. Dans le réseau de neurones à convolution, la convolution de la couche d'image d'entrée ne requiert pas de taille fixe, seule la première couche est entièrement connecté à saisir une taille fixe, et parce qu'elle est l'une juste avant la matrice de poids entre la taille fixe, l'autre pleine grandeur couche de liaison ne nécessite pas une image fixe. Si vous faites un peu de traitement entre la dernière circonvolution de la première couche complète et la couche connexion, l'image entière devient différentes tailles de la couche de connexion d'entrée de taille fixe peut résoudre le problème.

SPPNet introduit couche mise en commun spatiale pyramide, caractérisé en image de pyramide de l'espace de convolution obtenu par échantillonnage de la sortie d'une longueur fixe, et le rapport d'aspect peut être fonction de la région de la couche d'échelle arbitraire pour l'extraction de caractéristiques. Plus précisément, cette caractéristique du nombre fixe mesh région d'image des images de différentes largeur et la hauteur, la hauteur et la largeur de chaque grille sont pas prédéterminés pour chaque maille ont été mis en commun, de sorte que vous pouvez obtenir une sortie de longueur fixe. La figure est une vue schématique de l'opération SPP:

Par rapport R-CNN, SPPNet détection de plus de 30 fois plus rapide. La figure inférieure relativement processus de détection R-CNN et SPPNet:

La figure est principe SPPNet:

détection trame figure SPPNet

SPPNet et R-CNN que sa formation à passer par une pluralité d'étages, dans lequel doit être stocké intermédiaire; paramètres de réseau de base suit les paramètres initiaux réseau classé est pas optimisé pour le problème de détection.

RCNN rapide

Ross Girshick SPPNet fait pour améliorer encore proposé FRCNN, qui est la principale innovation couche RoI Pooling, dans laquelle convolution figure de tailles différentes bloquera uniforme d'échantillonnage du candidat taille fixe en fonction. la pratique ROI mises en commun et de la couche SPP comme couche, mais une seule dimension pour le maillage et mis en commun. La couche peut être dérivé directement, gradient directement transmis au réseau de base est la formation optimisée. améliorations FRCNN pour la R-CNN et SPPNet sont en plusieurs étapes et le processus de formation est le problème beaucoup de temps de l'espace pendant la formation. La profondeur du réseau et de la classification SVM en deux étapes derrière les pièces ensemble, en utilisant un nouveau réseau font directement la classification et la régression. Alors que le temps de formation sur Pascal COV raccourcie de 84 heures à R-CNN 9,5 heures, le temps de détection est raccourcie de 45 secondes à 0,32 secondes.

Rapide RCNN important est l'épine dorsale du réseau peut également être impliqué dans la formation! ! !

Plus rapide RCNN

Plus rapide RCNN SPPNet et nécessite un module de région candidate de production séparée, ce module calcule une grande quantité, mais pas facile pour GPU d'accélération. Pour résoudre ce problème, Shaoqin Ren et al Faster RCNN en base RCNN plus rapide, une augmentation du réseau RPN (Région réseau Proposition) dans le réseau fédérateur, ensemble d'ancrage à différentes échelles de convolution (Anchor) à RPN par certaines règles couche a été extrait bloc fonction candidat à la place de la méthode de génération de bloc candidat traditionnel sélectif Recherche, formation de réseau pour atteindre la fin. génération de zone candidate, région candidate d'extraction de caractéristiques, processus de régression de la boîte et le classement d'un seul coup, dans différentes parties du modèle de processus de formation apprennent non seulement à mener à bien leurs tâches, mais aussi l'auto-apprendre à coopérer les uns avec les autres. Ceci est également le premier algorithme de détection de cible d'apprentissage en profondeur dans le vrai sens.

Note: La version Matlab Shaoqin Ren RPN mis en uvre par étapes et phases sont séparées formation FRCNN, mais dans la pratique (version Python RBG mis en uvre) a révélé que les deux peuvent optimiser le train ensemble, et il n'y a pas de perte de précision, nous pouvons vraiment dire plus rapide RCNN pour atteindre la fin de la formation.

(À droite) Structure de cadre Comparison rapide RCNN (à gauche) et plus rapide RCNN

R-FCN

De plus en plus mainstream maintenant des couches de réseau, la méthode de calcul de détection basée sur le cadre plus rapide RCNN influencée par trois facteurs:

1. Réseau de base complexité

2. Combien de numéro de boîte de candidats

3. La complexité et la classification sous-réseau où se trouve la régression (calculée avant chaque zone de trame candidate sont indépendants).

Ancien optimisation générale de deux coûts directs est pas trop élevé. Si le sous-réseau sage RoI d'optimisation directe est réalisable, il sera possible de réduire la profondeur des sous-réseaux? La classification est d'augmenter la traduction de l'objet invariant (différentes positions d'objet sont les mêmes), la traduction de diminution de l'objet cible de détection de changement (position de détection d'objet d'un besoin d'objet à localiser). En général, nous avons utilisé les réseaux sont IMAGEnet de formation de mission obtenue annonce, lorsqu'elle est effectuée la détection cible Finetune. Étant donné que le modèle initial a été basé tâches de classification, il aura tendance à invariance de traduction, la détection de cible et semblait contradictoire.

Le MSRA Jifeng Dai et al a proposé un R-FCN, pour résoudre ce conflit par des cartes de pointage de position positive (figure Score sensible à la position). prévision de la classe des positions scores sensibles RoI FIG produites par les parties prédiction de catégorie différentes du Rói vote. Les exemples cités dans le texte original, « Si nos algorithmes pour identifier le bébé, puis mettre une zone cible en carrés, où l'algorithme pense région où cinq grille respectivement la tête du bébé, les membres et le torse, puis selon le mécanisme de vote, ils pensent la zone cible est l'endroit où un bébé. cela est compatible avec notre logique de jugement humain ".

R-FCN suit RCNN plus rapide le cadre de différents Faster RCNN est basé sur la carte de score en introduisant la position sensible, sage-RoI sous-réseau sera éliminé, en utilisant le retour sur investissement d'échantillonnage mettant en commun les informations directement sur la position Score sensible à la figure classification de fusion et des informations de localisation.

R-cadre du réseau FCN

ResNet101 d'exemple, la trame de multiplexage détection différentes couches du réseau avec une convolution

Masque R-CNN

2017 Kaiming Il a mis en avant Masque R-CNN, et obtenir ICCV2017 le prix du meilleur papier. Les auteurs ont noté, plus rapide R-CNN En faisant downsampling RoI Pooling et la taille sont faits des caractéristiques de fonctionnement arrondi figure, cette approche à la tâche de classification a peu d'effet, mais aura un certain impact sur les tâches de détection, une telle segmentation sémantique la précision de la tâche au niveau des pixels est encore plus grave. A cet effet, les liens du réseau de la figure caractéristique concerne l'utilisation de taille variable non opération d'arrondi, mais pour remplir les emplacements de pixels non entiers par différence bilinéaire. Lorsque cette fonction est pas l'aval vers l'amont erreur de position de la cartographie de la figure, non seulement pour améliorer les résultats de la détection des cibles, de sorte que l'algorithme peut également répondre aux tâches de segmentation sémantique de précision nécessaire.

La méthode de détection décrit ci-dessus sont tous plan à deux degrés, à savoir la région candidate est divisée en deux étapes pour générer et classification des zones, nous présenterons plusieurs méthode classique de stade unique.

série YOLO

En 2015, avec l'émergence de l'algorithme YOLO, l'algorithme de détection des cibles d'apprentissage en profondeur commence par les deux étapes (deux étapes) et une seule étape (une seule étape) des points. Série R-CNN distingue algorithme de détection représenté par un à deux étapes, le bloc candidat arrondi branche de retrait YOLO (phase Proposition), directement à l'extraction de caractéristiques, des blocs de classification et de candidats d'achèvement de régression dans le même réseau de convolution non ramifié, de sorte que structure simple du réseau, le taux de détection plus rapide que R-CNN a près de 10 fois plus. Cela rend l'étude approfondie de l'algorithme de détection de cible au moment du début du calcul de puissance pour répondre aux besoins des tâches de détection en temps réel.

algorithme de mise à l'échelle de l'image à détecter une taille uniforme, afin de détecter les différentes positions de la cible, et similaire dans une grille d'image, si le centre d'une chute de la cellule cible dans une grille, cette grille est responsable de la prédiction de la cellule cible.

La figure YOLOv1 dernière seulement pour l'analyse caractéristique de 7x7, de telle sorte qu'il en résulte une mauvaise détection de petites cibles, lorsque plusieurs cibles ne semble pas facile de distinguer quand une cellule de grille.

schémas YOLOv1

YOLOv1 cellule de grille fonctionnent sur chaque caractéristique de la figure 7X7

YOLOv2 YOLOv1 amélioré la structure du réseau, en plus grande partie ajoutée de nos jours la structure populaire réseau de couche résiduelle normalisée et l'extérieur, mais aussi une formation ciblée à haute résolution du réseau de classification (448x448) en utilisant la formation du réseau et le dépistage seul réseau en augmentant la résolution de l'entrée, la carte a gagné 4 pour cent d'augmentation. YOLOv1 épissé avec un seul souci de connexion de couche de cellules de grille de prévision complète de la frontière, ce qui conduit à une plus grande perte de l'information spatiale, le positionnement a permis, l'auteur a été optimisé pour améliorer dans cette version:

1. dessine Anchor pensée rapide R-CNN, les auteurs ont constaté que la sélection basée sur les règles d'utilisation effet Anchor n'a pas été amélioré dans la pratique, l'expérience et l'auteur COCO Pascal COV ensemble de données d'analyse statistique (analyse typologique ) sélectionnez la taille de la ligne de propriété à l'ancre nettement améliorée.

2. Les auteurs ont constaté que le modèle de convergence est instable lors de l'utilisation des boîtes d'ancrage, en particulier dans les premières itérations du temps. La plupart de l'instabilité apparaît sur l'optimisation de la boîte de prédiction de coordonnées (x, y). Il n'y a donc pas de procédé de décalage de la prédiction directe, approche de prédiction a été utilisée par rapport à la position de coordonnées de la cellule de grille, l'utilisation de la fonction logistique de réalité de terrain normalisé entre 0 et 1, les valeurs de coordonnées sont normalisées, modèle l'optimisation sera plus stable.

YOLOv3 YOLOv2 utilisé sur la base du réseau de conception nouvelle et de la structure de réseau Darknet53 FPN liant résiduel, dans lequel le réseau figure après les dimensions correspondantes de la fonction de pré-échantillonnage en vue de deux réseaux de polymère après réseau convolutionnel, puis d'obtenir le résultat prévu. Ces améliorations YOLOv3 un tiers du temps à atteindre le SSD une très grande précision. Le test dev mAP@0.5 COCO atteint 57,9%, similaire aux résultats RetinaNet (papier FocalLoss a proposé un seul étage de réseau), mais quatre fois la vitesse plus rapide.

YOLOv3 de nombreux modèles complexes que la version précédente, en changeant la taille de la structure du modèle de compromis vitesse et de précision.

points d'amélioration YOLOv3:

1. prédiction multi-échelle (le FPN)

2. Une meilleure réseau Backbone (Darknet53 Réseau résiduel)

3. classification de perte en utilisant la fonction de perte d'entropie croisée binaire remplacement Softmax fonction de perte (Softmax sélectionne le score le plus élevé pour la détermination du type de catégorie du cadre actuel appartient, mais en réalité, une étiquette cible peut tomber dans plusieurs catégories)

SSD

SSD sur YOLO a été amélioré et atteint une méthode en deux étapes est tout à fait exact, tout en maintenant une vitesse plus rapide. SSD utilise également l'idée de maillage, et différent plus rapide RCNN est qu'il intégrera toutes les opérations effectuées dans un réseau de convolution. Afin de détecter des cibles à différentes échelles, la SSD pour images caractéristiques de balayage de fenêtre glissante de différentes couches de la convolution, la détection de petites caractéristiques dans l'image cible en face de la couche de sortie de convolution, la couche de détection est grand, l'image caractéristique délivré par la convolution ci objectifs. Ses principales caractéristiques sont les suivantes:

1. Multiscale sur la base des caractéristiques de détection de l'image: dans la pluralité de convolution, dans lequel la prédiction de la figure échelle, différentes tailles de cible de détection afin d'améliorer la précision de détection de l'objet cible est faible dans une certaine mesure.

2. boîtes d'ancrage attire la pensée rapide R-CNN, caractérisé en échantillonnant les régions candidates à différentes échelles de la figure, d'améliorer la détection de cibles de rappel et de détecter un petit effet dans une certaine mesure. La figure est le principe du SSD:

FPN

FPN méthode (fonction réseau Pyramide) tout en utilisant à faible niveau comporte une haute résolution et des caractéristiques sémantiques de haut niveau, caractérisé par l'intégration de ces différentes couches pour obtenir l'effet d'améliorer la prédiction de l'effet. prédiction FPN est effectuée séparément sur chacun de la couche d'intégration de caractéristique, et qui possède de fusion classique différemment.

Structure de réseau FPN D comme indiqué ci-dessous (dans laquelle b la structure YOLO utilisée, en utilisant la structure SSD c), qui a la structure représentée une souplesse considérable, et diverses caractéristiques peuvent être extraites en tant que réseau en conjonction avec un algorithme de détection basé sur un réseau. Nous verrons plus tard, les modèles état de l'art les plus récentes ont adopté cette structure. Dans lequel le réseau à l'aide RetinaNet ResNet extraction présente sur la base du FPN, et amélioré en une seule étape des algorithmes de détection répandue dans certaines classes des classes de premier plan et arrière-plan avec le problème des pertes de déséquilibre focal perte de perte. Ces structures d'algorithmes de détection FPN peut obtenir plus abondantes et une haute résolution d'image de profondeur caractéristique de faible profondeur figure dans le réseau augmente, l'information sémantique plus riche acquise en même temps, ce qui rend cette structure réseau présente d'excellentes applications pratiques basées la performance.

Actuellement, il existe quatre principaux cadre de détection utilisé sous forme de caractéristiques:

1. pyramide d'images. Venant échelle de l'image à différentes tailles et différentes tailles caractéristiques correspondantes des images générées. L'inconvénient de cette méthode est d'augmenter le coût du temps. Certains algorithmes utiliseront ce système pyramidal d'image lors des tests.

2. échelle de couche unique comporte. SPPNet, Fast RCNN, RCNN plus rapide de cette façon, à savoir, en utilisant uniquement la dernière couche des caractéristiques de convolution de la couche réseau.

3.SSD par l'intermédiaire d'une telle fusion de caractéristique multi-échelle, mais pas le processus d'échantillonnage, à savoir l'extraction de différentes échelles faire des prédictions à partir de différentes couches du réseau, de cette manière sans calcul supplémentaire. algorithme SSD pas assez de caractéristiques de bas niveau utilisée (dans le SSD, caractérisé en ce que le meilleur réseau de couche conv4_3 VGG), les caractéristiques de bas niveau pour la détection d'assez petits objets est utile.

4.FPN structure ascendante à l'aide du haut vers le bas pour atteindre les caractéristiques de bas niveau et l'intégration des fonctionnalités sémantiques de haut niveau, la densité d'information et d'améliorer la résolution des cartes de fonction, un petit effet d'améliorer l'objet cible de détection, différent du SSD, FPN ils sont indépendants de chaque prédiction.

classement COCO2017

Enfin, les derniers développements algorithme de détection cible commune nous attendons. Ci-dessous est un leader détection cible algorithme MSCOCO compétition 2017:

modèle MegDet qui est classé premier dans le désert, comme la technologie (visage ++) soumission. Leur programme n'a pas fait grand-chose en termes d'optimisation de l'algorithme de détection (utilisations ResNet50 + FPN), mais le parallèle est optimisé à l'échelle de la formation. Formation environnement matériel est un cluster constitué de 128 GPU, GPU en améliorant l'algorithme de normalisation inter-lots et le taux d'apprentissage stratégie de changement, augmentera la taille du lot à 256, ce qui rend le lot en vrac normalisé moyenne et la variance d'une couche utilisée dans capable de réagir des caractéristiques plus générales, de plus en plus efficacement l'effet de normalisation, ce qui améliore considérablement la vitesse de formation et a obtenu de très bons résultats.

PAN classé deuxième mode de réalisation amélioré FPN algorithme, comme illustré ci-dessous. FPN sur la base de celui-ci augmente non seulement un réseau de sous-échantillonnage (b), en utilisant également un bloc candidat de prédiction de polymérisation (c) sur une pluralité de caractéristiques différentes échelles sur la Fig. Le modèle classé deuxième dans COCO compétition de détection de cibles de ce terme, et a rendu la tâche de championnat de division sémantique.

Le troisième modèle de main MSRA, ils ont aussi n'a pas fait beaucoup pour améliorer l'algorithme de détection lui-même, en utilisant la structure du réseau Xception et SoftNMS à base FPN, mais différent du passé est l'utilisation de la couche de convolution variable de DCN (déformable convnet) pour remplacer la convolution traditionnelle, convolution telle couche peut être ajustée en fonction des informations de position de la convolution noyau sentir l'image du point sémantique, pour améliorer la capacité du réseau à fonction d'objet d'extrait. La figure est la couche convolutionnel principe variable:

Les résultats pour le quatrième réseau FPN + ResNeXt en tant que réseau de base Masque algorithme R-CNN. D'excellents modèles de performance sont derrière la plupart des R-FCN, FPN, modèle plus rapide RCNN autres moissonneuses-batteuses classiques DCN, algorithmes mécanisme de l'attention, de la structure de réseau de pointe et le modèle de classification de la technologie de fusion formée.

Source: sigai Intelligence artificielle Plate-forme

Qui est le plus grand joueur dans l'histoire du Real Madrid? Il a été en proie à des problèmes
Précédent
inventaire société équipements semi-conducteurs domestiques: Quelles sont les plus réunion du conseil d'administration Kechuang organique de l'entreprise
Prochain
Retour à la recherche sur l'histoire du four pays! Jetez un oeil sur les dix mémoires de porcelaine de Jingdezhen!
Les trois prochains mois, à un Yili, ce qui équivaut à un Voyage 7 couleurs!
Profondeur | évolution progressive antenne réseau: développements technologiques Statut d'antenne réseau conformationnelle et tendances
Quête système de formation des jeunes de football japonais, la Chine devrait apprendre du football et de réflexion!
Pourquoi le monde tant de gens ont appelé « Macy »? !
Tour de train le plus lent du monde, huit heures avant l'ouverture de 290 kilomètres, les passagers se plaignent de conducteurs conduisent trop vite?
Juste annoncé Prix Turing: Grant étude approfondie des Big Three
Chine Année du tourisme 2018 en Turquie, pas un voyage romantique en Turquie?
Wuyuan durera huit jours francs: couleurs d'automne, pointe d'érable rock jours touristes plus de 8000 personnes
Vous souvenez-vous, que l'on appelle « Voyage à travers le monde, » le rêve?
Chongqing magie à nouveau! Ne pas y aller, ou bien ...... ha ha ha ha ha ha ha ha
FPGA avantage unique à l'ère de l'intelligence artificielle