Multi-ciblage dans des scénarios complexes - Résumé de l'algorithme d'apprentissage en profondeur

Lei Note du Feng réseau: Ce moments article en tant que fondateur Intelligent Bao Mi soumission des élèves. Moment comme réseau intelligent a été créé en Octobre 2017, en mettant l'accent sur la vision de la machine, principalement par le SaaS plate-forme cloud pour aider à améliorer l'usine Vision Development, l'efficacité mise à niveau. Dr Bao Mi ordinateur élève Université Renmin de Chine, a travaillé comme chef de produit pour 360 ingénieurs R & D Qihoo.

I. Contexte

Le ciblage est une application importante de la scène de la vision par ordinateur. Dans de nombreux domaines de la production industrielle, l'aviation et maritime, l'emballage agricole, etc., il a été largement utilisé. Dans la production industrielle, peut atteindre l'achèvement précis de ciblage par fetch, alimentation automatique et d'autres opérations, dans l'aviation et de la navigation, l'utilisation du ciblage peut fournir des services de localisation fiables pour les travaux de sauvetage maritime, dans le transport, avec l'objectif d'aide positionnement peut obtenir avec précision du véhicule une information de position.

Étant donné que l'art antérieur ont un arrière-plan très complexe d'informations d'image décrit ci-dessus, d'identifier et d'interférence cible est forte, la présence de la cible et généralement se chevauchent, une grande similitude, certains problèmes d'occlusion, pour l'emplacement cible avec beaucoup de difficultés.

En second lieu, l'algorithme traditionnel

La méthode traditionnelle de ciblage algorithmes utilisent habituellement la fenêtre coulissante, peut être divisé en les trois étapes suivantes:

(1) la trame candidate: en utilisant une fenêtre glissante de taille différente, une marque comme une région candidate dans la région d'image;

(2) Extraction de l'entité: pour les images d'entrée de la région candidate, l'extraction de caractéristiques visuelles (par exemple la détection de visage Harr caractéristique de courants, la détection ordinaire des piétons et reconnaissance d'objets caractéristiques HOG classiques, etc.);

(3) classificateur de reconnaissance: classificateur en utilisant la détermination de l'objet et le fond, tel que le modèle SVM couramment utilisé.

Au-dessus de la méthode traditionnelle dans certaines applications ont obtenu de bons résultats, mais il y a encore de nombreuses lacunes. extraction d'abord, il faut fonction d'image manuelle, les méthodes d'extraction doivent continuer d'essayer d'obtenir relativement bonnes caractéristiques, d'autre part, le bien-fondé de l'extraction des caractéristiques du modèle est directement lié à la performance, ce qui dans un modèle fort ciblé, flexible et ne peuvent pas être appliqués à d'autres situations, en outre, certains algorithmes implique également processus de détection de bord complexe, y compris seuillage, algorithme des bassins versants. processus complexe résultant dans le modèle d'efficacité de détection plus faible, largement utilisé dans la production industrielle ne peut pas répondre.

En troisième lieu, la profondeur de l'apprentissage

En 2012, la concurrence IMAGEnet, AlexNet renommée des réseaux de neurones, CNN est également devenu un centre de recherche en vision par ordinateur, et une fois mis à nouveau déclenché un boom dans l'étude de recherche approfondie.

3.1R-CNN

R-CNN est le système de détection avancée de l'objet visuel, il extraction de région candidate fond combiné avec une fonctionnalité riche réseau neuronal convolutif. R-CNN Une amélioration spectaculaire de la précision de détection sans utiliser un enregistrement de contexte ou le type de fonction intégré.

Méthode spécifique algorithme de R-CNN sont les suivantes:

l'image d'entrée, génère environ 2000 zone de surface candidats méthodes candidats (par exemple, des méthodes de recherche sélectifs) sur la base;

Redimensionner pour chaque région candidate, une taille fixe arrière dans le modèle et CNN obtenu vecteur de caractéristique;

Les vecteurs de caractéristiques dans un classificateur multi-classe, la taille de l'objet qui détermine la probabilité d'appartenance à chaque catégorie contenue dans la région candidate;

Dans la dernière formation R-CNN un modèle de régression de la boîte de délimitation d'améliorer la précision de l'emplacement cible.

Cette méthode utilise un réseau CNN caractéristiques extraites automatiquement, afin d'éviter la complexité du fonctionnement des fonctions d'extraction manuelle, d'améliorer l'efficacité du travail. Cependant, étant donné que chaque zone candidate dans le calcul du modèle nécessite CNN vecteur propre, un peu de temps.

3.2FasterR-CNN

Plus rapide R-CNN est l'un des plus détection de cible de l'algorithme classique. Il est principalement utilisé pour générer une zone bloc candidat réseau en profondeur de convolution et le modèle de détection rapide R-CNN de deux parties.

Faster structure du réseau R-CNN indiqué ci-dessus, on peut voir d'après la figure se compose de quatre parties:

Conv couches: l'entrée de l'ensemble de l'image, dans lequel l'extrait figure;

Région Réseaux de proposition: pour recommander zone candidate (déterminée par des ancres softmax appartient à l'avant-plan ou l'arrière-plan, la régression de la boîte et corrigée au moyen d'ancres, la sortie de la pluralité de régions candidates);

ROI Mise en commun: différentes tailles d'entrée en une sortie à longueur fixe alimenté à une catégorie cible de détermination subséquente couche reliée intégralement;

Classification: région candidate de sortie appartient à la catégorie de leur emplacement précis.

RPN plus rapide couche R-CNN est un moment fort du plus grand réseau, au lieu d'utiliser la méthode heuristique région candidate RPN, ce qui accélère considérablement la vitesse et la précision de la formation.

3.3 Yolov3

Deux algorithmes décrits précédemment sont deux étapes et Yolo appartenance en une étape, il ne nécessite pas la région candidate d'extraction, et peut générer une valeur coordonnées de position de la catégorie de probabilité de l'objet directement, on va décrire le courant pour étendre Yolo plus populaire V3 .

La mise en uvre spécifique de Yolo peut être divisé en trois étapes, à savoir:

prédiction multi-échelle: la structure du réseau résiduel formé par un niveau plus profond du réseau, peut être détectée sur trois échelles différentes;

réseau sous-jacent: l'utilisation de la variante Darknet Darknet-53, formé sur la couche de réseau de IMAGEnet 53, la couche 53 de nouveau et empilés sur la tâche de détection, la couche d'architecture sous-jacente 106 est formée de la circonvolution complète;

Classifier: en utilisant les classificateurs logistiques multiples pour classer les objets multi-étiquettes.

Comme le produit après plusieurs algorithme d'optimisation Yolo, Yolo V3 est l'un de l'algorithme optimal de détection cible ayant une structure claire, en temps réel, en changeant la taille de l'équilibre entre la vitesse et la précision de la structure du modèle et similaires. En outre, Yolo v3 également d'améliorer l'effet de la petite taille de la détection d'objets pour résoudre les problèmes des deux premières versions.

3.4 SSD

algorithme SSD (complète unique Shot MultiBox Detector) comme appartenant au même Yolo une étape, et beaucoup mieux que la stabilité globale Yolo, la structure du réseau, comme indiqué ci-dessous.

SSD Yolo processus de mise en uvre de base plus complexes, peuvent être résumés comme suit:

l'image d'entrée, en utilisant le réseau neuronal convolutif extraction de caractéristiques CNN et générer une carte de caractéristique;

Dans lequel les couches d'extraction de caractéristique de la figure 6, et génère une zone de défaut au niveau de chaque carte de caractéristiques de points.

La boîte de défaut résultant tous ensemble, et entrer dans les nouveaux États membres de suppression de maximale, la projection et les sorties de la boîte par défaut résultant.

Toujours dans le procédé en une étape, méthode SSD alternative à la détection directe CNN do Yolo détectée après que la couche de liaison complet améliorée Procédé selon la vitesse de formation. En outre, l'extraction SSD figure caractéristiques de tailles différentes ont été utilisées pour détecter des objets de différentes tailles, utilisent également différentes échelles et rapport d'aspect pour augmenter la précision de localisation des ancrages réalisée tout en maintenant une grande précision à un fonctionnement à grande vitesse d'une percée majeure.

IV Résumé

Cet article littérature frontière de référence, résume une partie de la partie commune actuelle du cadre de l'algorithme de ciblage et des idées spécifiques. En général, le ciblage de la détection peut être divisée en deux étapes (génération position candidate détermination de la zone +) et une étape (valeur coordonnées de position d'objet direct généré) en deux catégories, peut être rapide et une bonne précision et robuste ciblage, et peut être appliquée avec souplesse à l'industrie de la construction, l'ingénierie aérospatiale et la production industrielle et d'autres industries.

références:

 Girshick R, J Donahue, Darrell T, et al. Convolution réseaux basés sur la région de détection et de segmentation de l'objet précis. IEEE transactions sur l'analyse du motif et de l'intelligence artificielle, 2015.

 Ren S, He K, Girshick R, et al Faster r-cnn :. Vers la détection d'objets en temps réel avec les réseaux de proposition région // Avances dans les systèmes de traitement de l'information neuronale 2015 ..

 Redmon J, Farhadi A. Yolov3: Une amélioration progressive arXiv prépublication arXiv :. 1804,02767, 2018.

 https://towardsdatascience.com/yolo-v3-object-detection-53fb7d3bfe6b.

 Liu W, D Anguelov, Erhan D, et al Ssd :. Un seul coup détecteur de multibox // conférence européenne sur la vision informatique Springer, Cham, 2016 ..

Lei Feng réseau, Lei Feng réseau

haut émergents: voiture 5G sous la nouvelle infrastructure de réseau numérique, ce qui permet l'innovation automatique de conduite et de transport intelligents
Précédent
La perception visuelle, ainsi que le poste de pilotage intelligent et, ADI peut saisir l'occasion de conduire une conduite automatique?
Prochain
Pourquoi LSTM si efficace? Les cinq secrets que vous devez savoir
anti-écoute électronique hard-core! Mac dispose spécifiques à l'iPad: la plupart mécanisme de protection stricte de l'industrie, basée sur la puce T2
La dernière Linux Mint 20 Divulgation: Code « Ulyana », abandonner les systèmes 32 bits
300 millions $, « le père japonais de l'Internet » a vendu 14 millions d'adresses IPv4
2019 drame le plus chaud qui? 2020 drame qui se déclenche? Un article vous emmène à travers le brouillard
Jan ville d'ombre un peu féroce, ces films ne valent pas vos billets?
"Airborne Rose" début de la floraison! Nouvelle année pour la première fois pour voir le parachutiste féminine formation en parachute
Chaleureuse! Ministère de l'Éducation a publié un avis spécial, plus de 20 écoles primaires de la région avec des étudiants de retour de l'argent perdu pour trouver
Après que l'homme a fui les salaires dus 24 à Dongguan, la police a arrêté deux ans pour récupérer l'argent durement gagné pour récupérer 170000
Bien de prendre note il y a un cadeau! classe idéologique et politique, l'enseignant aux étudiants envoyer des cadeaux Ending
Ce sont des nouvelles que de nombreux stocks limite quotidienne, les actions de l'industrie des semences heureux de mentionner un bon début 2020
Tianjin Jinnan petites étendues de cour « casser » forte entrant!