Multi-ciblage dans des sc�narios complexes - R�sum� de l'algorithme d'apprentissage en profondeur

Lei Note du Feng r�seau: Ce moments article en tant que fondateur Intelligent Bao Mi soumission des �l�ves. Moment comme r�seau intelligent a �t� cr�� en Octobre 2017, en mettant l'accent sur la vision de la machine, principalement par le SaaS plate-forme cloud pour aider � am�liorer l'usine Vision Development, l'efficacit� mise � niveau. Dr Bao Mi ordinateur �l�ve Universit� Renmin de Chine, a travaill� comme chef de produit pour 360 ing�nieurs R & D Qihoo.

I. Contexte

Le ciblage est une application importante de la sc�ne de la vision par ordinateur. Dans de nombreux domaines de la production industrielle, l'aviation et maritime, l'emballage agricole, etc., il a �t� largement utilis�. Dans la production industrielle, peut atteindre l'ach�vement pr�cis de ciblage par fetch, alimentation automatique et d'autres op�rations, dans l'aviation et de la navigation, l'utilisation du ciblage peut fournir des services de localisation fiables pour les travaux de sauvetage maritime, dans le transport, avec l'objectif d'aide positionnement peut obtenir avec pr�cision du v�hicule une information de position.

�tant donn� que l'art ant�rieur ont un arri�re-plan tr�s complexe d'informations d'image d�crit ci-dessus, d'identifier et d'interf�rence cible est forte, la pr�sence de la cible et g�n�ralement se chevauchent, une grande similitude, certains probl�mes d'occlusion, pour l'emplacement cible avec beaucoup de difficult�s.

En second lieu, l'algorithme traditionnel

La m�thode traditionnelle de ciblage algorithmes utilisent habituellement la fen�tre coulissante, peut �tre divis� en les trois �tapes suivantes:

(1) la trame candidate: en utilisant une fen�tre glissante de taille diff�rente, une marque comme une r�gion candidate dans la r�gion d'image;

(2) Extraction de l'entit�: pour les images d'entr�e de la r�gion candidate, l'extraction de caract�ristiques visuelles (par exemple la d�tection de visage Harr caract�ristique de courants, la d�tection ordinaire des pi�tons et reconnaissance d'objets caract�ristiques HOG classiques, etc.);

(3) classificateur de reconnaissance: classificateur en utilisant la d�termination de l'objet et le fond, tel que le mod�le SVM couramment utilis�.

Au-dessus de la m�thode traditionnelle dans certaines applications ont obtenu de bons r�sultats, mais il y a encore de nombreuses lacunes. extraction d'abord, il faut fonction d'image manuelle, les m�thodes d'extraction doivent continuer d'essayer d'obtenir relativement bonnes caract�ristiques, d'autre part, le bien-fond� de l'extraction des caract�ristiques du mod�le est directement li� � la performance, ce qui dans un mod�le fort cibl�, flexible et ne peuvent pas �tre appliqu�s � d'autres situations, en outre, certains algorithmes implique �galement processus de d�tection de bord complexe, y compris seuillage, algorithme des bassins versants. processus complexe r�sultant dans le mod�le d'efficacit� de d�tection plus faible, largement utilis� dans la production industrielle ne peut pas r�pondre.

En troisi�me lieu, la profondeur de l'apprentissage

En 2012, la concurrence IMAGEnet, AlexNet renomm�e des r�seaux de neurones, CNN est �galement devenu un centre de recherche en vision par ordinateur, et une fois mis � nouveau d�clench� un boom dans l'�tude de recherche approfondie.

3.1R-CNN

R-CNN est le syst�me de d�tection avanc�e de l'objet visuel, il extraction de r�gion candidate fond combin� avec une fonctionnalit� riche r�seau neuronal convolutif. R-CNN Une am�lioration spectaculaire de la pr�cision de d�tection sans utiliser un enregistrement de contexte ou le type de fonction int�gr�.

M�thode sp�cifique algorithme de R-CNN sont les suivantes:

l'image d'entr�e, g�n�re environ 2000 zone de surface candidats m�thodes candidats (par exemple, des m�thodes de recherche s�lectifs) sur la base;

Redimensionner pour chaque r�gion candidate, une taille fixe arri�re dans le mod�le et CNN obtenu vecteur de caract�ristique;

Les vecteurs de caract�ristiques dans un classificateur multi-classe, la taille de l'objet qui d�termine la probabilit� d'appartenance � chaque cat�gorie contenue dans la r�gion candidate;

Dans la derni�re formation R-CNN un mod�le de r�gression de la bo�te de d�limitation d'am�liorer la pr�cision de l'emplacement cible.

Cette m�thode utilise un r�seau CNN caract�ristiques extraites automatiquement, afin d'�viter la complexit� du fonctionnement des fonctions d'extraction manuelle, d'am�liorer l'efficacit� du travail. Cependant, �tant donn� que chaque zone candidate dans le calcul du mod�le n�cessite CNN vecteur propre, un peu de temps.

3.2FasterR-CNN

Plus rapide R-CNN est l'un des plus d�tection de cible de l'algorithme classique. Il est principalement utilis� pour g�n�rer une zone bloc candidat r�seau en profondeur de convolution et le mod�le de d�tection rapide R-CNN de deux parties.

Faster structure du r�seau R-CNN indiqu� ci-dessus, on peut voir d'apr�s la figure se compose de quatre parties:

Conv couches: l'entr�e de l'ensemble de l'image, dans lequel l'extrait figure;

R�gion R�seaux de proposition: pour recommander zone candidate (d�termin�e par des ancres softmax appartient � l'avant-plan ou l'arri�re-plan, la r�gression de la bo�te et corrig�e au moyen d'ancres, la sortie de la pluralit� de r�gions candidates);

ROI Mise en commun: diff�rentes tailles d'entr�e en une sortie � longueur fixe aliment� � une cat�gorie cible de d�termination subs�quente couche reli�e int�gralement;

Classification: r�gion candidate de sortie appartient � la cat�gorie de leur emplacement pr�cis.

RPN plus rapide couche R-CNN est un moment fort du plus grand r�seau, au lieu d'utiliser la m�thode heuristique r�gion candidate RPN, ce qui acc�l�re consid�rablement la vitesse et la pr�cision de la formation.

3.3 Yolov3

Deux algorithmes d�crits pr�c�demment sont deux �tapes et Yolo appartenance en une �tape, il ne n�cessite pas la r�gion candidate d'extraction, et peut g�n�rer une valeur coordonn�es de position de la cat�gorie de probabilit� de l'objet directement, on va d�crire le courant pour �tendre Yolo plus populaire V3 .

La mise en uvre sp�cifique de Yolo peut �tre divis� en trois �tapes, � savoir:

pr�diction multi-�chelle: la structure du r�seau r�siduel form� par un niveau plus profond du r�seau, peut �tre d�tect�e sur trois �chelles diff�rentes;

r�seau sous-jacent: l'utilisation de la variante Darknet Darknet-53, form� sur la couche de r�seau de IMAGEnet 53, la couche 53 de nouveau et empil�s sur la t�che de d�tection, la couche d'architecture sous-jacente 106 est form�e de la circonvolution compl�te;

Classifier: en utilisant les classificateurs logistiques multiples pour classer les objets multi-�tiquettes.

Comme le produit apr�s plusieurs algorithme d'optimisation Yolo, Yolo V3 est l'un de l'algorithme optimal de d�tection cible ayant une structure claire, en temps r�el, en changeant la taille de l'�quilibre entre la vitesse et la pr�cision de la structure du mod�le et similaires. En outre, Yolo v3 �galement d'am�liorer l'effet de la petite taille de la d�tection d'objets pour r�soudre les probl�mes des deux premi�res versions.

3.4 SSD

algorithme SSD (compl�te unique Shot MultiBox Detector) comme appartenant au m�me Yolo une �tape, et beaucoup mieux que la stabilit� globale Yolo, la structure du r�seau, comme indiqu� ci-dessous.

SSD Yolo processus de mise en uvre de base plus complexes, peuvent �tre r�sum�s comme suit:

l'image d'entr�e, en utilisant le r�seau neuronal convolutif extraction de caract�ristiques CNN et g�n�rer une carte de caract�ristique;

Dans lequel les couches d'extraction de caract�ristique de la figure 6, et g�n�re une zone de d�faut au niveau de chaque carte de caract�ristiques de points.

La bo�te de d�faut r�sultant tous ensemble, et entrer dans les nouveaux �tats membres de suppression de maximale, la projection et les sorties de la bo�te par d�faut r�sultant.

Toujours dans le proc�d� en une �tape, m�thode SSD alternative � la d�tection directe CNN do Yolo d�tect�e apr�s que la couche de liaison complet am�lior�e Proc�d� selon la vitesse de formation. En outre, l'extraction SSD figure caract�ristiques de tailles diff�rentes ont �t� utilis�es pour d�tecter des objets de diff�rentes tailles, utilisent �galement diff�rentes �chelles et rapport d'aspect pour augmenter la pr�cision de localisation des ancrages r�alis�e tout en maintenant une grande pr�cision � un fonctionnement � grande vitesse d'une perc�e majeure.

IV R�sum�

Cet article litt�rature fronti�re de r�f�rence, r�sume une partie de la partie commune actuelle du cadre de l'algorithme de ciblage et des id�es sp�cifiques. En g�n�ral, le ciblage de la d�tection peut �tre divis�e en deux �tapes (g�n�ration position candidate d�termination de la zone +) et une �tape (valeur coordonn�es de position d'objet direct g�n�r�) en deux cat�gories, peut �tre rapide et une bonne pr�cision et robuste ciblage, et peut �tre appliqu�e avec souplesse � l'industrie de la construction, l'ing�nierie a�rospatiale et la production industrielle et d'autres industries.

r�f�rences:

�Girshick R, J Donahue, Darrell T, et al. Convolution r�seaux bas�s sur la r�gion de d�tection et de segmentation de l'objet pr�cis. IEEE transactions sur l'analyse du motif et de l'intelligence artificielle, 2015.

�Ren S, He K, Girshick R, et al Faster r-cnn :. Vers la d�tection d'objets en temps r�el avec les r�seaux de proposition r�gion // Avances dans les syst�mes de traitement de l'information neuronale 2015 ..

�Redmon J, Farhadi A. Yolov3: Une am�lioration progressive arXiv pr�publication arXiv :. 1804,02767, 2018.

�https://towardsdatascience.com/yolo-v3-object-detection-53fb7d3bfe6b.

�Liu W, D Anguelov, Erhan D, et al Ssd :. Un seul coup d�tecteur de multibox // conf�rence europ�enne sur la vision informatique Springer, Cham, 2016 ..

Lei Feng r�seau, Lei Feng r�seau

Route de la soie

Apprenez � conna�tre la Chine

Multi-ciblage dans des sc�narios complexes - R�sum� de l'algorithme d'apprentissage en profondeur