Article d�taill� YOLO 9000 YOLO 2 et des syst�mes de d�tection d'objets

Lei Feng r�seau AI Technology Review par: YOLO est le premier syst�me de d�tection cible bas�e sur un seul r�seau de neurones Joseph Redmon et Ali Farhadi, qui a propos� en 2015. Cette ann�e CVPR, Joseph Redmon et Ali Farhadi publi� YOLO 2 am�liore encore la pr�cision et la vitesse de d�tection. La conf�rence La conf�rence Wang, ancien ing�nieur principal dans la Silicon Valley.

Semblable � expliquer l'ordre et une structure du papier, parler de la structure du r�seau YOLO 2, se concentre sur la fa�on de g�n�rer la fronti�re cible et la classification et la perte de la fonction associ�e. La premi�re �tape est la formation YOLO 2 IMAGEnet sur Darknet-19 d'apprentissage pr�alable, � l'image 224x224, il est seulement 5,58 g d'habitation. En outre, YOLO 2 ont une bonne performance dans VOC2007, d�tection VOC2012 COCO et ensembles de donn�es.

Sur la base de 2 YOLO sur le papier propose plus YOLO 9000, peut produire la cat�gorie d�tection de cible 9418. Le premier est la n�cessit� d'�tablir une structure WordNet wordTree. Cet arbre contient la classification IMAGEnet 9000 le plus populaire, il y a 80 cat�gories de COCO. YOLO 9000 couche finale de la m�thode de classification hi�rarchique, calcule une pluralit� de probabilit�s conditionnelles 400, l'utiliser pour produire une classification finale d'une cible.

D�tection cible

Tout d'abord, la d�tection d'objets, d�tection d'objets et de classification d'image diff�rente est une classification de l'image de l'objet n'a besoin que d'identifier les chiffres, la d�tection cible n�cessite trouver avec pr�cision le point o� l'objet dans l'image, et �tiqueter les classes d'objets. La position g�n�rale de l'objet avec une marque fronti�re (cadre de s�lection), une image peut avoir plusieurs fronti�res, la probabilit� de d�tection de cible et les besoins de la fronti�re � donner dans les cat�gories d'objets.

A propos YOLO2

Structure YOLO2

YOLO 2 Structure de r�seau de neurones, la couche 32. La structure est conventionnelle, et contient le plus grand bassin de convolution, dont certains convolution 1 * 1, une partie de la structure microscopique employ� GoogLeNet. Ce qui est de pr�ter attention aux 25 premi�res couches et 28 couches ont une route. La premi�re couche 28, par exemple, la voie 27 et 24, � savoir les couches 27 et 24 couches sont combin�es les unes � la sortie de la couche suivante, la couche est un effet combin� de la voie des couches. Taille de la couche de sortie 30 est de 13 * 13, se r�f�re � l'image par convolution ou mis en commun, et finalement r�duit � une taille de 13 * 13 grille. Chaque num�ro de cellule de sortie 125 est (25 * 5), fait r�f�rence � chacun des 513 * 13 grille avec une petite bordure 5, 25 se r�f�re � la sortie de chaque lunette 25 flotteurs. 25 est une structure de COV YOLO 2. COV classe un total de 20, au nombre de 25, il y a une probabilit� de classe 20, les cinq autres, quatre repr�sente STX, orgelet, tw, Th, quatre fronti�res pour identifier la position et la taille il y a un certain nombre de confiance, exprim� dans la fronti�re de pr�dire la probabilit� d'un objet r�el. Par cons�quent, un nombre total de 13 * 13 * 125.

YOLO2 avant la fronti�re de calcul

Maintenant, parler de la fa�on de stx, sty, tw, e devient la trame de sortie. Comme on le voit sur la droite int�rieur (tx) peut �tre comprise comme stx, (ty) peut �tre comprise comme sty. bbox chaque sortie est dirig�e vers un point d'ancrage particulier, ancre de r�f�rence effectivement Bbox de la largeur et de la hauteur. Pour ce qui concerne les COV, il produit cinq r�f�rence fixe.

Comme cela est repr�sent�, �tant donn� stx, orgelet, tw, apr�s th, par une formule simple, on peut calculer la position et la taille d'image de la sortie finale. Plus pr�cis�ment, si vous voulez afficher l'image actuelle, sa probabilit�, et la cat�gorie d'objet r�sultant, cela d�pend du dos de probabilit� et de confiance. La confiance n'a pas exprim� d'objet, supposons qu'il ya des objets, la probabilit� indique la probabilit� de l'objet.

YOLO avant Classification

Apr�s passage � travers la sortie maximale possible et la confiance de la probabilit� en multipliant la classe, et si le r�sultat est sup�rieur au seuil de 0,24, la taille et la position est courante calcul�e Bbox de sortie, qui est d�livr� � une classe, la taille est beaucoup plus probable. Il va g�n�rer un total de 13 * 13 * 5 Bbox, puis en fonction de la probabilit�, � travers le filtre, pour produire un objet de pr�diction finale et sa bordure.

Exemples YOLO2

� titre d'exemple, l'avant est qu'il ya des chiens, il y a des voitures, il y a une image d'une bicyclette, les trois derni�res lignes tableau de comparaison peut �tre vu, il y a des voitures, les chiens et les v�los peuvent �galement voir quelles sont les probabilit�s et bbox, ils repr�sentent la probabilit�, la taille et l'emplacement. Plus pr�cis�ment, de la premi�re ligne, comme on peut le voir voiture class_id 6 peut �tre vu � travers la ligne de position approximative et col, aussi donne anchor_id. La deuxi�me rang�e peut voir la confiance de la voiture et stx.

fonction de perte YOLO2

En parlant devant le processus, � savoir � l'image et un r�seau de neurones, et la fa�on d'obtenir la position de l'objet probabilit� de reconnaissance. Ensuite, le cours de formation sp�cifique est de savoir comment faire, comment former? Dans un article � une perte de fonction. Si on leur donne une fonction de perte appropri�e, � une certaine donn�e � former, le r�seau de neurones va obtenir de bonnes performances.

La formation d'un total de quatre types de perte, ils poids diff�rent et sont chaque objet, noobject, classe, coord. La perte globale est une partie de la place et quatre. Les �tapes de calcul de sp�cifiques et la fa�on dont le processus de s�lection comme indiqu� PPT.

calcul Darknet-19

Ce qui pr�c�de d�crit la fonction des objets de formation et de formation, nous avons tous besoin de s�lectionner une fonction de pr�-formation. En outre, YOLO 2, le principal est d'am�liorer la pr�cision et la vitesse, l'accent est sur le r�seau de base est mieux. YOLO 2 Darknet-19 est utilis� dans le mod�le de pr�-formation. Droit est utilis� sur certains mod�les IMAGEnet, on nous a donn� leur calcul et la pr�cision. Sur l'image 224x224, figure VGG16 n�cessite 30,69 G-ops, 8,52 G-ops n�cessaires en fonction GoogLeNet de YOLO. Alors que Darknet-19 plus petit, G-OPSS est 5,58.

COV 2007 pr�cision et vitesse

Papier YOLO 2 �num�re certaines des performances de d�tection de cible de l'ensemble standard, car YOLO 2 ne contient que la couche r�seau et la couche mise en commun de convolution, il est possible de recevoir l'image d'entr�e d'une taille quelconque. On peut voir sur la figure, et la pr�cision R-CNN SSD est relativement �lev�, mais le SSD � 16 CCV est bas� sur, FPS plus lent de pr�-formation. 2 pr�cision relative YOLO YOLO beaucoup am�lior�, il y a une augmentation de la vitesse correspondante. Pour YOLO 2, diff�rentes tailles d'image produiront diff�rentes cartes.

Fiabilit� des COV 2012 et COCO

A pris les deux sont sur la pr�cision des COV 2012 et COCO, COCO COV difficile que r�f�rence pour la d�tection cible, COCO, il y a 80 cat�gories, COV, il y a 20. Comme on peut le voir � partir. La figure 2 SSD pr�cision sup�rieure � YOLO, COCO possible parce qu'il ya des objets relativement petits. YOLO 2 peut �galement �tre vu de la vitesse de tirage est toujours rapide.

YOLO comparaison avec le YOLO2

On peut voir sur la figure apr�s les diff�rentes �tapes, levage YOLO YOLO 2 par rapport. Nous pouvons voir Mapper am�lior�e de mani�re significative.

Et la comparaison des Faster-RCNN

Pas un calcul bas� sur la pr�c�dente hors RCNN, tout d'abord la premi�re proposition de calculer, puis passer par les couches suivantes, une proposition de classer, de sorte r�seau bas� RCNN-sera plus lent.

SSD

SSD est la m�thode la plus pr�cise de d�tecter une cible, sur la base d'un seul r�seau de neurones. Comme repr�sent�, les couches avant d'un VGG de r�seau, qui est principalement caract�ris� en couche de convolution, on a ajout� pour donner une couche dans laquelle des �chelles diff�rentes de mani�re � r�aliser la d�tection d'objet multi-�chelles. Pour chaque fonctionnalit� de couche suppl�mentaire, un ensemble de filtre de convolution peut �tre obtenu en fixant le nombre d'ensemble de pr�diction de la d�tection de la cible.

Proc�d� SSD d'acquisition d'un emplacement cible et le type de m�canisme avec la m�thode YOLO, sont r�gression, mais YOLO petit inefficace de d�tection de cible, tandis que le SSD est divis� en diff�rentes carte de caract�ristiques dans une grille, puis faire une r�gression, l'effet sera mieux .

partie YOLO2 parle devant, est d�tect�e ssd inf�rieure, mais sont tr�s proches dans un petit objet et ssd sur la pr�cision exactitude, le plus gros avantage est tr�s rapide.

YOLO 9000

YOLO 9000 est la deuxi�me partie de l'article, son principal avantage est d�tect�e classe 9418. Ce nombre est tr�s surprenant, puisque les donn�es de d�tection ne sont pas facilement disponibles, est difficile � marquer manuellement.

L'image est dans le document quelques exemples de d�tection.

YOLO est un d�clencheur de base 9000 pour aider les uns les autres avec une petite quantit� de d�tect�e marqu�e avec des donn�es combin�es et une grande quantit� de donn�es d'image � classer, produire de nombreux types de pr�diction peuvent �tre g�n�r�s.

pratique sp�cifique

Tout d'abord l'arbre tag (WordTree), c'est un grand arbre, comme indiqu� dans la partie rouge de l'int�rieur IMAGEnet est le plus populaire neuf mille cat�gories, d�tecter les donn�es de la classe 80 COCO � l'int�rieur. Cet arbre de balise est bas�e sur un total de 9418 classes 1.846 noeuds internes WordNet construits. Chaque noeud de l'arbre peut faire un SoftMax, la probabilit� est le produit de la probabilit� du nud � partir de l'origine des conditions sur le chemin, la probabilit� de sortie d'�tiquettes d�finitives est le plus profond noeud est sup�rieure � une valeur de seuil (0,5).

approche en utilisant la classification hi�rarchique du mod�le de formation, de sorte que le syst�me peut reconna�tre plus de 9000 types de produits - Apr�s avoir utilis� des ensembles de donn�es int�gr� WordTree peuvent �tre dans l'ensemble de donn�es (donn�es de test Cat�gorie). parcours de formation sur les donn�es de test wordTree ont une perte de classe, alors que les donn�es de IMAGEnet que la perte et la perte noobj classe.

Structure YOLO 9000

Comme le montre, par rapport � la pr�c�dente, pour simplifier sa couche de structure 24, la premi�re couche est un 17 * 23 * 17 * 1728269,17 avant YOLO 13 * 13 la figure 2 est similaire, sauf que la pr�diction en un maillage 17 * 17. Ensuite, chaque emplacement 28269 (3 * (1 + 4 + 9418)), 3 fait r�f�rence � la position de chacun des trois bo�te englobante, chaque zone de d�limitation avec stx, sty, tw, e, la confiance et la classe 9418 . Apr�s avoir donn� ces chiffres peuvent produire bbox exig�s par le WordTree.

R�sultats YOLO 9000

Figure YOLO 9000 se traduit par la ilsvrc 2014 de. Ilsvrc 2014 un total de 200 cat�gories, ssd300 sur cet ensemble de donn�es peut �tre 43.4mAP apr�s la fin de la formation, YOLO 9000 ne peut obtenir 19.7mAP. La diff�rence est YOLO 9000 il n'y a pas de donn�es sur l'utilisation de ilsvrc IMAGEnet formation dans le processus de formation, en utilisant uniquement les donn�es COCO et IMAGEnet peut �tre obtenu 19,7 est �galement de tr�s bons r�sultats. la performance figure � droite peut �tre vu l'image de la d�tection de diff�rents types, la meilleure performance peut �tre vu quand un animal est d�tect�, car il y a des classes d'animaux sur le COCO.

R�sum�:

Par rapport YOLO YOLO 2, pour am�liorer la vitesse et la pr�cision, bas� sur un mod�le Darknet-19, la couche de connexion est compl�tement enlev�e, le cluster avec le cadre, une combinaison des deux couches, en utilisant une formation d'images � r�solutions multiples.

YOLO 9000 peut �tre utilis� avec des donn�es de trame sans monture et de donn�es 9418 en m�me temps en uvre un suivi classe. Prendre des mesures de classification hi�rarchique des wordTree.

Ici, nous vous fournirons un code open source sur GitHub, et ont form� YOLO 2 mod�le YOLO 9000.

https://pjreddie.com/darknet/

https://github.com/philipperemy/yolo-9000

Lei Feng r�seau AI Technology Review �dit�. Lei Feng r�seau

Route de la soie

Apprenez � conna�tre la Chine

Article d�taill� YOLO 9000 YOLO 2 et des syst�mes de d�tection d'objets | Partager R�sum�