La d�tection d'objet mod�le classique YOLO nouvelle mise � jour, look, 3 fois plus vite!

Ji-won nouvelle compilation

Auteur: Joseph Redmon, Ali Farhadi

Traduction: Xiao Qin

[New Ji-won EXAMEN Vous avez certainement vu rarement ces documents, comme le chat texte, comme d'ailleurs l'inventeur de YOLO. papiers classiques dans le domaine de la d�tection d'objets YOLO (You Look Only Once) deux auteurs, Joseph Redmon et Ali Farhadi Universit� de Washington pr�sente la troisi�me �dition des derni�res am�liorations YOLO YOLO v3, une s�rie d'am�liorations de conception, le nouveau mod�le permet une meilleure performance, plus rapide. Obtenir des performances similaires par rapport � la SSD, la vitesse de 3 fois, par rapport RetinaNet, la vitesse a augment� de 3,8 fois.

Adresse Code: https: //pjreddie.com/yolo/

Adresse Papers: https: //pjreddie.com/media/files/papers/YOLOv3.pdf

Je n'ai pas �tudi� comment faire cette ann�e. J'ai pass� beaucoup de temps � jouer avec Twitter. Jouez un peu GAN. L'ann�e derni�re, je suis parti un peu de travail , je r�ussi � YOLO a apport� quelques am�liorations. Mais, pour �tre honn�te, pas un travail super int�ressant, il suffit de faire une s�rie de mises � jour, faire mieux. Je dois aussi aider les autres � faire des recherches.

Rien de mal, vous voyez est vraiment le d�but d'un document.

Aujourd'hui, le nouveau Chi Yuan apporter une fa�on inhabituelle de travailler pour vous, l'auteur YOLO de la mise � jour du mod�le de vision informatique classique.

Pas seulement au d�but, tout le morceau de papier partout sont int�gr�s l'humour, � la fin n'a pas oubli� de dire au lecteur, pas @ lui.

Rassurez-vous que la plupart de la recherche chez les personnes de vision par ordinateur juste faire quelque chose d'agr�able, de bonnes choses comme calculer le nombre de parcs nationaux z�bres , ou suivre le chat quand ils ont gliss� dans la cour . Mais la vision par ordinateur a �t� contest�e � l'emploi, en tant que chercheurs, nous avons la responsabilit� de penser le moins de dommages possibles � notre travail, et de r�fl�chir � la fa�on d'att�nuer les pr�judices. Nous ch�rissons ce monde.

Puis, l'ann�e d'immersion Twitter, ils Yolo ce qui avait �t� fait pour le mettre � jour?

Nous Yolo fait quelques mises � jour! Nous avons fait une petite conception, en am�liorer le fonctionnement. Nous avons ce nouveau r�seau a �t� form�. YOLO version mise � jour du r�seau est l�g�rement plus grande que la version pr�c�dente, mais plus pr�cis. Sa vitesse est tr�s rapide, ne vous inqui�tez pas ce point. Dans les 320 � 320, YOLOv322 ms � 22,2 mAP la course est termin�e, avec le SSD pour obtenir la m�me pr�cision, mais la vitesse a augment� de 3 fois. Par rapport � la version pr�c�dente des indicateurs de d�tection 0,5 IOU topographie, performance YOLOv3 est tout � fait bonne. Sur Titan X, il est atteint dans 51 ms 57,9 AP50, mais a atteint 57,5 AP50 RetinaNet requis 198 ms, des performances similaires, mais 3,8 fois plus rapide.

Tout le code est fourni � l'adresse suivante de: https: //pjreddie.com/yolo/

Vid�o de d�monstration:

br�ve introduction

Cet article pr�sentera la prochaine YOLOv3, alors je vais vous dire comment nous faisons. Je vais �crire ce que nous avons essay�, mais l'op�ration a �chou�. Enfin, nous allons r�fl�chir � ce que tous les moyens.

YOLOv3

A propos YOLOv3: Nous sommes principalement pour obtenir de bonnes id�es des autres. Nous avons �galement form� un nouveau r�seau de classification mieux. Cet article pr�sentera l'ensemble du syst�me � partir de z�ro, de sorte que nous comprenons.

Figure 1: Ce chiffre est apport� de documents de perte focaux et modifi�s. YOLOv3 court plus vite que les performances d'une autre m�thode de d�tection similaire. Le temps d'ex�cution de M40 ou Titan X, essentiellement avec le m�me GPU.

Englobante Pr�visions bo�te

Apr�s YOLO9000, nos utilisations du syst�me dimension cluster (grappe de dimension) pr�dite comme bo�te englobante bo�te d'ancrage . R�seaux pour chacune des coordonn�es de la bo�te englobante de la pr�diction de quatre ,,. Si la cellule est d�cal� par rapport au coin sup�rieur gauche de l'image, et avant la zone de d�limitation ayant une largeur et une hauteur, qui correspond � la pr�dit l'�quation suivante:

Pendant la formation, nous utilisons l'erreur quadratique et la perte. Si quelques-unes des coordonn�es pr�vues de la v�rit� du sol est que la pente est la valeur de v�rit� de la terre (calcul�e � partir de la v�rit� au sol encadr�) en soustrayant la pr�diction, � savoir: Il peut �tre facilement calcul�e en inversant la valeur de v�rit� au sol de l'�quation ci-dessus.

YOLOv3 par r�gression logistique pour pr�dire points objectness pour chacun de la bo�te de s�lection. Si la zone de d�limitation recouvre tout autre que l'objet avant que la zone de d�limitation pour �tre la v�rit� au sol, la valeur doit �tre 1. Si la zone de d�limitation pr�c�dente est pas le meilleur, mais il ne se chevauchent avec la cible de la v�rit� au sol d�passe un certain seuil, nous ignorerons les pr�visions, comme plus rapide R-CNN comme . Nous utilisons 0,5 comme seuil. Mais est diff�rent est que notre v�rit� au sol du syst�me pour chaque objet est affect� uniquement une bo�te de s�lection. Si la case limite pr�c�dente n'est pas affect�e � une cible de v�rit� du terrain, ne sera pas coordonn�e ou de la cat�gorie des pertes pr�vues ne feront que conduire � objectness.

Figure 2: a priori de la dimension et l'emplacement bo�te englobante de pr�diction. Nous pr�disons la largeur et la hauteur de la bo�te, comme le d�calage centro�des cluster. On utilise la pr�diction de la fonction sigmo�de par rapport aux coordonn�es de position du centre de la zone de d�limitation de l'application du filtre. Ce chiffre est du papier YOLO9000 apport�.

pr�diction classe

Chaque bo�te utilis�e pour pr�dire la bo�te englobante de classe peut contenir l'utilisation de la classification multi-�tiquettes. Nous n'utilisons softmax, parce que nous avons trouv� qu'il n'a eu aucun effet sur la performance, mais juste utiliser un classificateur logique s�par�e. Pendant la formation, nous utilisons la cat�gorie de perte d'entropie mutuelle � pr�voir.

Cette formule nous permet de transformer des zones plus complexes, telles que jeux de donn�es ouverts Images . Dans cet ensemble de donn�es il y a beaucoup de chevauchement �tiquette (par exemple, la femme, et personne). Vous pouvez utiliser softmax imposer une hypoth�se que chaque bo�te ne contient qu'une seule cat�gorie, mais g�n�ralement pas le cas. m�thode multi-�tiquette peut �tre mieux donn�es simul�es.

�chelles diff�rentes pr�dits

bo�te YOLOv3 peut pr�dire trois types d'�chelles diff�rentes. Notre syst�me utilise un r�seau de pyramide fonction pour extraire des caract�ristiques de ces dimensions. Dans l'extracteur de fonctionnalit�s de base, nous avons ajout� quelques couches de convolution. Dans lequel la pr�diction de la derni�re couche tenseur en trois dimensions de codage de la zone de d�limitation, objectness et la pr�diction de la classe. Dans nos exp�riences COCO ensembles de donn�es, chaque pr�diction d'�chelle Box 3, de sorte tenseur N x N x , 4 bloc limite de d�calage, une objectness pr�dit, et 80 cat�gories � pr�voir.

Ensuite, on obtient � partir de. La figure 2, caract�ris� en couches pr�c�dentes et soumis � un �chantillonnage � deux reprises. Nous avons �galement caract�ris� sur la figure obtenir du r�seau � l'aide sage �l�ment le ajout�e et la fusion avec notre fonction d'�chantillonnage pr�c�dent. Cette approche nous permet d'�chantillonner les informations grains fins des caract�ristiques des premi�res cartes et d'obtenir des informations s�mantiques plus significatives. Ensuite, on ajoute quelques couches de processus o� convolution figure de cette combinaison, et enfin le Tensor pr�disait un semblable, bien que sa taille a �t� augment�e deux fois.

Nous faisons la m�me chose � nouveau � l'�chelle finale con�u pour pr�dire la bo�te. Ainsi, nous b�n�ficions de la pr�vision de la troisi�me �chelle avant tous les calculs et d'obtenir une des caract�ristiques fines du r�seau plus t�t.

Nous utilisons toujours les k-means pour d�terminer le cadre de s�lection prieurs. Nous avons s�lectionn� seulement neuf groupes 3 et �chelles, puis grappes uniform�ment r�partis � travers les �chelles. Le jeu de donn�es COCO, neuf cluster, respectivement (10 x 13), (16 x 30), (33 x 23), (30 x 61), (62 x 45), (59 x 119), (116 � 90), (156 x 198), (373 x 326).

extracteur de caract�ristiques

Nous utilisons un nouveau r�seau pour effectuer l'extraction de caract�ristiques. Le nouveau r�seau est une m�thode hybride r�seau Darknet-19 et r�seau mises � jour pour YOLOv2 r�siduel ,. Notre r�seau continu et 3 x 3 couche de convolution est 1 � 1, mais maintenant il y a aussi un lien raccourci, et la taille du r�seau est significativement plus importante. Il a 53 couche de convolution, de sorte que nous appelons ...... Darknet-53 !

Le nouveau r�seau est beaucoup plus puissant Darknet19 et plus efficace que ResNet-101 ou ResNet-152. Voici les r�sultats sur IMAGEnet:

R�seau Comparez: Tableau 2. La pr�cision de chaque r�seau, Bn Ops, les op�rations en virgule flottante par seconde, et FPS.

Chaque r�seau est form� en utilisant les m�mes param�tres, et test� dans un 256 � 256 simple pr�cision. Dur�e est mesur�e � 256 � 256 dans le Titan X. On peut voir, Darknet-53 avec le plus classificateurs avanc�es comparables, mais moins op�rations � virgule flottante, plus rapide. Darknet-53 meilleures performances que ResNet-101, et 1,5 fois plus rapide. Darknet-53 et ResNet-152 ayant une performance similaire, 2 fois plus rapide.

Darknet-53 peut �galement atteindre les plus �lev�es mesur�es op�rations � virgule flottante par seconde. Cela signifie que la structure du r�seau peut faire une meilleure utilisation du GPU, ce qui en fait une �valuation plus efficace et plus rapide. Ceci est principalement parce que trop de ResNets le nombre de couches, l'efficacit� est peu �lev�.

formation

Nous formons toujours avec l'image compl�te. Nous utilisons diff�rentes formations � l'�chelle, l'utilisation de grandes quantit�s d'am�lioration des donn�es, la normalisation des lots, et ainsi de suite. Nous utilisons la formation et cadre de tests r�seau de neurones Darknet .

pratiques et r�sultats sp�cifiques

YOLOv3 a fait tr�s bien! Voir le tableau 3. COCO �trange � l'indice de moyenne AP moyenne, une variante de la performance SSD et il est tout � fait, mais la vitesse est augment�e de 3 fois. Cependant, il est encore pire que le num�ro de mod�le RetinaNet.

� ce moment-l�, lorsque l'on compare � l'indice de d�tection � vieux � lorsque le IOU mAP = 0,5 (ou table AP50), YOLOv3 tr�s puissant. Ses performances presque RetinaNet consid�rable et beaucoup plus �lev� que les SSD variantes. Cela indique YOLOv3 est un r�seau de d�tection d'objet tr�s puissant. Cependant, avec des augmentations de seuil IOU, la performance baisse YOLOv3, si parfaitement align� avec la zone de d�limitation de l'objet de l'effet est pas si bon.

Dans le pass�, YOLO pas bon pour la d�tection de petits objets. Mais maintenant, nous voyons que la situation a chang�. �tant donn� que la nouvelle m�thode de pr�diction multi-�chelle, nous voyons YOLOv3 APS a un rendement relativement �lev�. Cependant, il appara�t dans le milieu et la taille plus grande de l'objet est relativement pauvre.

Lorsqu'elle est exprim�e avec indicateur de pr�cision et de la vitesse AP50 (voir fig. 3), on peut voir avec d'autres syst�mes de d�tection YOLOv3 pr�sente des avantages importants par rapport. En d'autres termes, YOLOv3 plus vite et mieux.

Figure 3

Une m�thode essay� inutile

Nous avons essay� de nombreuses m�thodes dans l'�tude de YOLOv3. Beaucoup d'entre eux ne fonctionnent pas. Ceux-ci peuvent d�couvrir.

Bo�te d'ancre x, y compens�es pr�diction. Nous essayons d'utiliser une bo�te conventionnelle m�canisme de pr�diction d'ancrage peut �tre utilis� pour activer le x lin�aire, y d�calage des multiples pr�dites de la largeur ou la hauteur de la bo�te. Nous avons constat� que cela r�duit la stabilit� du mod�le, et inefficace.

Lin�aire x, y pr�diction, la logique de pr�diction de la place. Nous essayons d'utiliser l'activation directe de d�calage pr�diction lin�aire x, y, et au lieu activons logique. Cela a conduit � une baisse du MAP.

perte focale. Nous essayons d'utiliser la perte focale. Cette approche permet de r�duire d'environ mAP 2 points. perte focale de la r�solution de la question peut avoir �t� tr�s forte, car il a une pr�diction de pr�diction de classe d'objets s�par�s et les conditions. Ainsi, pour la plupart des cas, une pr�diction de la cat�gorie il n'y a pas de perte? Ou pour d'autres raisons? Ce point n'est pas compl�tement d�termin�.

Tableau 3: Encore une fois, ce chiffre du papier et faire quelques ajustements. Il est montr� ici vitesse / pr�cision compromis � 0,5 IOU m�triques sur la carte. Comme vous pouvez le voir, YOLOv3 tr�s puissant, car il est tr�s �lev�, et loin de l'axe gauche.

Seuil double et l'affectation de la v�rit� IOU. Plus rapide RCNN IOU utiliser deux seuils pendant la formation. Si une pr�diction de la v�rit� au sol .7 se chevauchent, il est un exemple positif, il est ignor�. Si la v�rit� du terrain pour tous les objets qui sont plus petits que 0,3, ce qui est un exemple n�gatif. Nous avons essay� une strat�gie similaire, mais vous ne pouvez pas obtenir de bons r�sultats.

Qu'est-ce que cela signifie

YOLOv3 est un bon d�tecteur. Rapide et tr�s pr�cis. Sur COCO, moyenne entre 0,5 et 0,95 IOU AP, la pr�cision est pas tr�s bon. Cependant, cet indicateur est de 0,5 IOU, YOLOv3 tr�s bon.

Pourquoi devrions-nous changer l'indice? Les documents originaux sur COCO Seule une phrase vague: � Une fois l'�valuation serveur complet, nous ajouterons une discussion compl�te des diff�rents indicateurs d'�valuation. � Russakovsky papier et al dit que l'humanit� est difficile de distinguer IOU 0,3 et 0,5. � Les gens IOU Une inspection visuelle de la valeur du cadre de s�lection de 0,3, et il est s�par� de la r�gion de 0,5 � IOU, il est tr�s difficile � faire. � Si les humains sont difficiles � distinguer la diff�rence, alors il est pas importante.

Peut-�tre plus digne d'�tre question compte tenu est: � Maintenant que nous avons ces d�tecteurs, qu'est-ce que nous les obtenir? � Beaucoup de gens sont en train de faire ce genre de travail de recherche sur Google ou Facebook. Je pense au moins nous savons que la technologie a d�j� �t� ma�tris� tr�s bien, et ne sera pas utilis� pour recueillir des renseignements personnels et de le vendre � .... attente, vous dites que cela est l'usage pr�vu? Oh.

Enfin, ne pas @ me. (Twitter parce que je finalement abandonn�).

Route de la soie

Apprenez � conna�tre la Chine

La d�tection d'objet mod�le classique YOLO nouvelle mise � jour, look, 3 fois plus vite!