La détection d'objet modèle classique YOLO nouvelle mise à jour, look, 3 fois plus vite!

Ji-won nouvelle compilation

Auteur: Joseph Redmon, Ali Farhadi

Traduction: Xiao Qin

[New Ji-won EXAMEN Vous avez certainement vu rarement ces documents, comme le chat texte, comme d'ailleurs l'inventeur de YOLO. papiers classiques dans le domaine de la détection d'objets YOLO (You Look Only Once) deux auteurs, Joseph Redmon et Ali Farhadi Université de Washington présente la troisième édition des dernières améliorations YOLO YOLO v3, une série d'améliorations de conception, le nouveau modèle permet une meilleure performance, plus rapide. Obtenir des performances similaires par rapport à la SSD, la vitesse de 3 fois, par rapport RetinaNet, la vitesse a augmenté de 3,8 fois.

Adresse Code: https: //pjreddie.com/yolo/

Adresse Papers: https: //pjreddie.com/media/files/papers/YOLOv3.pdf

Je n'ai pas étudié comment faire cette année. J'ai passé beaucoup de temps à jouer avec Twitter. Jouez un peu GAN. L'année dernière, je suis parti un peu de travail , je réussi à YOLO a apporté quelques améliorations. Mais, pour être honnête, pas un travail super intéressant, il suffit de faire une série de mises à jour, faire mieux. Je dois aussi aider les autres à faire des recherches.

Rien de mal, vous voyez est vraiment le début d'un document.

Aujourd'hui, le nouveau Chi Yuan apporter une façon inhabituelle de travailler pour vous, l'auteur YOLO de la mise à jour du modèle de vision informatique classique.

Pas seulement au début, tout le morceau de papier partout sont intégrés l'humour, à la fin n'a pas oublié de dire au lecteur, pas @ lui.

Rassurez-vous que la plupart de la recherche chez les personnes de vision par ordinateur juste faire quelque chose d'agréable, de bonnes choses comme calculer le nombre de parcs nationaux zèbres , ou suivre le chat quand ils ont glissé dans la cour . Mais la vision par ordinateur a été contestée à l'emploi, en tant que chercheurs, nous avons la responsabilité de penser le moins de dommages possibles à notre travail, et de réfléchir à la façon d'atténuer les préjudices. Nous chérissons ce monde.

Puis, l'année d'immersion Twitter, ils Yolo ce qui avait été fait pour le mettre à jour?

Nous Yolo fait quelques mises à jour! Nous avons fait une petite conception, en améliorer le fonctionnement. Nous avons ce nouveau réseau a été formé. YOLO version mise à jour du réseau est légèrement plus grande que la version précédente, mais plus précis. Sa vitesse est très rapide, ne vous inquiétez pas ce point. Dans les 320 × 320, YOLOv322 ms à 22,2 mAP la course est terminée, avec le SSD pour obtenir la même précision, mais la vitesse a augmenté de 3 fois. Par rapport à la version précédente des indicateurs de détection 0,5 IOU topographie, performance YOLOv3 est tout à fait bonne. Sur Titan X, il est atteint dans 51 ms 57,9 AP50, mais a atteint 57,5 AP50 RetinaNet requis 198 ms, des performances similaires, mais 3,8 fois plus rapide.

Tout le code est fourni à l'adresse suivante de: https: //pjreddie.com/yolo/

Vidéo de démonstration:

brève introduction

Je n'ai pas étudié comment faire cette année. J'ai passé beaucoup de temps à jouer avec Twitter. Jouez un peu GAN. L'année dernière, je suis parti un peu de travail , je réussi à YOLO a apporté quelques améliorations. Mais, pour être honnête, pas un travail super intéressant, il suffit de faire une série de mises à jour, faire mieux. Je dois aussi aider les autres à faire des recherches.

Cet article présentera la prochaine YOLOv3, alors je vais vous dire comment nous faisons. Je vais écrire ce que nous avons essayé, mais l'opération a échoué. Enfin, nous allons réfléchir à ce que tous les moyens.

YOLOv3

A propos YOLOv3: Nous sommes principalement pour obtenir de bonnes idées des autres. Nous avons également formé un nouveau réseau de classification mieux. Cet article présentera l'ensemble du système à partir de zéro, de sorte que nous comprenons.

Figure 1: Ce chiffre est apporté de documents de perte focaux et modifiés. YOLOv3 court plus vite que les performances d'une autre méthode de détection similaire. Le temps d'exécution de M40 ou Titan X, essentiellement avec le même GPU.

Englobante Prévisions boîte

Après YOLO9000, nos utilisations du système dimension cluster (grappe de dimension) prédite comme boîte englobante boîte d'ancrage . Réseaux pour chacune des coordonnées de la boîte englobante de la prédiction de quatre ,,. Si la cellule est décalé par rapport au coin supérieur gauche de l'image, et avant la zone de délimitation ayant une largeur et une hauteur, qui correspond à la prédit l'équation suivante:

Pendant la formation, nous utilisons l'erreur quadratique et la perte. Si quelques-unes des coordonnées prévues de la vérité du sol est que la pente est la valeur de vérité de la terre (calculée à partir de la vérité au sol encadré) en soustrayant la prédiction, à savoir: Il peut être facilement calculée en inversant la valeur de vérité au sol de l'équation ci-dessus.

YOLOv3 par régression logistique pour prédire points objectness pour chacun de la boîte de sélection. Si la zone de délimitation recouvre tout autre que l'objet avant que la zone de délimitation pour être la vérité au sol, la valeur doit être 1. Si la zone de délimitation précédente est pas le meilleur, mais il ne se chevauchent avec la cible de la vérité au sol dépasse un certain seuil, nous ignorerons les prévisions, comme plus rapide R-CNN comme . Nous utilisons 0,5 comme seuil. Mais est différent est que notre vérité au sol du système pour chaque objet est affecté uniquement une boîte de sélection. Si la case limite précédente n'est pas affectée à une cible de vérité du terrain, ne sera pas coordonnée ou de la catégorie des pertes prévues ne feront que conduire à objectness.

Figure 2: a priori de la dimension et l'emplacement boîte englobante de prédiction. Nous prédisons la largeur et la hauteur de la boîte, comme le décalage centroïdes cluster. On utilise la prédiction de la fonction sigmoïde par rapport aux coordonnées de position du centre de la zone de délimitation de l'application du filtre. Ce chiffre est du papier YOLO9000 apporté.

prédiction classe

Chaque boîte utilisée pour prédire la boîte englobante de classe peut contenir l'utilisation de la classification multi-étiquettes. Nous n'utilisons softmax, parce que nous avons trouvé qu'il n'a eu aucun effet sur la performance, mais juste utiliser un classificateur logique séparée. Pendant la formation, nous utilisons la catégorie de perte d'entropie mutuelle à prévoir.

Cette formule nous permet de transformer des zones plus complexes, telles que jeux de données ouverts Images . Dans cet ensemble de données il y a beaucoup de chevauchement étiquette (par exemple, la femme, et personne). Vous pouvez utiliser softmax imposer une hypothèse que chaque boîte ne contient qu'une seule catégorie, mais généralement pas le cas. méthode multi-étiquette peut être mieux données simulées.

échelles différentes prédits

boîte YOLOv3 peut prédire trois types d'échelles différentes. Notre système utilise un réseau de pyramide fonction pour extraire des caractéristiques de ces dimensions. Dans l'extracteur de fonctionnalités de base, nous avons ajouté quelques couches de convolution. Dans lequel la prédiction de la dernière couche tenseur en trois dimensions de codage de la zone de délimitation, objectness et la prédiction de la classe. Dans nos expériences COCO ensembles de données, chaque prédiction d'échelle Box 3, de sorte tenseur N x N x , 4 bloc limite de décalage, une objectness prédit, et 80 catégories à prévoir.

Ensuite, on obtient à partir de. La figure 2, caractérisé en couches précédentes et soumis à un échantillonnage à deux reprises. Nous avons également caractérisé sur la figure obtenir du réseau à l'aide sage élément le ajoutée et la fusion avec notre fonction d'échantillonnage précédent. Cette approche nous permet d'échantillonner les informations grains fins des caractéristiques des premières cartes et d'obtenir des informations sémantiques plus significatives. Ensuite, on ajoute quelques couches de processus où convolution figure de cette combinaison, et enfin le Tensor prédisait un semblable, bien que sa taille a été augmentée deux fois.

Nous faisons la même chose à nouveau à l'échelle finale conçu pour prédire la boîte. Ainsi, nous bénéficions de la prévision de la troisième échelle avant tous les calculs et d'obtenir une des caractéristiques fines du réseau plus tôt.

Nous utilisons toujours les k-means pour déterminer le cadre de sélection prieurs. Nous avons sélectionné seulement neuf groupes 3 et échelles, puis grappes uniformément répartis à travers les échelles. Le jeu de données COCO, neuf cluster, respectivement (10 x 13), (16 x 30), (33 x 23), (30 x 61), (62 x 45), (59 x 119), (116 × 90), (156 x 198), (373 x 326).

extracteur de caractéristiques

Nous utilisons un nouveau réseau pour effectuer l'extraction de caractéristiques. Le nouveau réseau est une méthode hybride réseau Darknet-19 et réseau mises à jour pour YOLOv2 résiduel ,. Notre réseau continu et 3 x 3 couche de convolution est 1 × 1, mais maintenant il y a aussi un lien raccourci, et la taille du réseau est significativement plus importante. Il a 53 couche de convolution, de sorte que nous appelons ...... Darknet-53 !

Le nouveau réseau est beaucoup plus puissant Darknet19 et plus efficace que ResNet-101 ou ResNet-152. Voici les résultats sur IMAGEnet:

Réseau Comparez: Tableau 2. La précision de chaque réseau, Bn Ops, les opérations en virgule flottante par seconde, et FPS.

Chaque réseau est formé en utilisant les mêmes paramètres, et testé dans un 256 × 256 simple précision. Durée est mesurée à 256 × 256 dans le Titan X. On peut voir, Darknet-53 avec le plus classificateurs avancées comparables, mais moins opérations à virgule flottante, plus rapide. Darknet-53 meilleures performances que ResNet-101, et 1,5 fois plus rapide. Darknet-53 et ResNet-152 ayant une performance similaire, 2 fois plus rapide.

Darknet-53 peut également atteindre les plus élevées mesurées opérations à virgule flottante par seconde. Cela signifie que la structure du réseau peut faire une meilleure utilisation du GPU, ce qui en fait une évaluation plus efficace et plus rapide. Ceci est principalement parce que trop de ResNets le nombre de couches, l'efficacité est peu élevé.

formation

Nous formons toujours avec l'image complète. Nous utilisons différentes formations à l'échelle, l'utilisation de grandes quantités d'amélioration des données, la normalisation des lots, et ainsi de suite. Nous utilisons la formation et cadre de tests réseau de neurones Darknet .

pratiques et résultats spécifiques

YOLOv3 a fait très bien! Voir le tableau 3. COCO étrange à l'indice de moyenne AP moyenne, une variante de la performance SSD et il est tout à fait, mais la vitesse est augmentée de 3 fois. Cependant, il est encore pire que le numéro de modèle RetinaNet.

À ce moment-là, lorsque l'on compare à l'indice de détection « vieux » lorsque le IOU mAP = 0,5 (ou table AP50), YOLOv3 très puissant. Ses performances presque RetinaNet considérable et beaucoup plus élevé que les SSD variantes. Cela indique YOLOv3 est un réseau de détection d'objet très puissant. Cependant, avec des augmentations de seuil IOU, la performance baisse YOLOv3, si parfaitement aligné avec la zone de délimitation de l'objet de l'effet est pas si bon.

Dans le passé, YOLO pas bon pour la détection de petits objets. Mais maintenant, nous voyons que la situation a changé. Étant donné que la nouvelle méthode de prédiction multi-échelle, nous voyons YOLOv3 APS a un rendement relativement élevé. Cependant, il apparaît dans le milieu et la taille plus grande de l'objet est relativement pauvre.

Lorsqu'elle est exprimée avec indicateur de précision et de la vitesse AP50 (voir fig. 3), on peut voir avec d'autres systèmes de détection YOLOv3 présente des avantages importants par rapport. En d'autres termes, YOLOv3 plus vite et mieux.

Figure 3

Une méthode essayé inutile

Nous avons essayé de nombreuses méthodes dans l'étude de YOLOv3. Beaucoup d'entre eux ne fonctionnent pas. Ceux-ci peuvent découvrir.

Boîte d'ancre x, y compensées prédiction. Nous essayons d'utiliser une boîte conventionnelle mécanisme de prédiction d'ancrage peut être utilisé pour activer le x linéaire, y décalage des multiples prédites de la largeur ou la hauteur de la boîte. Nous avons constaté que cela réduit la stabilité du modèle, et inefficace.

Linéaire x, y prédiction, la logique de prédiction de la place. Nous essayons d'utiliser l'activation directe de décalage prédiction linéaire x, y, et au lieu activons logique. Cela a conduit à une baisse du MAP.

perte focale. Nous essayons d'utiliser la perte focale. Cette approche permet de réduire d'environ mAP 2 points. perte focale de la résolution de la question peut avoir été très forte, car il a une prédiction de prédiction de classe d'objets séparés et les conditions. Ainsi, pour la plupart des cas, une prédiction de la catégorie il n'y a pas de perte? Ou pour d'autres raisons? Ce point n'est pas complètement déterminé.

Tableau 3: Encore une fois, ce chiffre du papier et faire quelques ajustements. Il est montré ici vitesse / précision compromis à 0,5 IOU métriques sur la carte. Comme vous pouvez le voir, YOLOv3 très puissant, car il est très élevé, et loin de l'axe gauche.

Seuil double et l'affectation de la vérité IOU. Plus rapide RCNN IOU utiliser deux seuils pendant la formation. Si une prédiction de la vérité au sol .7 se chevauchent, il est un exemple positif, il est ignoré. Si la vérité du terrain pour tous les objets qui sont plus petits que 0,3, ce qui est un exemple négatif. Nous avons essayé une stratégie similaire, mais vous ne pouvez pas obtenir de bons résultats.

Qu'est-ce que cela signifie

YOLOv3 est un bon détecteur. Rapide et très précis. Sur COCO, moyenne entre 0,5 et 0,95 IOU AP, la précision est pas très bon. Cependant, cet indicateur est de 0,5 IOU, YOLOv3 très bon.

Pourquoi devrions-nous changer l'indice? Les documents originaux sur COCO Seule une phrase vague: « Une fois l'évaluation serveur complet, nous ajouterons une discussion complète des différents indicateurs d'évaluation. » Russakovsky papier et al dit que l'humanité est difficile de distinguer IOU 0,3 et 0,5. « Les gens IOU Une inspection visuelle de la valeur du cadre de sélection de 0,3, et il est séparé de la région de 0,5 à IOU, il est très difficile à faire. » Si les humains sont difficiles à distinguer la différence, alors il est pas importante.

Peut-être plus digne d'être question compte tenu est: « Maintenant que nous avons ces détecteurs, qu'est-ce que nous les obtenir? » Beaucoup de gens sont en train de faire ce genre de travail de recherche sur Google ou Facebook. Je pense au moins nous savons que la technologie a déjà été maîtrisé très bien, et ne sera pas utilisé pour recueillir des renseignements personnels et de le vendre à .... attente, vous dites que cela est l'usage prévu? Oh.

Rassurez-vous que la plupart de la recherche chez les personnes de vision par ordinateur juste faire quelque chose d'agréable, de bonnes choses comme calculer le nombre de parcs nationaux zèbres , ou suivre le chat quand ils ont glissé dans la cour . Mais la vision par ordinateur a été contestée à l'emploi, en tant que chercheurs, nous avons la responsabilité de penser le moins de dommages possibles à notre travail, et de réfléchir à la façon d'atténuer les préjudices. Nous chérissons ce monde.

Enfin, ne pas @ me. (Twitter parce que je finalement abandonné).

Comment capturer Chow Yun Fat sauvages à Hong Kong?
Précédent
Un détail de la semaine | réputation faim, il a annoncé des jeux Double Douze sont joués; Yonghui Supermarket dépouillé Yunchuang
Prochain
Xiaogan cet endroit à la démolition! Grande changement, les gens qui vivent ici vaudra grimpé en flèche!
Le plus cher des huit vins de Bordeaux!
Electricité ère de coton contre-attaque du fournisseur: d'une perte de 150 millions, le leader de l'industrie en six ans
Au revoir, Shuai Mada! Merci vous aviez été là, ce beau vieillard en Allemagne
Taps Shu cette décennie, j'ai connu trois changements de costumes civils
Jouer à beau garçon crime fou, le vol d'une valeur de mois courrier 150000 yuans!
Coincé apprentissage en profondeur: les défauts techniques ne peuvent pas résoudre, aucune percée majeure dans le domaine des algorithmes
la plus belle ville française de Montreux en Suisse ~
Dans une petite armée de façon trop? Enfin vu le sang!
Le thé est chaud, la position d'origine ne prend pas soupière
Dynastie Shang technologie Xu: AI va créer une valeur de la production totale de la Chine et de l'Inde en 10 ans
Qui est le plus chinois | vieux crachat, convaincu que la nouvelle