Article détaillé YOLO 9000 YOLO 2 et des systèmes de détection d'objets | Partager Résumé

Lei Feng réseau AI Technology Review par: YOLO est le premier système de détection cible basée sur un seul réseau de neurones Joseph Redmon et Ali Farhadi, qui a proposé en 2015. Cette année CVPR, Joseph Redmon et Ali Farhadi publié YOLO 2 améliore encore la précision et la vitesse de détection. La conférence La conférence Wang, ancien ingénieur principal dans la Silicon Valley.

Semblable à expliquer l'ordre et une structure du papier, parler de la structure du réseau YOLO 2, se concentre sur la façon de générer la frontière cible et la classification et la perte de la fonction associée. La première étape est la formation YOLO 2 IMAGEnet sur Darknet-19 d'apprentissage préalable, à l'image 224x224, il est seulement 5,58 g d'habitation. En outre, YOLO 2 ont une bonne performance dans VOC2007, détection VOC2012 COCO et ensembles de données.

Sur la base de 2 YOLO sur le papier propose plus YOLO 9000, peut produire la catégorie détection de cible 9418. Le premier est la nécessité d'établir une structure WordNet wordTree. Cet arbre contient la classification IMAGEnet 9000 le plus populaire, il y a 80 catégories de COCO. YOLO 9000 couche finale de la méthode de classification hiérarchique, calcule une pluralité de probabilités conditionnelles 400, l'utiliser pour produire une classification finale d'une cible.

Détection cible

Tout d'abord, la détection d'objets, détection d'objets et de classification d'image différente est une classification de l'image de l'objet n'a besoin que d'identifier les chiffres, la détection cible nécessite trouver avec précision le point où l'objet dans l'image, et étiqueter les classes d'objets. La position générale de l'objet avec une marque frontière (cadre de sélection), une image peut avoir plusieurs frontières, la probabilité de détection de cible et les besoins de la frontière à donner dans les catégories d'objets.

A propos YOLO2

Structure YOLO2

YOLO 2 Structure de réseau de neurones, la couche 32. La structure est conventionnelle, et contient le plus grand bassin de convolution, dont certains convolution 1 * 1, une partie de la structure microscopique employé GoogLeNet. Ce qui est de prêter attention aux 25 premières couches et 28 couches ont une route. La première couche 28, par exemple, la voie 27 et 24, à savoir les couches 27 et 24 couches sont combinées les unes à la sortie de la couche suivante, la couche est un effet combiné de la voie des couches. Taille de la couche de sortie 30 est de 13 * 13, se réfère à l'image par convolution ou mis en commun, et finalement réduit à une taille de 13 * 13 grille. Chaque numéro de cellule de sortie 125 est (25 * 5), fait référence à chacun des 513 * 13 grille avec une petite bordure 5, 25 se réfère à la sortie de chaque lunette 25 flotteurs. 25 est une structure de COV YOLO 2. COV classe un total de 20, au nombre de 25, il y a une probabilité de classe 20, les cinq autres, quatre représente STX, orgelet, tw, Th, quatre frontières pour identifier la position et la taille il y a un certain nombre de confiance, exprimé dans la frontière de prédire la probabilité d'un objet réel. Par conséquent, un nombre total de 13 * 13 * 125.

YOLO2 avant la frontière de calcul

Maintenant, parler de la façon de stx, sty, tw, e devient la trame de sortie. Comme on le voit sur la droite intérieur (tx) peut être comprise comme stx, (ty) peut être comprise comme sty. bbox chaque sortie est dirigée vers un point d'ancrage particulier, ancre de référence effectivement Bbox de la largeur et de la hauteur. Pour ce qui concerne les COV, il produit cinq référence fixe.

Comme cela est représenté, étant donné stx, orgelet, tw, après th, par une formule simple, on peut calculer la position et la taille d'image de la sortie finale. Plus précisément, si vous voulez afficher l'image actuelle, sa probabilité, et la catégorie d'objet résultant, cela dépend du dos de probabilité et de confiance. La confiance n'a pas exprimé d'objet, supposons qu'il ya des objets, la probabilité indique la probabilité de l'objet.

YOLO avant Classification

Après passage à travers la sortie maximale possible et la confiance de la probabilité en multipliant la classe, et si le résultat est supérieur au seuil de 0,24, la taille et la position est courante calculée Bbox de sortie, qui est délivré à une classe, la taille est beaucoup plus probable. Il va générer un total de 13 * 13 * 5 Bbox, puis en fonction de la probabilité, à travers le filtre, pour produire un objet de prédiction finale et sa bordure.

Exemples YOLO2

À titre d'exemple, l'avant est qu'il ya des chiens, il y a des voitures, il y a une image d'une bicyclette, les trois dernières lignes tableau de comparaison peut être vu, il y a des voitures, les chiens et les vélos peuvent également voir quelles sont les probabilités et bbox, ils représentent la probabilité, la taille et l'emplacement. Plus précisément, de la première ligne, comme on peut le voir voiture class_id 6 peut être vu à travers la ligne de position approximative et col, aussi donne anchor_id. La deuxième rangée peut voir la confiance de la voiture et stx.

fonction de perte YOLO2

En parlant devant le processus, à savoir à l'image et un réseau de neurones, et la façon d'obtenir la position de l'objet probabilité de reconnaissance. Ensuite, le cours de formation spécifique est de savoir comment faire, comment former? Dans un article à une perte de fonction. Si on leur donne une fonction de perte appropriée, à une certaine donnée à former, le réseau de neurones va obtenir de bonnes performances.

La formation d'un total de quatre types de perte, ils poids différent et sont chaque objet, noobject, classe, coord. La perte globale est une partie de la place et quatre. Les étapes de calcul de spécifiques et la façon dont le processus de sélection comme indiqué PPT.

calcul Darknet-19

Ce qui précède décrit la fonction des objets de formation et de formation, nous avons tous besoin de sélectionner une fonction de pré-formation. En outre, YOLO 2, le principal est d'améliorer la précision et la vitesse, l'accent est sur le réseau de base est mieux. YOLO 2 Darknet-19 est utilisé dans le modèle de pré-formation. Droit est utilisé sur certains modèles IMAGEnet, on nous a donné leur calcul et la précision. Sur l'image 224x224, figure VGG16 nécessite 30,69 G-ops, 8,52 G-ops nécessaires en fonction GoogLeNet de YOLO. Alors que Darknet-19 plus petit, G-OPSS est 5,58.

COV 2007 précision et vitesse

Papier YOLO 2 énumère certaines des performances de détection de cible de l'ensemble standard, car YOLO 2 ne contient que la couche réseau et la couche mise en commun de convolution, il est possible de recevoir l'image d'entrée d'une taille quelconque. On peut voir sur la figure, et la précision R-CNN SSD est relativement élevé, mais le SSD à 16 CCV est basé sur, FPS plus lent de pré-formation. 2 précision relative YOLO YOLO beaucoup amélioré, il y a une augmentation de la vitesse correspondante. Pour YOLO 2, différentes tailles d'image produiront différentes cartes.

Fiabilité des COV 2012 et COCO

A pris les deux sont sur la précision des COV 2012 et COCO, COCO COV difficile que référence pour la détection cible, COCO, il y a 80 catégories, COV, il y a 20. Comme on peut le voir à partir. La figure 2 SSD précision supérieure à YOLO, COCO possible parce qu'il ya des objets relativement petits. YOLO 2 peut également être vu de la vitesse de tirage est toujours rapide.

YOLO comparaison avec le YOLO2

On peut voir sur la figure après les différentes étapes, levage YOLO YOLO 2 par rapport. Nous pouvons voir Mapper améliorée de manière significative.

Et la comparaison des Faster-RCNN

Pas un calcul basé sur la précédente hors RCNN, tout d'abord la première proposition de calculer, puis passer par les couches suivantes, une proposition de classer, de sorte réseau basé RCNN-sera plus lent.

SSD

SSD est la méthode la plus précise de détecter une cible, sur la base d'un seul réseau de neurones. Comme représenté, les couches avant d'un VGG de réseau, qui est principalement caractérisé en couche de convolution, on a ajouté pour donner une couche dans laquelle des échelles différentes de manière à réaliser la détection d'objet multi-échelles. Pour chaque fonctionnalité de couche supplémentaire, un ensemble de filtre de convolution peut être obtenu en fixant le nombre d'ensemble de prédiction de la détection de la cible.

Procédé SSD d'acquisition d'un emplacement cible et le type de mécanisme avec la méthode YOLO, sont régression, mais YOLO petit inefficace de détection de cible, tandis que le SSD est divisé en différentes carte de caractéristiques dans une grille, puis faire une régression, l'effet sera mieux .

partie YOLO2 parle devant, est détectée ssd inférieure, mais sont très proches dans un petit objet et ssd sur la précision exactitude, le plus gros avantage est très rapide.

YOLO 9000

YOLO 9000 est la deuxième partie de l'article, son principal avantage est détectée classe 9418. Ce nombre est très surprenant, puisque les données de détection ne sont pas facilement disponibles, est difficile à marquer manuellement.

L'image est dans le document quelques exemples de détection.

YOLO est un déclencheur de base 9000 pour aider les uns les autres avec une petite quantité de détectée marquée avec des données combinées et une grande quantité de données d'image à classer, produire de nombreux types de prédiction peuvent être générés.

pratique spécifique

Tout d'abord l'arbre tag (WordTree), c'est un grand arbre, comme indiqué dans la partie rouge de l'intérieur IMAGEnet est le plus populaire neuf mille catégories, détecter les données de la classe 80 COCO à l'intérieur. Cet arbre de balise est basée sur un total de 9418 classes 1.846 noeuds internes WordNet construits. Chaque noeud de l'arbre peut faire un SoftMax, la probabilité est le produit de la probabilité du nud à partir de l'origine des conditions sur le chemin, la probabilité de sortie d'étiquettes définitives est le plus profond noeud est supérieure à une valeur de seuil (0,5).

approche en utilisant la classification hiérarchique du modèle de formation, de sorte que le système peut reconnaître plus de 9000 types de produits - Après avoir utilisé des ensembles de données intégré WordTree peuvent être dans l'ensemble de données (données de test Catégorie). parcours de formation sur les données de test wordTree ont une perte de classe, alors que les données de IMAGEnet que la perte et la perte noobj classe.

Structure YOLO 9000

Comme le montre, par rapport à la précédente, pour simplifier sa couche de structure 24, la première couche est un 17 * 23 * 17 * 1728269,17 avant YOLO 13 * 13 la figure 2 est similaire, sauf que la prédiction en un maillage 17 * 17. Ensuite, chaque emplacement 28269 (3 * (1 + 4 + 9418)), 3 fait référence à la position de chacun des trois boîte englobante, chaque zone de délimitation avec stx, sty, tw, e, la confiance et la classe 9418 . Après avoir donné ces chiffres peuvent produire bbox exigés par le WordTree.

Résultats YOLO 9000

Figure YOLO 9000 se traduit par la ilsvrc 2014 de. Ilsvrc 2014 un total de 200 catégories, ssd300 sur cet ensemble de données peut être 43.4mAP après la fin de la formation, YOLO 9000 ne peut obtenir 19.7mAP. La différence est YOLO 9000 il n'y a pas de données sur l'utilisation de ilsvrc IMAGEnet formation dans le processus de formation, en utilisant uniquement les données COCO et IMAGEnet peut être obtenu 19,7 est également de très bons résultats. la performance figure à droite peut être vu l'image de la détection de différents types, la meilleure performance peut être vu quand un animal est détecté, car il y a des classes d'animaux sur le COCO.

Résumé:

Par rapport YOLO YOLO 2, pour améliorer la vitesse et la précision, basé sur un modèle Darknet-19, la couche de connexion est complètement enlevée, le cluster avec le cadre, une combinaison des deux couches, en utilisant une formation d'images à résolutions multiples.

YOLO 9000 peut être utilisé avec des données de trame sans monture et de données 9418 en même temps en uvre un suivi classe. Prendre des mesures de classification hiérarchique des wordTree.

Ici, nous vous fournirons un code open source sur GitHub, et ont formé YOLO 2 modèle YOLO 9000.

https://pjreddie.com/darknet/

https://github.com/philipperemy/yolo-9000

Lei Feng réseau AI Technology Review édité. Lei Feng réseau

Daily ombre Amoy | Tony Leung conjointement Wu Yifan, dans la "stratégie européenne" interprétation des agents Hutch
Précédent
réputation Look depuis 16 ans pour acheter un championnat de panne de voiture deux ventes mensuelles de plus de 80000
Prochain
« Voyage à la fille du pays » MV: Si vous étiez réincarné, Zhao Liying Feng Shao Feng pourrait ensemble
« Livraison » Plus de 200 hauts et distributeur de nouvel an original, ce que vous ne parlez pas de celui-ci
AI accélère le changement dans le journalisme, écouter les professeurs, rédacteur en chef, les entrepreneurs comment voir?
Parler de tendances technologiques futures et les avantages et les inconvénients 5G
Cette maison ouverte plusieurs modèles indépendants Nouvel an chinois vous laisser le visage empoché
Rapport du Forum économique mondial: évaluation complète de la façon de subvertir le secteur financier de la concurrence Fintech, y compris le chemin, le mode et final (a)
conception de processeur de réseau reconfigurable Distributed Cache
Hors route aventure dans la neige Hulun Grassland Yakeshi test complet en ligne Subaru commande suv
Dwayne Johnson toast au public, vous pouvez évidemment pas boire! « Brave jeu » première chinoise
analyse de la sensibilité de référence de bande interdite des particules individuelles
Que Dieu les ventes de voitures SUV sont plus de 80000 ce que vous attendez?
« Bowen série » ingénierie d'application S32DS IDE de débogage en utilisant Tips-- Foire aux questions (FAQ) Questions et réponses