Dry | gains de l'équipe Baidu une détection de cible visuelle ECCV Google AI gagnant du concours, programme primé complet d'interprétation | ECCV 2018

AI Technology Review nouvelles Récemment, Baidu gains visuels de l'équipe première dans Google AI ouvrir des images-objets de détection piste tâche de détection de cible, et a été invité à partager sur la conférence top Computer Vision ECCV 2018. Dans le jeu gagnant Lei Feng réseau canal AI Technology Review produits de base de données académiques "Facteur d'impact AI." Les points correspondants.

Google AI ouvrir des images-objet de détection hébergé par Google piste AI Research, a attiré plus de 450 équipes participantes à travers le monde cette année.

Le concours est ouvert images V4 ensembles de données à l'aide de Google 5 publié en mai de cette année comme un ensemble de données d'apprentissage qui contient plus de 1,7 millions des données d'image, 500 catégories et plus de 12 millions boîte objets, les données ne sont pas marque tout à fait bien, appartenant aux missions de surveillance faibles, catégorie de chapiteau le nombre est pas équilibré et il y a une distribution de catégorie très large, ce qui est plus conforme à la situation réelle, le concours également des moyens que les besoins de l'équipe à prendre en compte la répartition des classes, mais ne processus unifier pas toutes les catégories, et donc plus difficiles.

L'événement contribuera à l'étude des modèles complexes, tandis qu'un modèle positif pour l'évaluation des performances différentes de détection. La figure suivante montre le MS COCO Ouvrir une image V4 et tâches d'inspection Comparaison des IMAGEnet des données, les données peuvent être vu Ouvrir une image V4 et beaucoup plus grande que MS COCO IMAGEnet.

MS COCO Ouvrir une image V4 et la comparaison des données de test et IMAGEnet

Le interprété visuel suivant des solutions techniques de l'équipe Baidu:

Il y a des défis

Par rapport à l'ensemble traditionnel de données de test, les données d'événement en plus grande échelle, plus réaliste, il y a aussi un certain nombre de défis. Plus précisément, l'accent sur les trois aspects suivants:

  • La répartition inégale des données: marquee de catégorie minimale seulement 14, alors que la plupart des catégories de chapiteau que 140w, sévère répartition inégale des données.

  • boîte de vidange standard: beaucoup de photos, il est seulement marqué les principales catégories de petits objets ou un autre objet non-cible ne sont pas balisés.

Par exemple les fuites d'images marquées

  • Changements à grande échelle: la plupart des objets de l'ensemble du cadre de l'image que 0,1 ou moins, et certains comptes de chapiteau pour l'ensemble de la zone d'image. , Collection Open image V4 existe comme le montre la figure plus petits Objets, les participants devront faire face à des défis plus importants dans les données de détection.

Contraste taille échelle bloc de distribution

solutions

Pendant la course, l'équipe Baidu prend une complexité visuelle différente, différents modèles de formation de réseau de trames, et ces modèles sont fusionnés. cadre entier du programme peut être divisé en rapide R-CNN et plus rapide R-CNN deux modes de formation différents. Rapide version R-CNN est une version de Baidu PaddlePaddle équipe visuelle de la recherche et le développement, sur cette base, R-CNN plus rapide en ajoutant les derniers algorithmes de détection, la performance du modèle FPN, Deformable, Cascade, etc., pour obtenir une amélioration substantielle.

Le cadre général du programme d'organigramme

  • Le réseau ResNet-101 rapide R-CNN, la convergence du modèle 0,481 peut être obtenue en ajoutant souple NMS et stratégies de test multi-échelle dans la phase de test, vous pouvez atteindre 0,508. Baidu aussi essayer un autre réseau (dpn98, Inception-v4, Se-ResNext101), et l'algorithme de détection sur différents réseaux pour intégrer ensemble, peuvent atteindre la finale 0,546 mAP. Proposition de la phase d'échantillonnage, Baidu différentes échelles à différents endroits pour générer un bloc candidat, puis ils sont classés chapiteau et ajuster leur position.

  • Plus rapide R-CNN: Dans ce cadre peut obtenir l'effet d'un peu rapide R-CNN, la carte 0,495. Après l'utilisation de stratégies et d'essai NMS souple multi-échelle dans la phase de test, la performance a atteint 0,525.

  • Deformable convolutifs Réseaux: avant et après l'utilisation de stratégies et d'essai souple NMS multi-échelle, la performance respectivement 0,528 et 0,559.

  • Cascade R-Deformable CNN: Soft NMS avant et après l'utilisation et la politique de test multi-échelle, les performances peuvent atteindre, respectivement, 0,581 et 0,590.

Dans rapide cadre R-CNN, l'équipe visuelle Baidu utilise un autre réseau est formé, alors que dans le cadre plus rapide R-CNN ResNet101 formation utilisations seulement un tel réseau. Pendant la formation, l'équipe visuelle Baidu résoudre aussi efficacement les différents problèmes techniques grâce à différentes stratégies. Les détails sont les suivants:

L'échantillonnage dynamique

Google Open Images V4 ensemble de données image sur les 170W, 1220W chapiteau, 500 catégories d'informations. Le plus grand chapiteau de la catégorie sur le 140w, la plus petite catégorie seulement 14 chapiteau, si nous utilisons simplement toutes les images et chapiteau, des dizaines de jours requis pour former le modèle, et il est difficile formé un modèle impartial. Par conséquent, la nécessité d'échantillonnage dynamique dans le processus de formation, si le nombre d'échantillons à plus de réduire l'échantillonnage probabiliste, et le nombre d'échantillons allant de l'augmentation de l'échantillonnage probabiliste. Baidu équipe visuelle des données d'ensemble ont été la formation, sous chapiteau fixe de la formation, la formation du modèle d'échantillonnage dynamique trois stratégies ont été.

  • Collecte de données Formation: fournir des données de formation conformément aux organisateurs, mAP 0,50.

  • Marquee fixe des sous-ensembles de la formation: au bloc 1000 pour sélectionner la ligne est fixée pour chaque classe jusqu'à, mAP 0,53.

  • Des échantillons de formation de modèle dynamique: pour chaque GPU, chaque Epoch utilisant l'échantillonnage dynamique en ligne, l'acquisition de données est différent à chaque fois, après un certain nombre de tours, l'ensemble du corpus de données de formation peuvent participer ensemble. Enfin 0,56 carte.

stratégie d'échantillonnage dynamique

FPN

Sur la base de l'analyse de la formation ensemble de données, l'équipe a constaté que Baidu échelle visuelle 500 catégories est très différente. FPN ils seront introduits dans le modèle de détection, à savoir l'utilisation de la structure pyramidale à plusieurs niveaux multi-échelles construit les caractéristiques du réseau de la pyramide. Dans l'expérience, comme l'équipe visuelle ResNet101 Baidu au réseau fédérateur, à différents stades de la couche finale est ajoutée du côté haut vers le bas connexion. Procédé de haut en bas est réalisée sur-échantillonnage, le niveau de la connexion est le résultat de l'échantillonnage de la carte de caractéristiques généré est mis en commun à partir du bas vers le haut de la même taille. Après la fusion, un résultat d'intégration 3 * 3 convolution pour chaque échantillon afin d'éliminer les effets de crénelage. Notamment, le FPN devrait être intégré dans le réseau RPN pour générer différentes échelles et intègre la fonction d'entrée réseau RPN. Enfin, mAP après l'introduction de jusqu'à 0,528 FPN.

Réseaux Deformable Convolution

Baidu équipe visuelle utilise une capacité de modélisation du réseau de neurones de convolution déformable amélioré CNNs. distorsion Convolution peut être considéré dans le réseau sans la nécessité d'une surveillance accrue, à travers l'étude des objectifs et des tâches de points d'échantillonnage spatiales dans le module de décalage supplémentaire. Pendant ce temps appliqué déformable à un réseau de convolution ResNet101 plus rapide de l'architecture R-CNN en tant que réseau de base, et la res5a de ResNet101, 5b, après l'application de la couche de convolution couche déformable 5c, et la couche déformable ROI pooling améliore la sensibilité de la position couche ROI Pooling. MAP déformable performances du réseau convolutionnel est 0,552.

Cascade R-CNN

La concurrence, Baidu équipe visuelle utilise une cascade de R-CNN pour former le modèle de détection. En plus de la formation du modèle de base, contenant également des fonctions cinq échelle réseau pyramide (le FPN) et trois dimensions ancres RPN le réseau. De plus, ils ont formé un petit modèle de classe 150 catégorie moins bonnes performances pour l'ensemble du modèle de classe, et le modèle de la classe 150 a été évaluée séparément. Il a conclu que, le modèle de la classe 500 est mAP 0,477, et le remplacement des résultats après la classe 150 de classe 500150 avec un seul résultat de formation modèle, modèles promu 0,498 Plan. Performance des modèles mono-échelle en utilisant la méthode ci-dessus de la formation est 0,573.

Astuces test

Après l'étape de traitement, l'équipe Baidu utilise une méthode visuelle souple NMS et de test multi-échelle. endroit doux NMS après une méthode de NMS, l'amélioration de 0,5-1,3 points dans différents modèles, tandis que les essais multi-échelle, il 0,6-2 points de levage dans différents modèles.

modèle Fusion

Pour chaque modèle, Baidu équipe devrait NMS Vision après boîte englobante. bloc de prédiction à partir de différents modèles en utilisant une version modifiée du SMN combiné comme suit:

  • Pour chaque modèle, d'un poids scalaire entre 0 et 1 en poids. somme du poids de tous les poids est égal à 1;

  • Obtenu à partir de la zone de délimitation de chaque score de confiance de modèle multiplié par un poids correspondant à son poids;

  • Le modèle combiné obtenu à partir de la totalité du bloc prédit et en utilisant le NMS, sauf Baidu score de manière superposée en utilisant différents modèles au lieu de ne retenir que les points les plus hauts du modèle, dans cette étape, la valeur de seuil est de 0,5 IOU.

(Fin)

personnes Dilly Reba EATER ensemble est plein à craquer? Ne soyez pas dupes yeux face
Précédent
Bientôt reçu un bon petit floral grand-mère! Sacai 2018 promos de printemps et d'été modélisation vous dire quoi porter l'année prochaine!
Prochain
Parlez-en à la série S-Class, 7 tiers du monde, ce que Audi A8 est appuyé sur?
Lenovo Z6 réservation de démarrage Pro, plein de sang Xiaolong 855+ cent millions de pixels, code sur la lutte contre le Bouddha
Dynamique | la plupart des organisations influentes du monde dans le classement TOP100 AI, qui liste les six institutions chinoises?
« Les acheteurs de Dallas Club »: Quand la boue à côté de la peau, la lutte est le moyen le plus efficace pour aider eux-mêmes
De l'Empire à l'ancien film « vente d'enfants »: Golden Harvest continent décennie Crusoe
Grab seul produit rare ne portera pas? VETEMENTS, Raf Simons, Moncler avec un modèle ici!
MT évaluation du lave-vaisselle blanc: utilisé pour ne jamais revenir en arrière
Jusqu'à ce que finalement vous, la gloire de 20 officielle a déclaré 21 Mai communiqué Londres, 48 millions de pixels arrière
« Longing pour la vie » 6 chiens en clients permanents, il Jiong, quand vous voulez « nourrir l'aide de chien » il?
OPPO R17 points de Pro artefact sur la performance constante test 60 nouvelle saison
Texture pleine de tricot, BAIGNANT APE® présentation intime pour vous!
Yu route EV2 chiffre officiel publié forme compacte / cotée le 18 Octobre