Dry | gains de l'�quipe Baidu une d�tection de cible visuelle ECCV Google AI gagnant du concours, programme prim� complet d'interpr�tation

AI Technology Review nouvelles R�cemment, Baidu gains visuels de l'�quipe premi�re dans Google AI ouvrir des images-objets de d�tection piste t�che de d�tection de cible, et a �t� invit� � partager sur la conf�rence top Computer Vision ECCV 2018. Dans le jeu gagnant Lei Feng r�seau canal AI Technology Review produits de base de donn�es acad�miques "Facteur d'impact AI." Les points correspondants.

Google AI ouvrir des images-objet de d�tection h�berg� par Google piste AI Research, a attir� plus de 450 �quipes participantes � travers le monde cette ann�e.

Le concours est ouvert images V4 ensembles de donn�es � l'aide de Google 5 publi� en mai de cette ann�e comme un ensemble de donn�es d'apprentissage qui contient plus de 1,7 millions des donn�es d'image, 500 cat�gories et plus de 12 millions bo�te objets, les donn�es ne sont pas marque tout � fait bien, appartenant aux missions de surveillance faibles, cat�gorie de chapiteau le nombre est pas �quilibr� et il y a une distribution de cat�gorie tr�s large, ce qui est plus conforme � la situation r�elle, le concours �galement des moyens que les besoins de l'�quipe � prendre en compte la r�partition des classes, mais ne processus unifier pas toutes les cat�gories, et donc plus difficiles.

L'�v�nement contribuera � l'�tude des mod�les complexes, tandis qu'un mod�le positif pour l'�valuation des performances diff�rentes de d�tection. La figure suivante montre le MS COCO Ouvrir une image V4 et t�ches d'inspection Comparaison des IMAGEnet des donn�es, les donn�es peuvent �tre vu Ouvrir une image V4 et beaucoup plus grande que MS COCO IMAGEnet.

MS COCO Ouvrir une image V4 et la comparaison des donn�es de test et IMAGEnet

Le interpr�t� visuel suivant des solutions techniques de l'�quipe Baidu:

Il y a des d�fis

Par rapport � l'ensemble traditionnel de donn�es de test, les donn�es d'�v�nement en plus grande �chelle, plus r�aliste, il y a aussi un certain nombre de d�fis. Plus pr�cis�ment, l'accent sur les trois aspects suivants:

La r�partition in�gale des donn�es: marquee de cat�gorie minimale seulement 14, alors que la plupart des cat�gories de chapiteau que 140w, s�v�re r�partition in�gale des donn�es.

bo�te de vidange standard: beaucoup de photos, il est seulement marqu� les principales cat�gories de petits objets ou un autre objet non-cible ne sont pas balis�s.

Par exemple les fuites d'images marqu�es

Changements � grande �chelle: la plupart des objets de l'ensemble du cadre de l'image que 0,1 ou moins, et certains comptes de chapiteau pour l'ensemble de la zone d'image. , Collection Open image V4 existe comme le montre la figure plus petits Objets, les participants devront faire face � des d�fis plus importants dans les donn�es de d�tection.

Contraste taille �chelle bloc de distribution

solutions

Pendant la course, l'�quipe Baidu prend une complexit� visuelle diff�rente, diff�rents mod�les de formation de r�seau de trames, et ces mod�les sont fusionn�s. cadre entier du programme peut �tre divis� en rapide R-CNN et plus rapide R-CNN deux modes de formation diff�rents. Rapide version R-CNN est une version de Baidu PaddlePaddle �quipe visuelle de la recherche et le d�veloppement, sur cette base, R-CNN plus rapide en ajoutant les derniers algorithmes de d�tection, la performance du mod�le FPN, Deformable, Cascade, etc., pour obtenir une am�lioration substantielle.

Le cadre g�n�ral du programme d'organigramme

Le r�seau ResNet-101 rapide R-CNN, la convergence du mod�le 0,481 peut �tre obtenue en ajoutant souple NMS et strat�gies de test multi-�chelle dans la phase de test, vous pouvez atteindre 0,508. Baidu aussi essayer un autre r�seau (dpn98, Inception-v4, Se-ResNext101), et l'algorithme de d�tection sur diff�rents r�seaux pour int�grer ensemble, peuvent atteindre la finale 0,546 mAP. Proposition de la phase d'�chantillonnage, Baidu diff�rentes �chelles � diff�rents endroits pour g�n�rer un bloc candidat, puis ils sont class�s chapiteau et ajuster leur position.
Plus rapide R-CNN: Dans ce cadre peut obtenir l'effet d'un peu rapide R-CNN, la carte 0,495. Apr�s l'utilisation de strat�gies et d'essai NMS souple multi-�chelle dans la phase de test, la performance a atteint 0,525.
Deformable convolutifs R�seaux: avant et apr�s l'utilisation de strat�gies et d'essai souple NMS multi-�chelle, la performance respectivement 0,528 et 0,559.
Cascade R-Deformable CNN: Soft NMS avant et apr�s l'utilisation et la politique de test multi-�chelle, les performances peuvent atteindre, respectivement, 0,581 et 0,590.

Dans rapide cadre R-CNN, l'�quipe visuelle Baidu utilise un autre r�seau est form�, alors que dans le cadre plus rapide R-CNN ResNet101 formation utilisations seulement un tel r�seau. Pendant la formation, l'�quipe visuelle Baidu r�soudre aussi efficacement les diff�rents probl�mes techniques gr�ce � diff�rentes strat�gies. Les d�tails sont les suivants:

L'�chantillonnage dynamique

Google Open Images V4 ensemble de donn�es image sur les 170W, 1220W chapiteau, 500 cat�gories d'informations. Le plus grand chapiteau de la cat�gorie sur le 140w, la plus petite cat�gorie seulement 14 chapiteau, si nous utilisons simplement toutes les images et chapiteau, des dizaines de jours requis pour former le mod�le, et il est difficile form� un mod�le impartial. Par cons�quent, la n�cessit� d'�chantillonnage dynamique dans le processus de formation, si le nombre d'�chantillons � plus de r�duire l'�chantillonnage probabiliste, et le nombre d'�chantillons allant de l'augmentation de l'�chantillonnage probabiliste. Baidu �quipe visuelle des donn�es d'ensemble ont �t� la formation, sous chapiteau fixe de la formation, la formation du mod�le d'�chantillonnage dynamique trois strat�gies ont �t�.

Collecte de donn�es Formation: fournir des donn�es de formation conform�ment aux organisateurs, mAP 0,50.
Marquee fixe des sous-ensembles de la formation: au bloc 1000 pour s�lectionner la ligne est fix�e pour chaque classe jusqu'�, mAP 0,53.
Des �chantillons de formation de mod�le dynamique: pour chaque GPU, chaque Epoch utilisant l'�chantillonnage dynamique en ligne, l'acquisition de donn�es est diff�rent � chaque fois, apr�s un certain nombre de tours, l'ensemble du corpus de donn�es de formation peuvent participer ensemble. Enfin 0,56 carte.

strat�gie d'�chantillonnage dynamique

FPN

Sur la base de l'analyse de la formation ensemble de donn�es, l'�quipe a constat� que Baidu �chelle visuelle 500 cat�gories est tr�s diff�rente. FPN ils seront introduits dans le mod�le de d�tection, � savoir l'utilisation de la structure pyramidale � plusieurs niveaux multi-�chelles construit les caract�ristiques du r�seau de la pyramide. Dans l'exp�rience, comme l'�quipe visuelle ResNet101 Baidu au r�seau f�d�rateur, � diff�rents stades de la couche finale est ajout�e du c�t� haut vers le bas connexion. Proc�d� de haut en bas est r�alis�e sur-�chantillonnage, le niveau de la connexion est le r�sultat de l'�chantillonnage de la carte de caract�ristiques g�n�r� est mis en commun � partir du bas vers le haut de la m�me taille. Apr�s la fusion, un r�sultat d'int�gration 3 * 3 convolution pour chaque �chantillon afin d'�liminer les effets de cr�nelage. Notamment, le FPN devrait �tre int�gr� dans le r�seau RPN pour g�n�rer diff�rentes �chelles et int�gre la fonction d'entr�e r�seau RPN. Enfin, mAP apr�s l'introduction de jusqu'� 0,528 FPN.

R�seaux Deformable Convolution

Baidu �quipe visuelle utilise une capacit� de mod�lisation du r�seau de neurones de convolution d�formable am�lior� CNNs. distorsion Convolution peut �tre consid�r� dans le r�seau sans la n�cessit� d'une surveillance accrue, � travers l'�tude des objectifs et des t�ches de points d'�chantillonnage spatiales dans le module de d�calage suppl�mentaire. Pendant ce temps appliqu� d�formable � un r�seau de convolution ResNet101 plus rapide de l'architecture R-CNN en tant que r�seau de base, et la res5a de ResNet101, 5b, apr�s l'application de la couche de convolution couche d�formable 5c, et la couche d�formable ROI pooling am�liore la sensibilit� de la position couche ROI Pooling. MAP d�formable performances du r�seau convolutionnel est 0,552.

Cascade R-CNN

La concurrence, Baidu �quipe visuelle utilise une cascade de R-CNN pour former le mod�le de d�tection. En plus de la formation du mod�le de base, contenant �galement des fonctions cinq �chelle r�seau pyramide (le FPN) et trois dimensions ancres RPN le r�seau. De plus, ils ont form� un petit mod�le de classe 150 cat�gorie moins bonnes performances pour l'ensemble du mod�le de classe, et le mod�le de la classe 150 a �t� �valu�e s�par�ment. Il a conclu que, le mod�le de la classe 500 est mAP 0,477, et le remplacement des r�sultats apr�s la classe 150 de classe 500150 avec un seul r�sultat de formation mod�le, mod�les promu 0,498 Plan. Performance des mod�les mono-�chelle en utilisant la m�thode ci-dessus de la formation est 0,573.

Astuces test

Apr�s l'�tape de traitement, l'�quipe Baidu utilise une m�thode visuelle souple NMS et de test multi-�chelle. endroit doux NMS apr�s une m�thode de NMS, l'am�lioration de 0,5-1,3 points dans diff�rents mod�les, tandis que les essais multi-�chelle, il 0,6-2 points de levage dans diff�rents mod�les.

mod�le Fusion

Pour chaque mod�le, Baidu �quipe devrait NMS Vision apr�s bo�te englobante. bloc de pr�diction � partir de diff�rents mod�les en utilisant une version modifi�e du SMN combin� comme suit:

Pour chaque mod�le, d'un poids scalaire entre 0 et 1 en poids. somme du poids de tous les poids est �gal � 1;
Obtenu � partir de la zone de d�limitation de chaque score de confiance de mod�le multipli� par un poids correspondant � son poids;
Le mod�le combin� obtenu � partir de la totalit� du bloc pr�dit et en utilisant le NMS, sauf Baidu score de mani�re superpos�e en utilisant diff�rents mod�les au lieu de ne retenir que les points les plus hauts du mod�le, dans cette �tape, la valeur de seuil est de 0,5 IOU.

(Fin)

Route de la soie

Apprenez � conna�tre la Chine

Dry | gains de l'�quipe Baidu une d�tection de cible visuelle ECCV Google AI gagnant du concours, programme prim� complet d'interpr�tation | ECCV 2018