algorithme Champion interpr�tation COCO2018 Keypoint

Note de Lei Feng r�seau AI Technology Review: L'auteur skicy Yu, savent presque colonne � l'origine paru dans le r�seau Lei Feng autoris�.

Cette colonne est notre principale utilisation de l'�quipe de d�tection ++ visage de change, partager une partie de notre travail interne, mais aussi l'espoir que les autres �l�ves l� pour apprendre de l'exp�rience et les le�ons apprises. En outre, esp�re sinc�rement que les �tudiants int�ress�s � se joindre � nous (vous pouvez me contacter, yugang @ megvii.com), faire un travail significatif ensemble. Informations de base au sein de notre groupe de diapositives pr�sent�es. La premi�re phase est que nous faisons COCO squelette du travail 2018. Les r�sultats suivants de notre premi�re vid�o sur un mod�le: les r�sultats de COCO2018 KeyPoint montrent.

fond

Le point cl� de la d�tection de corps humain (Keypoint d�tection Humain), �galement connu comme la reconnaissance des gestes humain, con�u pour localiser avec pr�cision la position de l'image entre les points cl�s du corps, la reconnaissance de mouvement corporel, l'analyse du comportement humain, pr�d�cesseur d'interaction homme-machine. Comme l'un de la recherche de vision informatique populaire indispensable, la reconnaissance du geste humain a beaucoup de sc�nes d'atterrissage et de larges perspectives d'application et les applications existantes sont disponibles sur la sc�ne de la reconnaissance de la d�marche humaine, jeux somatosensoriel, AI du corps, la r�alit� virtuelle , la r�alit� augment�e, la r�adaptation, l'�ducation physique, etc., peut �tre largement mis sous tension dans les jeux, mobiles, m�dicaux, l'�ducation, et d'autre r�alit� num�rique dans diff�rents domaines.

Les principales t�ches pour le corps humain pour d�tecter la vraie vie a beaucoup d'utilisations potentielles, le jeu en cours ouvert est le plus autoritaire piste de course MS COCO Keypoint, mais aussi les plus difficiles domaines du jeu, les �quipes ne manquent pas de Facebook, Google et Microsoft ce g�ants internationaux, il y a quelques CMU et d'autres entreprises de recherche en haut, il est la pierre de touche des m�thodes les plus avanc�es dans le domaine. Kuang comme la technologie de d�tection de groupe en 2017,2018 a remport� le championnat deux fois par an, en 2017, que le travail de championnat Kuang CPN COCO Keypoint de grande envergure dans l'industrie, et l'acc�s � largement utilis�. Ici, nous allons introduire le d�sert, comme l'uvre gagnante du jeu COCO Keypoint 2018.

m�thode de reconnaissance Mainstream de la posture du corps humain est actuellement divis� en deux types: une seule �tape et en plusieurs �tapes, bien que celle-ci est plus appropri� selon la nature de la t�che de grossi�re � la logique de bien, mais il semble y avoir pas mieux que la performance de la m�thode en une seule �tape, nous pensons que le multi-stade actuel la m�thode de rendement insatisfaisant est principalement attribuable � une vari�t� de conception d�raisonnable. Notre travail de 1) la conception du r�seau, 2) les caract�ristiques d'�coulement, 3) fonction de perte est propos� de lancer une s�rie d'am�liorations, les r�sultats des travaux au-del� de la meilleure fa�on disponible en cours pour obtenir des r�sultats sur les ensembles de donn�es MS COCO KeyPoint, documents ont �t� divulgu�s dans Arxiv, voir le lien: https: //arxiv.org/abs/1901.00148

introduction

Figure 1

Apr�s r�seau profondeur de convolution appara�t, le d�veloppement rapide de la reconnaissance des gestes humains. Pr�senter les meilleures pratiques structure du r�seau est relativement simple, la plupart du temps la conception du r�seau monophas�, comme 2017 COCO Keypoint m�thode champion D�fi architecture r�seau bas�e ResNet-Inception, le dernier simple de base ResNet en utilisant la structure du r�seau. Une autre structure de r�seau est la conception du r�seau � �tages multiples, � savoir, les �l�ments du r�seau comme un r�seau l�ger, il suffit � plusieurs �tages empil�s.

Intuitivement, � plusieurs �tapes naturelles des fonctions d'optimisation progressive seront plus appropri�s pour cette t�che, mais le r�seau multi-�tages qui existe actuellement pas de phase unique du r�seau et de bons r�sultats sur le COCO. Nous avons essay� d'�tudier cette question difficile, la mauvaise performance r�seau actuel en plusieurs �tapes est principalement due � un manque de conception, et par une s�rie de 1) la structure du r�seau, 2) les caract�ristiques d'�coulement, les aspects innovants de la fonction 3) la perte d'optimisation maximiser explorer le potentiel de r�seau en plusieurs �tapes, pour obtenir des r�sultats les plus avanc�s.

Par cons�quent, nous vous proposons un nouveau type de r�seau d'estimation de pose � plusieurs niveaux MSPN, des am�liorations sp�cifiques a trois aspects:

Actuellement, le r�seau de l'unit� r�seau � plusieurs �tages relativement loin de l'utilisation optimale du r�seau �prouv� (comme Resnet) processus � plusieurs �tapes que le courant dominant (comme le sablier) bien meilleur usage du r�seau l�ger, la raison principale est l'�chantillonnage Encoder besoin de transporter plus de contenu, r�seau l�ger ne peut pas r�pondre.

En raison de sous-�chantillonnage r�p�t�, les informations sur�chantillonnage seront perdues au d�triment de l'apprentissage, nous proposons une int�gration � plusieurs �tapes fonctionnalit�s pour am�liorer le flux d'informations, pour rem�dier � ce probl�me.

Nous avons observ� que le positionnement des points cl�s est tr�s bien optimis�, �tape par �tape, de grossi�re � fine donc des strat�gies d'apprentissage propos�es, multi-�chelle et d'am�liorer la supervision et la formation. Vu de la figure 1, lorsque la capacit� du r�seau de levage en une seule �tape, la pr�cision sera proche de la saturation, et la croissance du goulot d'�tranglement;. Le r�seau multi-�tages dominante actuelle, lors de l'empilage plus de deux �l�ments du r�seau, am�liorer la pr�cision tr�s limit�e. Pour MSPN nous vous proposons, avec l'augmentation du nombre d'�l�ments empil�s du r�seau, l'exactitude continuera � am�liorer.

En r�f�rence MS COCO, MSPN obtenu sur l'ensemble de donn�es de test dev 76,1 AP, dans le MS COCO 2018, le test-dev a atteint 78,1 AP, test d�fi 76,4 AP, par rapport au vainqueur de l'an dernier 4,3 am�liorer AP. -------- --------- r�seau � plusieurs �tages

Figure 2

MSPN pose estimation r�seau multi-�tages repr�sent� sur la figure. Il utilise un cadre de haut en bas, � savoir, le premier � utiliser le bloc algorithme de d�tection de corps humain donn�, de sorte que des nattes, et l'estimation de la pose du corps unique. Comme d�crit ci-dessus, il y a trois points MSPN rupture: d'abord, une meilleure classification d'image en utilisant la performance du r�seau (par exemple, le ResNet) comme �l�ments de r�seau � plusieurs �tages du r�seau, d'autre part, propos�es informations de transfert par �tapes rassembl�s r�duire la perte d'information , en troisi�me lieu, supervis� par l'introduction de grossi�re � fine, multi-�chelle et de supervision.

------ sous-unit� de conception unique de r�seau de phase efficace -----

Tableau 1

mainstream actuel r�seau en plusieurs �tapes toutes bas�es variantes Hourglass. D'apr�s le tableau 1, et sous-�chantillonnage d'ascendance processus sur�chantillonnage est r�p�t� le nombre de canaux est la m�me couche de convolution. En effet, l'information s�mantique de haut niveau est plus fort, plus les besoins de caract�risation des canaux.

L'�chantillonnage suivant, variante Hourglass conduira � fonction de codage (codeur) ne peut pas �tre bien caract�ristiques exprim�es, ce qui les informations caract�ristiques sur un certain degr� de perte. Par rapport � l'�chantillon, dans lequel l'�chantillon est difficile de caract�riser de mani�re davantage pr�f�r�e, la capacit� du r�seau est la phase d'�chantillonnage accrue sera plus efficace pour l'ensemble du r�seau.

-------------- ------------- int�gration propose � travers la sc�ne

Figure 3

r�seau multi-�tages � r�p�ter le processus d'�chantillonnage et sous-�chantillonnage peut facilement conduire � la perte d'information, nous proposons une m�thode de fusion efficace fonctionnalit� crois�e sc�ne pour faire face � ce ph�nom�ne. 3, l'�tage sup�rieur, dans lequel la phase d'�chantillonnage � travers la partie de convolution 1x1 de l'�chantillon a �t� ajout� � un stade ult�rieur, dans le but de r�aliser la fusion entre le dispositif � �tages multiples, att�nuer efficacement les caract�ristiques de perte.

--------------- -------------- supervision de grossi�re � fine

Figure 4

estimation de la pose humaine si vous souhaitez localiser une des articulations les plus difficiles (comme les articulations cach�es) n�cessite un fort champ d'information contextuelle. Pendant ce temps, pour la t�che en fonction de la heatmap de retour en tant que noyau gaussien GT est plus petite, la pr�cision de r�gression quasi. Compte tenu de ce qui pr�c�de deux points, combin�s avec le r�seau � plusieurs �tages de ses propres caract�ristiques d'optimisation progressive progressive, nous proposons des m�thodes de surveillance sur la base grossi�re � fine en plusieurs �tapes par. mani�re heatmap superviser chaque �tape diminue progressivement noyau gaussien peut �tre souhaitable de prendre en compte les informations de contexte et de pr�cision que le terrain. Depuis le milieu de la supervision ont de meilleurs r�sultats pour la profondeur des r�seaux de neurones , nous avons �galement utilis� le milieu de superviser multi-�chelle � chaque �tape.

------------- ------------- exp�rimentale

Des exp�riences, nous avons utilis� MegDet obtenir bo�tier de d�tection humaine, et l'utilisation COCO (80 classes) parmi les personnes dans cette cat�gorie en raison du corps humain un r�sultat, pas une seule personne pour la formation. Avant de creuser, rapport d'aspect de trame �tendue de 4: 3. La formation, nous utilisons Adam comme la strat�gie d'optimisation, 5E-4 Taux d'apprentissage initial, poids Decay est 1E-5. la mise en valeur des donn�es, la principale bascule d'utilisation, une rotation (-45 degr�s � +45 degr�s), mise � l'�chelle (0,7 � 1,35). taille de l'image d'entr�e du r�seau d'estimation de pose est 384x288. Ablation, la taille de l'image d'entr�e est 256x192. Test, suivi dans la strat�gie, � savoir en utilisant la moyenne invers�, la position de la valeur maximale est d�cal�e vers une position 1/4 fois grande que la position finale. Toutes les exp�riences d'ablation men�es sur COCO minival.

ablation

Multi-�tages r�seau

Gr�ce � une s�rie de v�rification exp�rimentale de plusieurs �tapes de l'importance de la conception de notre r�seau.

Tableau 2

Tout d'abord, nous avons augment� la complexit� de la performance d'un mod�le � un seul �tage par le r�seau d'observation exp�rimentale. A partir du tableau 2, ResNet-50 comme une seule �tape la pr�cision du r�seau Backbone peut atteindre 71,5, ResNet-101 peut augmenter de 1,6 point, mais a continu� � augmenter � une plus grande complexit�, am�liorer la pr�cision d'amplitude devient progressivement plus petit, proche de la saturation.

Tableau 3

Nous avons �galement compar� la diff�rence entre le courant dominant actuel r�seau en plusieurs �tapes Hourglass avec le travail en termes d'am�lioration de la pr�cision. Il ressort du tableau 3, sablier superpos� � la seconde �tape de levage de la nouvelle �tape est tr�s limit�e: les deux �tages � huit �tapes, trois fois la quantit� d'augmentation de calcul et la pr�cision n'a augment� que de 0,7 AP. la croissance Hourglass par rapport � la nouvelle phase limit�e, MSPN continuera d'am�liorer la pr�cision de recouvrement au-dessus des deux premi�res �tapes.

Afin de v�rifier notre r�seau � plusieurs niveaux � am�liorer efficacement la g�n�ralisation, nous essayons de mettre d'autres �l�ments de r�seau du r�seau. Comme le montre le Tableau 4, ResNet-18 en deux �tapes sera l�g�rement plus �lev� que le r�seau ResNet-50 seule �tape quantit� consid�rable de calcul. Une petite quantit� de l'�tape de calcul 4-r�seau ception de X sera plus �lev�e que la presque 1 PA seule �tape de calcul de calculs avec le r�seau ception X.

Tableau 4

fonction Cross-�tape de fusion et de surveillance grossi�re � fine

Tableau 5

Tableau 5 exp�riences peuvent �tre v�rifi�es et l'efficacit� de l'int�gration dispose sur la sc�ne de gros � la surveillance fine. Pour l'�tape MSPN Hourglass 4 et �tape 2 au moyen de ce qui pr�c�de deux strat�gies consistent � r�aliser des points.

------------ ------------- r�sultats

Tableau 6

Tableau 7

Les tableaux 6 et 7, respectivement m�thode de diff�rence de pr�cision de classement MSPN sur les donn�es de test dev courant optimal de COCO COCO ensemble et test de provocation ensemble de donn�es. Comme on le voit, plus que les meilleures pratiques actuelles MSPN, ce qui conduit 2.3 AP sur le test-dev, conduisant 1,9 AP sur le test de provocation.

--------------- R�sum� ----------------

Nous vous proposons d'estimer une id�es de conception de r�seau � plusieurs �tages plus efficaces pour la posture du corps et de v�rifier la validit� des exp�riences compl�tes, la rupture du r�seau gr�ce � la pr�cision actuelle des goulots d'�tranglement dans les ensembles de donn�es de COCO, pour parvenir � un nouvel �tat de l'art. Nous avons �galement v�rifi� la g�n�ralisation de la conception du r�seau du travail en plusieurs �tapes impliqu�es.

Les r�sultats de la figure -------------- -----------

Figure 5

La chose importante Encore une fois, nous vous invitons � rejoindre les �tudiants face ++ l'�quipe de d�tection, CV peuvent �tre affich�s � yugang@megvii.com

r�f�rence

Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu, et J. Soleil r�seau pyramide pour cascad� estimation de la pose de plusieurs personnes. Pr�publication ArXiv, 2018.

. B. Xiao, H. Wu, et Y. Wei lignes de base simples pour l'estimation de pose humaine et le suivi arXiv pr�publication arXiv :. 1804,06208, 2018.

C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke et A. Rabinovich. En approfondissant avec circonvolutions. Dans Proceedings of the IEEE conf�rence sur la vision par ordinateur et reconnaissance de formes, pages 1-9, 2015.

C. Peng, T. Xiao, Z. Li, Y. Jiang, X. Zhang, K. Jia, G. Yu, J. et Sun. Megdet :. Un grand mini-lot d�tecteur d'objet dans Proceedings of the Conf�rence IEEE sur l'ordinateur Vision et reconnaissance des formes, pages 6181-6189, 2018.

A. Newell, K. Yang et J. Deng. R�seaux Hourglass Stacked pour l'estimation de pose humaine. Dans la Conf�rence europ�enne sur l'ordinateur Vision, pages 483-499. Springer, 2016.

------- --------- interpr�te introduit

Chris Wang, directeur du d�partement informatique de l'Universit� de Tsinghua, est maintenant un d�sert, comme le chercheur de la technologie, l'estimation de la posture du corps de la personne en charge, algorithme champion COCO Keypoint CPN, MSPN co-premiers auteurs, couvertures de recherche l'estimation de la pose du corps humain et de suivi, la reconnaissance de l'action humaine, et au-dessus direction avec une longue �tude approfondie, 2017,2018 ans � la t�te de la reconnaissance des gestes humains a conduit � participer � la course COCO (Keypoint humaine de d�tection), a remport� deux fois le premier prix.

Route de la soie

Apprenez � conna�tre la Chine

algorithme Champion interpr�tation COCO2018 Keypoint