algorithme Champion interprétation COCO2018 Keypoint

Note de Lei Feng réseau AI Technology Review: L'auteur skicy Yu, savent presque colonne à l'origine paru dans le réseau Lei Feng autorisé.

Cette colonne est notre principale utilisation de l'équipe de détection ++ visage de change, partager une partie de notre travail interne, mais aussi l'espoir que les autres élèves là pour apprendre de l'expérience et les leçons apprises. En outre, espère sincèrement que les étudiants intéressés à se joindre à nous (vous pouvez me contacter, yugang @ megvii.com), faire un travail significatif ensemble. Informations de base au sein de notre groupe de diapositives présentées. La première phase est que nous faisons COCO squelette du travail 2018. Les résultats suivants de notre première vidéo sur un modèle: les résultats de COCO2018 KeyPoint montrent.

fond

Le point clé de la détection de corps humain (Keypoint détection Humain), également connu comme la reconnaissance des gestes humain, conçu pour localiser avec précision la position de l'image entre les points clés du corps, la reconnaissance de mouvement corporel, l'analyse du comportement humain, prédécesseur d'interaction homme-machine. Comme l'un de la recherche de vision informatique populaire indispensable, la reconnaissance du geste humain a beaucoup de scènes d'atterrissage et de larges perspectives d'application et les applications existantes sont disponibles sur la scène de la reconnaissance de la démarche humaine, jeux somatosensoriel, AI du corps, la réalité virtuelle , la réalité augmentée, la réadaptation, l'éducation physique, etc., peut être largement mis sous tension dans les jeux, mobiles, médicaux, l'éducation, et d'autre réalité numérique dans différents domaines.

Les principales tâches pour le corps humain pour détecter la vraie vie a beaucoup d'utilisations potentielles, le jeu en cours ouvert est le plus autoritaire piste de course MS COCO Keypoint, mais aussi les plus difficiles domaines du jeu, les équipes ne manquent pas de Facebook, Google et Microsoft ce géants internationaux, il y a quelques CMU et d'autres entreprises de recherche en haut, il est la pierre de touche des méthodes les plus avancées dans le domaine. Kuang comme la technologie de détection de groupe en 2017,2018 a remporté le championnat deux fois par an, en 2017, que le travail de championnat Kuang CPN COCO Keypoint de grande envergure dans l'industrie, et l'accès à largement utilisé. Ici, nous allons introduire le désert, comme l'uvre gagnante du jeu COCO Keypoint 2018.

méthode de reconnaissance Mainstream de la posture du corps humain est actuellement divisé en deux types: une seule étape et en plusieurs étapes, bien que celle-ci est plus approprié selon la nature de la tâche de grossière à la logique de bien, mais il semble y avoir pas mieux que la performance de la méthode en une seule étape, nous pensons que le multi-stade actuel la méthode de rendement insatisfaisant est principalement attribuable à une variété de conception déraisonnable. Notre travail de 1) la conception du réseau, 2) les caractéristiques d'écoulement, 3) fonction de perte est proposé de lancer une série d'améliorations, les résultats des travaux au-delà de la meilleure façon disponible en cours pour obtenir des résultats sur les ensembles de données MS COCO KeyPoint, documents ont été divulgués dans Arxiv, voir le lien: https: //arxiv.org/abs/1901.00148

introduction

Figure 1

Après réseau profondeur de convolution apparaît, le développement rapide de la reconnaissance des gestes humains. Présenter les meilleures pratiques structure du réseau est relativement simple, la plupart du temps la conception du réseau monophasé, comme 2017 COCO Keypoint méthode champion Défi architecture réseau basée ResNet-Inception, le dernier simple de base ResNet en utilisant la structure du réseau. Une autre structure de réseau est la conception du réseau à étages multiples, à savoir, les éléments du réseau comme un réseau léger, il suffit à plusieurs étages empilés.

Intuitivement, à plusieurs étapes naturelles des fonctions d'optimisation progressive seront plus appropriés pour cette tâche, mais le réseau multi-étages qui existe actuellement pas de phase unique du réseau et de bons résultats sur le COCO. Nous avons essayé d'étudier cette question difficile, la mauvaise performance réseau actuel en plusieurs étapes est principalement due à un manque de conception, et par une série de 1) la structure du réseau, 2) les caractéristiques d'écoulement, les aspects innovants de la fonction 3) la perte d'optimisation maximiser explorer le potentiel de réseau en plusieurs étapes, pour obtenir des résultats les plus avancés.

Par conséquent, nous vous proposons un nouveau type de réseau d'estimation de pose à plusieurs niveaux MSPN, des améliorations spécifiques a trois aspects:

  • Actuellement, le réseau de l'unité réseau à plusieurs étages relativement loin de l'utilisation optimale du réseau éprouvé (comme Resnet) processus à plusieurs étapes que le courant dominant (comme le sablier) bien meilleur usage du réseau léger, la raison principale est l'échantillonnage Encoder besoin de transporter plus de contenu, réseau léger ne peut pas répondre.

  • En raison de sous-échantillonnage répété, les informations suréchantillonnage seront perdues au détriment de l'apprentissage, nous proposons une intégration à plusieurs étapes fonctionnalités pour améliorer le flux d'informations, pour remédier à ce problème.

  • Nous avons observé que le positionnement des points clés est très bien optimisé, étape par étape, de grossière à fine donc des stratégies d'apprentissage proposées, multi-échelle et d'améliorer la supervision et la formation. Vu de la figure 1, lorsque la capacité du réseau de levage en une seule étape, la précision sera proche de la saturation, et la croissance du goulot d'étranglement;. Le réseau multi-étages dominante actuelle, lors de l'empilage plus de deux éléments du réseau, améliorer la précision très limitée. Pour MSPN nous vous proposons, avec l'augmentation du nombre d'éléments empilés du réseau, l'exactitude continuera à améliorer.

  • En référence MS COCO, MSPN obtenu sur l'ensemble de données de test dev 76,1 AP, dans le MS COCO 2018, le test-dev a atteint 78,1 AP, test défi 76,4 AP, par rapport au vainqueur de l'an dernier 4,3 améliorer AP. -------- --------- réseau à plusieurs étages

    Figure 2

    MSPN pose estimation réseau multi-étages représenté sur la figure. Il utilise un cadre de haut en bas, à savoir, le premier à utiliser le bloc algorithme de détection de corps humain donné, de sorte que des nattes, et l'estimation de la pose du corps unique. Comme décrit ci-dessus, il y a trois points MSPN rupture: d'abord, une meilleure classification d'image en utilisant la performance du réseau (par exemple, le ResNet) comme éléments de réseau à plusieurs étages du réseau, d'autre part, proposées informations de transfert par étapes rassemblés réduire la perte d'information , en troisième lieu, supervisé par l'introduction de grossière à fine, multi-échelle et de supervision.

    ------ sous-unité de conception unique de réseau de phase efficace -----

    Tableau 1

    mainstream actuel réseau en plusieurs étapes toutes basées variantes Hourglass. D'après le tableau 1, et sous-échantillonnage d'ascendance processus suréchantillonnage est répété le nombre de canaux est la même couche de convolution. En effet, l'information sémantique de haut niveau est plus fort, plus les besoins de caractérisation des canaux.

    L'échantillonnage suivant, variante Hourglass conduira à fonction de codage (codeur) ne peut pas être bien caractéristiques exprimées, ce qui les informations caractéristiques sur un certain degré de perte. Par rapport à l'échantillon, dans lequel l'échantillon est difficile de caractériser de manière davantage préférée, la capacité du réseau est la phase d'échantillonnage accrue sera plus efficace pour l'ensemble du réseau.

    -------------- ------------- intégration propose à travers la scène

    Figure 3

    réseau multi-étages à répéter le processus d'échantillonnage et sous-échantillonnage peut facilement conduire à la perte d'information, nous proposons une méthode de fusion efficace fonctionnalité croisée scène pour faire face à ce phénomène. 3, l'étage supérieur, dans lequel la phase d'échantillonnage à travers la partie de convolution 1x1 de l'échantillon a été ajouté à un stade ultérieur, dans le but de réaliser la fusion entre le dispositif à étages multiples, atténuer efficacement les caractéristiques de perte.

    --------------- -------------- supervision de grossière à fine

    Figure 4

    estimation de la pose humaine si vous souhaitez localiser une des articulations les plus difficiles (comme les articulations cachées) nécessite un fort champ d'information contextuelle. Pendant ce temps, pour la tâche en fonction de la heatmap de retour en tant que noyau gaussien GT est plus petite, la précision de régression quasi. Compte tenu de ce qui précède deux points, combinés avec le réseau à plusieurs étages de ses propres caractéristiques d'optimisation progressive progressive, nous proposons des méthodes de surveillance sur la base grossière à fine en plusieurs étapes par. manière heatmap superviser chaque étape diminue progressivement noyau gaussien peut être souhaitable de prendre en compte les informations de contexte et de précision que le terrain. Depuis le milieu de la supervision ont de meilleurs résultats pour la profondeur des réseaux de neurones , nous avons également utilisé le milieu de superviser multi-échelle à chaque étape.

    ------------- ------------- expérimentale

    Des expériences, nous avons utilisé MegDet obtenir boîtier de détection humaine, et l'utilisation COCO (80 classes) parmi les personnes dans cette catégorie en raison du corps humain un résultat, pas une seule personne pour la formation. Avant de creuser, rapport d'aspect de trame étendue de 4: 3. La formation, nous utilisons Adam comme la stratégie d'optimisation, 5E-4 Taux d'apprentissage initial, poids Decay est 1E-5. la mise en valeur des données, la principale bascule d'utilisation, une rotation (-45 degrés à +45 degrés), mise à l'échelle (0,7 à 1,35). taille de l'image d'entrée du réseau d'estimation de pose est 384x288. Ablation, la taille de l'image d'entrée est 256x192. Test, suivi dans la stratégie, à savoir en utilisant la moyenne inversé, la position de la valeur maximale est décalée vers une position 1/4 fois grande que la position finale. Toutes les expériences d'ablation menées sur COCO minival.

    ablation

    Multi-étages réseau

    Grâce à une série de vérification expérimentale de plusieurs étapes de l'importance de la conception de notre réseau.

    Tableau 2

    Tout d'abord, nous avons augmenté la complexité de la performance d'un modèle à un seul étage par le réseau d'observation expérimentale. A partir du tableau 2, ResNet-50 comme une seule étape la précision du réseau Backbone peut atteindre 71,5, ResNet-101 peut augmenter de 1,6 point, mais a continué à augmenter à une plus grande complexité, améliorer la précision d'amplitude devient progressivement plus petit, proche de la saturation.

    Tableau 3

    Nous avons également comparé la différence entre le courant dominant actuel réseau en plusieurs étapes Hourglass avec le travail en termes d'amélioration de la précision. Il ressort du tableau 3, sablier superposé à la seconde étape de levage de la nouvelle étape est très limitée: les deux étages à huit étapes, trois fois la quantité d'augmentation de calcul et la précision n'a augmenté que de 0,7 AP. la croissance Hourglass par rapport à la nouvelle phase limitée, MSPN continuera d'améliorer la précision de recouvrement au-dessus des deux premières étapes.

    Afin de vérifier notre réseau à plusieurs niveaux à améliorer efficacement la généralisation, nous essayons de mettre d'autres éléments de réseau du réseau. Comme le montre le Tableau 4, ResNet-18 en deux étapes sera légèrement plus élevé que le réseau ResNet-50 seule étape quantité considérable de calcul. Une petite quantité de l'étape de calcul 4-réseau ception de X sera plus élevée que la presque 1 PA seule étape de calcul de calculs avec le réseau ception X.

    Tableau 4

    fonction Cross-étape de fusion et de surveillance grossière à fine

    Tableau 5

    Tableau 5 expériences peuvent être vérifiées et l'efficacité de l'intégration dispose sur la scène de gros à la surveillance fine. Pour l'étape MSPN Hourglass 4 et étape 2 au moyen de ce qui précède deux stratégies consistent à réaliser des points.

    ------------ ------------- résultats

    Tableau 6

    Tableau 7

    Les tableaux 6 et 7, respectivement méthode de différence de précision de classement MSPN sur les données de test dev courant optimal de COCO COCO ensemble et test de provocation ensemble de données. Comme on le voit, plus que les meilleures pratiques actuelles MSPN, ce qui conduit 2.3 AP sur le test-dev, conduisant 1,9 AP sur le test de provocation.

    --------------- Résumé ----------------

    Nous vous proposons d'estimer une idées de conception de réseau à plusieurs étages plus efficaces pour la posture du corps et de vérifier la validité des expériences complètes, la rupture du réseau grâce à la précision actuelle des goulots d'étranglement dans les ensembles de données de COCO, pour parvenir à un nouvel état de l'art. Nous avons également vérifié la généralisation de la conception du réseau du travail en plusieurs étapes impliquées.

    Les résultats de la figure -------------- -----------

    Figure 5

    La chose importante Encore une fois, nous vous invitons à rejoindre les étudiants face ++ l'équipe de détection, CV peuvent être affichés à yugang@megvii.com

    référence

    Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu, et J. Soleil réseau pyramide pour cascadé estimation de la pose de plusieurs personnes. Prépublication ArXiv, 2018.

    . B. Xiao, H. Wu, et Y. Wei lignes de base simples pour l'estimation de pose humaine et le suivi arXiv prépublication arXiv :. 1804,06208, 2018.

    C. Szegedy, W. Liu, Y. Jia, P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke et A. Rabinovich. En approfondissant avec circonvolutions. Dans Proceedings of the IEEE conférence sur la vision par ordinateur et reconnaissance de formes, pages 1-9, 2015.

    C. Peng, T. Xiao, Z. Li, Y. Jiang, X. Zhang, K. Jia, G. Yu, J. et Sun. Megdet :. Un grand mini-lot détecteur d'objet dans Proceedings of the Conférence IEEE sur l'ordinateur Vision et reconnaissance des formes, pages 6181-6189, 2018.

    A. Newell, K. Yang et J. Deng. Réseaux Hourglass Stacked pour l'estimation de pose humaine. Dans la Conférence européenne sur l'ordinateur Vision, pages 483-499. Springer, 2016.

    ------- --------- interprète introduit

    Chris Wang, directeur du département informatique de l'Université de Tsinghua, est maintenant un désert, comme le chercheur de la technologie, l'estimation de la posture du corps de la personne en charge, algorithme champion COCO Keypoint CPN, MSPN co-premiers auteurs, couvertures de recherche l'estimation de la pose du corps humain et de suivi, la reconnaissance de l'action humaine, et au-dessus direction avec une longue étude approfondie, 2017,2018 ans à la tête de la reconnaissance des gestes humains a conduit à participer à la course COCO (Keypoint humaine de détection), a remporté deux fois le premier prix.

    SKT monde entier à suivre le système de rotation? Inventaire S8 saison 10 sur le banc, tous sont le rôle impitoyable
    Précédent
    Le SUV est avéré être cinq voitures, pourquoi soudainement lancer des versions sept?
    Prochain
    Il a changé le Serpent: Rookie Guoguo, est de savoir comment faire l'équipe, « le serpent du dragon »?
    Tant que vous avez lu le premier épisode, vous allez adorer « rivières »!
    Il est avéré qu'il est le destin de cochon Luo Xin? Sika est devenu duo explosif, rideau Ensoleillé Piggy
    Infiniti Prototype 9 chiffre officiel publié style rétro
    Harbin défiguré femme a été volé: dossier de la police des affaires pénales ont perdu, porter un jugement de la Cour du yin et du yang
    Que la « fille du génie » meilleur cent fois au monde, est le plus haut niveau d'esprits petites amies, la vie et la mort
    La ville de chaussures de novembre vidé votre corps, dans une semaine deux paires vente de la chaîne YEEZY
    LPL va ouvrir la voie à l'âge d'or! Cinq étonnamment recrue domestique, l'avenir peut être
    L'exposition plan de voiture électrique Skoda poussera 20255 modèles
    prix importants maximisé « Mme Mai Seer » de retour en 2018 et, enfin, un drame incontournable!
    Ruby Ross interprétation personnelle de la violence familiale SF-AF1 Salut sur le marché! Sac fourre-tout en sortant à nouveau!
    1500W sur la viande Hunzi! Doinb même fosse 3 manches sur RW mal, l'utilisateur: Hikari en détresse avec fixe