AAAI 2020 | poli avec détection cible progressive et significative des résultats optimaux

Publié: Progressive Feature Réseau de polissage pour la détection d'objets Sallent

Adresse Papers: https: //arxiv.org/abs/1911.05942

Cet article papier de réception de AAAI2020

Interprétation de: BBuf

Résumé: Les caractéristiques de l'image est très importante pour une détection cible importante. Principalement dans le procédé classique destiné à incorporer des caractéristiques structurelles complexes et un filtre à plusieurs étages sur des caractéristiques confondant. Cet article présente un nouveau caractéristiques du réseau de broyage progressif (PFPN), peuvent détecter des cibles importantes aux détails fins ponçage caractérisé par l'utilisation d'une pluralité de modules répéter (FPM), et sans aucun post-traitement. En fusionnant les FPM informations de contexte directe de haut niveau mis à jour en parallèle, et dans lequel chaque niveau de la hiérarchie peut être retenu et la taille de l'une des cartes de caractéristiques, ce qui fait qu'elle peut être appliquée à toute structure CNN. PFPN sur 5 ensembles de données de référence obtenues SOTA.

1. Introduction et contribution

Détection cible importante dans l'image est conçue pour extraire la région la plus attractive, il a été largement utilisé dans la vision par ordinateur, telles que la compression vidéo, le suivi visuel et recherche d'images. image test de signification dépend des caractéristiques sémantiques, y compris les caractéristiques de bas niveau et des caractéristiques de haut niveau.

Par conséquent, afin d'utiliser les détails de caractéristiques sémantiques, diverses caractéristiques de fusion émergentes. Cependant, en raison de certaines caractéristiques au niveau de fonction est pas exacte, les dépendances à long terme entre les fonctions, de grande hauteur affecter la sous-utilisées propose un service capacité de détecter la cause des restes de problèmes difficiles. Pour profiter pleinement de l'information sémantique et en détail, ce document présente un simple et des caractéristiques du réseau de ponçage progressif efficace. La contribution de cet article est la suivante:

Dans le présent document, dans lequel une sorte de significative progressive pour le broyage réseau de détection de cible de manière récursive améliorer progressivement les caractéristiques.

Pour chaque étape de broyage, le document propose d'affiner les caractéristiques FPM, retenant ainsi la taille de la fonction et de la structure hiérarchique de la figure. Il a avancé l'information sémantique intégrée directement dans toutes les fonctions de bas niveau pour éviter les problèmes de dépendance à long terme.

Le 5 ensembles de données de référence sont obtenus précision SOTA.

2, procédé

2.1 Structure générale

caractéristique importante progressive pour la détection d'objet poli configuration globale d'un réseau comme indiqué dans Figure2.

Tout d'abord, l'image d'entrée est introduit dans le réseau de base d'une pluralité de caractéristiques extraites échelles. Le document a choisi de faire ResNet-101 réseau fédérateur. Alors que le réseau fédérateur ne VGG16 résultats de papier ont également démontré dans la section expérimentale.

Plus précisément réseau ResNet-101 peut être divisé en 5 blocs avec stride = 2 de l'opération d'échantillonnage. . Cette caractéristique de sortie de la figure 5 peut être exprimé sous la forme du bloc: Conv-1, Res-2, 3-Res, Res-4, 5-Res. Pour réduire la taille des caractéristiques du profil figure de manière à obtenir plus, les caractéristiques d'un premier passage à travers le module de conversion figure (Figure2 dans le TM1), dans lequel chaque niveau par la convolution 1x1 est converti en fonction des mêmes dimensions, par exemple, dans notre mise en uvre pour 256.

Après l'obtention d'une pluralité de caractéristiques de mêmes dimensions, série FPM de modules sont reliés les uns derrière les caractéristiques de l'établissement pour le raffinage Fig. Figure 2 montre un exemple d'un T = 2. Dans chacun des FPM, les caractéristiques de haut niveau sont introduits directement dans la fonction de bas niveau à tous améliorer, ce qui est plus efficace que de manière indirecte et réduit de manière significative la perte d'informations. entrées et sorties FPM ont les mêmes dimensions et tous partageant les mêmes FPMs structure du réseau.

Nous utilisons différents paramètres pour chacun des FPM, afin qu'ils puissent apprendre progressivement de plus en plus concentrés sur les détails. Les expériences montrent que lorsque le temps T = 2, le modèle a montré une précision SOTA et la vitesse de 20fps.

Puis, en utilisant le modèle du second module de convertisseur (TM2 Figure2 in), qui est ensuite échantillonné par une convolution bilinéaire constitué d'un 1x1, échantillonner directement la résolution de l'image d'origine et le nombre de canaux sur la cible comprimé 32.

Enfin, un module de fusion (FM) est utilisé pour obtenir la pluralité de fusion finale de caractéristique maps figure significative. En raison des caractéristiques de l'utilisation de FPM après une représentation plus précise, donc FM utilise une stratégie simple à réaliser la série, et le mode d'utilisation finale pour former le réseau.

2.2 dans lequel le module de meulage

Caractérisé par le module de meulage (FPM) est la composante de base du réseau en papier PFPN proposé, FPM est un module simple et efficace, ainsi que toute convolution peut utiliser pour améliorer la représentation géométrique d'entités de réseau.

Il conserve le multi-niveau fonctionnalités généré CNN, par exemple, ou un tronc ou une sortie avant du FPM, et apprendre à utiliser la connexion résiduelle les mettre à jour. N, dans lequel la Fig. F = {fi, i = 1, ..., N}, FPM produire la même taille après broyage du diagramme caractéristique N F ^ {p} = {fi ^ p, i = 1, .. ., N}, comme le montre la figure 2, FPM FPM comprenant N modules parallèles, chacun correspondant à une seule fonction et exprimée en figure FPM-k.

Plus précisément, en utilisant le résidu relié d'un côté à la face profonde de la profondeur. En conséquence, les informations caractéristiques de haut niveau ayant injecté directement dans le global niveau inférieur dispose aux zones d'aide jugées nettement mieux. Dans la Figure 2 est FPM1-3, Res-3, Res-4, caractérisé par Res-5 ont été mis à jour pour la connexion raccourci Res-3. avantages FPM également absorbé réseau résiduel (He et al. 2016), de sorte qu'il peut être mis à jour et caractérisés informations confuses figure progressivement filtrée.

Ceci est illustré par les différentes connexions dans Figure2. $ $ FPM-k modules mis en oeuvre peuvent être formulées comme suit:

Il accepte N-k + 1 caractéristique comme la figure {fj, j = k, .., N}. Pour la figure caractéristique fj, nous avons d'abord utilisé un des composants convolution 3x3 + BN + Relu pour capturer des informations sémantiques, qui est ensuite interpolée à la taille fk. Après ces caractéristiques de l'échantillon après interpolation en utilisant la fusion de concat, puis par une réduction de la convolution 1x1 de dimensionnalité obtenu pk. Pk est alors traitée comme fonctions résiduelles pour mettre à jour les caractéristiques originales de la figure fk calculées dernière caractéristique figure F_k ^ p. Quand un temps de 3 k = exemple comme représenté sur la Figure 3.

2.3 Module d'intégration

Papier en utilisant le module de fusion (FM) pour faire fondre la pluralité de caractéristiques et pour détecter des objets significatifs de la FIG. Comme le montre la Figure 2, la première multi-niveau comprend TM2 est Concat, puis 3x3 convolution en deux couches. Ensuite, la carte finale saillance une convolution 1x1 dans la dernière couche.

2.4 les détails de mise en uvre

Papier en utilisant la perte d'entropie croisée pour optimiser la carte de saillance finale et a marqué une carte importante. Les auteurs ont ensuite utilisé une perte secondaire, l'optimisation spécifique est une série de résultats intermédiaires avant le module FM, la perte nette totale finale comme suit:

3. Les résultats expérimentaux

Les Table1 montre les méthodes décrites ici dans les cinq ensembles de données ont été obtenues de précision SOTA, nous démontrons l'efficacité de cette méthode.

4, l'affichage visuel

5. Conclusion

Pour tirer le meilleur parti des informations et des détails sémantiques, ce document présente une simple et les caractéristiques du réseau de broyage progressives efficaces (PFPN). caractéristiques PFPN contribuent à la raffinée progressive d'une manière récursive pour améliorer le diagramme caractéristique multi-niveau indiquant, pour chaque étape de caractéristiques de polissage, sont caractérisés par le module de meulage (FPM) l'information sémantique de haut niveau intégré directement dans le niveau inférieur de toutes les caractéristiques dans les dessins, réduisant ainsi la perte d'informations. Enfin, le 5 PFPN référence de la performance est nettement mieux que les 16 types de méthodes les plus récentes.

Lei Feng Lei Feng Lei réseau de réseau de réseau Feng

CVPR 2020 | Image Discuter arbitraire: à grains fins contrôlée image description générée automatiquement
Précédent
Jinan Xiaoqing à la fois la récupération des côtés de toutes choses, elfe regarder particulièrement impressionnant dans la macro
Prochain
32 ans dans un « double homme le plus riche » rhétorique: laisser le soleil pour nous, parce que « la défaite pari. » Abandon
Nouvelle réglementation immobilière pour 2020, ces "3" frais de propriété ne doivent pas être payés, et vous pouvez même trouver une propriété "pour" de l'argent
10 ans à payer plus de sécurité sociale « une bonne affaire »! 15 ans et 25 ans de cotisations, les pensions peuvent effectivement recevoir plus de 600000
« Le quatrième barils de pétrole », le patron a fait faillite! Son rêve: construire privé, société mondiale d'énergie de la Chine
Chaoshan, « Le sang est la vie gravée dans la » sagesse d'affaires! 04h00 appris cela, vous pouvez devenir riche
« Chassés » sera complètement disparaître? 2 grande introduction nationale de la politique, les gens souffrent de classe 2, classe 1 personnes bénéficient
Il a gagné 18 milliards pour l'homme sur la production de produits « bien-être »! 7 défiant mot Gangster « déclaration de guerre » Millet
Depuis la fin de l'homme le plus riche Yanjiao « Cattle China King », « Li moitié de la ville, » âgé de 72 ans qui sort à nouveau, il est reconnu coupable des choses vérifiées
l'action du marché immobilier! « 2 New Deal » a été mis en place, « les trois principaux impôts » ou le plancher complet, touchant des centaines de millions de personnes
publicité Smashing comme "King Standard"! Son secrétaire au marié haut profil, âgé de 27 ans, gagné 27 milliards, parce que frères les uns contre les autres en prison
Il était le « réfrigérateur Big Brother », tout-puissant depuis de nombreuses années, est maintenant 455 millions vente de feu « prix de chou »
Une grande partie du marché immobilier, un bon moment pour acheter une maison? En fait, l'État a longtemps mise en page, ces deux personnes ont besoin d'attention