Publié: Progressive Feature Réseau de polissage pour la détection d'objets Sallent
Adresse Papers: https: //arxiv.org/abs/1911.05942
Cet article papier de réception de AAAI2020
Interprétation de: BBuf
Résumé: Les caractéristiques de l'image est très importante pour une détection cible importante. Principalement dans le procédé classique destiné à incorporer des caractéristiques structurelles complexes et un filtre à plusieurs étages sur des caractéristiques confondant. Cet article présente un nouveau caractéristiques du réseau de broyage progressif (PFPN), peuvent détecter des cibles importantes aux détails fins ponçage caractérisé par l'utilisation d'une pluralité de modules répéter (FPM), et sans aucun post-traitement. En fusionnant les FPM informations de contexte directe de haut niveau mis à jour en parallèle, et dans lequel chaque niveau de la hiérarchie peut être retenu et la taille de l'une des cartes de caractéristiques, ce qui fait qu'elle peut être appliquée à toute structure CNN. PFPN sur 5 ensembles de données de référence obtenues SOTA.
1. Introduction et contribution
Détection cible importante dans l'image est conçue pour extraire la région la plus attractive, il a été largement utilisé dans la vision par ordinateur, telles que la compression vidéo, le suivi visuel et recherche d'images. image test de signification dépend des caractéristiques sémantiques, y compris les caractéristiques de bas niveau et des caractéristiques de haut niveau.
Par conséquent, afin d'utiliser les détails de caractéristiques sémantiques, diverses caractéristiques de fusion émergentes. Cependant, en raison de certaines caractéristiques au niveau de fonction est pas exacte, les dépendances à long terme entre les fonctions, de grande hauteur affecter la sous-utilisées propose un service capacité de détecter la cause des restes de problèmes difficiles. Pour profiter pleinement de l'information sémantique et en détail, ce document présente un simple et des caractéristiques du réseau de ponçage progressif efficace. La contribution de cet article est la suivante:
Dans le présent document, dans lequel une sorte de significative progressive pour le broyage réseau de détection de cible de manière récursive améliorer progressivement les caractéristiques.
Pour chaque étape de broyage, le document propose d'affiner les caractéristiques FPM, retenant ainsi la taille de la fonction et de la structure hiérarchique de la figure. Il a avancé l'information sémantique intégrée directement dans toutes les fonctions de bas niveau pour éviter les problèmes de dépendance à long terme.
Le 5 ensembles de données de référence sont obtenus précision SOTA.
2, procédé
2.1 Structure générale
caractéristique importante progressive pour la détection d'objet poli configuration globale d'un réseau comme indiqué dans Figure2.
Tout d'abord, l'image d'entrée est introduit dans le réseau de base d'une pluralité de caractéristiques extraites échelles. Le document a choisi de faire ResNet-101 réseau fédérateur. Alors que le réseau fédérateur ne VGG16 résultats de papier ont également démontré dans la section expérimentale.
Plus précisément réseau ResNet-101 peut être divisé en 5 blocs avec stride = 2 de l'opération d'échantillonnage. . Cette caractéristique de sortie de la figure 5 peut être exprimé sous la forme du bloc: Conv-1, Res-2, 3-Res, Res-4, 5-Res. Pour réduire la taille des caractéristiques du profil figure de manière à obtenir plus, les caractéristiques d'un premier passage à travers le module de conversion figure (Figure2 dans le TM1), dans lequel chaque niveau par la convolution 1x1 est converti en fonction des mêmes dimensions, par exemple, dans notre mise en uvre pour 256.
Après l'obtention d'une pluralité de caractéristiques de mêmes dimensions, série FPM de modules sont reliés les uns derrière les caractéristiques de l'établissement pour le raffinage Fig. Figure 2 montre un exemple d'un T = 2. Dans chacun des FPM, les caractéristiques de haut niveau sont introduits directement dans la fonction de bas niveau à tous améliorer, ce qui est plus efficace que de manière indirecte et réduit de manière significative la perte d'informations. entrées et sorties FPM ont les mêmes dimensions et tous partageant les mêmes FPMs structure du réseau.
Nous utilisons différents paramètres pour chacun des FPM, afin qu'ils puissent apprendre progressivement de plus en plus concentrés sur les détails. Les expériences montrent que lorsque le temps T = 2, le modèle a montré une précision SOTA et la vitesse de 20fps.
Puis, en utilisant le modèle du second module de convertisseur (TM2 Figure2 in), qui est ensuite échantillonné par une convolution bilinéaire constitué d'un 1x1, échantillonner directement la résolution de l'image d'origine et le nombre de canaux sur la cible comprimé 32.
Enfin, un module de fusion (FM) est utilisé pour obtenir la pluralité de fusion finale de caractéristique maps figure significative. En raison des caractéristiques de l'utilisation de FPM après une représentation plus précise, donc FM utilise une stratégie simple à réaliser la série, et le mode d'utilisation finale pour former le réseau.
2.2 dans lequel le module de meulage
Caractérisé par le module de meulage (FPM) est la composante de base du réseau en papier PFPN proposé, FPM est un module simple et efficace, ainsi que toute convolution peut utiliser pour améliorer la représentation géométrique d'entités de réseau.
Il conserve le multi-niveau fonctionnalités généré CNN, par exemple, ou un tronc ou une sortie avant du FPM, et apprendre à utiliser la connexion résiduelle les mettre à jour. N, dans lequel la Fig. F = {fi, i = 1, ..., N}, FPM produire la même taille après broyage du diagramme caractéristique N F ^ {p} = {fi ^ p, i = 1, .. ., N}, comme le montre la figure 2, FPM FPM comprenant N modules parallèles, chacun correspondant à une seule fonction et exprimée en figure FPM-k.
Plus précisément, en utilisant le résidu relié d'un côté à la face profonde de la profondeur. En conséquence, les informations caractéristiques de haut niveau ayant injecté directement dans le global niveau inférieur dispose aux zones d'aide jugées nettement mieux. Dans la Figure 2 est FPM1-3, Res-3, Res-4, caractérisé par Res-5 ont été mis à jour pour la connexion raccourci Res-3. avantages FPM également absorbé réseau résiduel (He et al. 2016), de sorte qu'il peut être mis à jour et caractérisés informations confuses figure progressivement filtrée.
Ceci est illustré par les différentes connexions dans Figure2. $ $ FPM-k modules mis en oeuvre peuvent être formulées comme suit:
Il accepte N-k + 1 caractéristique comme la figure {fj, j = k, .., N}. Pour la figure caractéristique fj, nous avons d'abord utilisé un des composants convolution 3x3 + BN + Relu pour capturer des informations sémantiques, qui est ensuite interpolée à la taille fk. Après ces caractéristiques de l'échantillon après interpolation en utilisant la fusion de concat, puis par une réduction de la convolution 1x1 de dimensionnalité obtenu pk. Pk est alors traitée comme fonctions résiduelles pour mettre à jour les caractéristiques originales de la figure fk calculées dernière caractéristique figure F_k ^ p. Quand un temps de 3 k = exemple comme représenté sur la Figure 3.
2.3 Module d'intégration
Papier en utilisant le module de fusion (FM) pour faire fondre la pluralité de caractéristiques et pour détecter des objets significatifs de la FIG. Comme le montre la Figure 2, la première multi-niveau comprend TM2 est Concat, puis 3x3 convolution en deux couches. Ensuite, la carte finale saillance une convolution 1x1 dans la dernière couche.
2.4 les détails de mise en uvre
Papier en utilisant la perte d'entropie croisée pour optimiser la carte de saillance finale et a marqué une carte importante. Les auteurs ont ensuite utilisé une perte secondaire, l'optimisation spécifique est une série de résultats intermédiaires avant le module FM, la perte nette totale finale comme suit:
3. Les résultats expérimentaux
Les Table1 montre les méthodes décrites ici dans les cinq ensembles de données ont été obtenues de précision SOTA, nous démontrons l'efficacité de cette méthode.
4, l'affichage visuel
5. Conclusion
Pour tirer le meilleur parti des informations et des détails sémantiques, ce document présente une simple et les caractéristiques du réseau de broyage progressives efficaces (PFPN). caractéristiques PFPN contribuent à la raffinée progressive d'une manière récursive pour améliorer le diagramme caractéristique multi-niveau indiquant, pour chaque étape de caractéristiques de polissage, sont caractérisés par le module de meulage (FPM) l'information sémantique de haut niveau intégré directement dans le niveau inférieur de toutes les caractéristiques dans les dessins, réduisant ainsi la perte d'informations. Enfin, le 5 PFPN référence de la performance est nettement mieux que les 16 types de méthodes les plus récentes.
Lei Feng Lei Feng Lei réseau de réseau de réseau Feng