22 CVPR sélectionnés 2020, Baidu 15 articles sélectionnés détaillée

 Wen | Baidu

Ed | Jia Wei

Récemment, le champ de vision informatique « Oscar » CVPR 2020 incluait les résultats des documents officiels, avec l'augmentation du nombre de cotisants, il a commencé à recevoir le taux a connu une baisse continue. Cette année, la contribution effective à 6656, un total de 1470 articles sont reçus, la réception était d'environ 22%, contre 25% le taux de sélection de l'année dernière, en baisse de 3%.

Dans cette session, Baidu total de 22 articles ont été sélectionnés, impliquant des sujets allant de la détection des visages et la reconnaissance, la compréhension et l'analyse vidéo, l'image super-résolution, et la conduite automatique de la détection des véhicules, des zones de scène segmentation niveau de l'instance. Ce qui suit est une description dont 15 articles sélectionnés.

1, la détection et l'identification visage

Papier: HAMBox: en ligne Ancres Fouille de haute qualité pour Faces détection externe

Récemment, sur le détecteur de visage en utilisant le point d'ancrage pour construire des problèmes d'apprentissage multi-tâches une combinaison de rep'ere la classification et la régression, la stratégie de mise en correspondance de conception d'ancrage efficace et ancre rend le détecteur de visage capable de positionnement précis et l'attitude des personnes dans le changement à grande échelle le visage. Le document, Baidu propose une ligne de la politique minière d'ancrage de haute qualité HAMBox, il peut faire une face d'exception (faces extérieures) étant compensée d'ancrage de haute qualité. méthode HAMBox peut être un détecteur de visage d'ancrage à base unique étape d'optimisation commune. Les expériences de programme sur WIDER FACE, Fddb, AFW et PASCAL visage ensembles de données multiples montrent sa supériorité, alors que dans le 2019 WIDER Visage et piétons Défi, 57,13% à la carte a gagné la réputation internationale.

Papier: FaceScape: une grande échelle de haute qualité 3D face DataSet et détaillée Riggable prévision 3D Face

Le journal a publié une grande échelle de haute précision en trois dimensions de base de données modèle de visage FaceScape, et la première fois à partir d'une seule précision de la prédiction de l'image, le visage humain modèle en trois dimensions peut être manipulé. base de données contient environ 18000 FaceScape précision des modèles de visage 3D, chaque modèle comprenant un substrat et une carte de déplacement et 4K textures de résolution, la surface peut être caractérisée très fine structure tridimensionnelle et la texture. Par rapport à la divulgation base de données existante de visage 3D, FaceScape sur la quantité et la qualité du modèle sont en plus hauts standards du monde. Sur la base de la base de données de FaceScape ci-dessus, l'article explore aussi une nouvelle tâche difficile: à image unique du visage est entrée, la précision de la prédiction, l'expression peut manipuler modèle de visage en trois dimensions. Le résultat de cette méthode de prédiction capable de produire des séquences de contrôle d'expression de fines modèle du visage, le modèle généré contient encore réaliste structure tridimensionnelle en détail la nouvelle expression. Il est rapporté que, la base de données et le code FaceScape va bientôt sortir libre, utilisation non commerciale pour la recherche universitaire.

Thèse: Pyramide hiérarchique Divers Réseau de l'attention pour la reconnaissance des visages

La méthode actuelle de reconnaissance grand public avec peu de considération pour les fonctionnalités multi-échelle locale des différentes couches. A cet effet, nous proposons un modèle de pyramide hiérarchique de l'attention de la diversification. Lorsque l'apparence générale du visage des changements spectaculaires se produisent, la région locale joue un rôle important. Certains modules de demande d'emploi récente pour localiser automatiquement l'attention de la région. Si vous ne considérez pas la diversité de l'attention de l'école produit généralement une réponse redondante dans certains blocs locaux similaires autour, tout en ignorant d'autres bloc local potentiel discriminante. En outre, étant donné que les changements de posture ou d'expression du visage, il peut apparaître dans des blocs partiels de différentes échelles. Pour atténuer ces défis, l'équipe Baidu a proposé un module de note de diversification de la pyramide à l'apprentissage automatique et la diversification adaptative multi-échelle de représentation locale. Plus précisément, le module développé pour capter l'attention de la pyramide fonction multi-échelle, d'encourager le modèle tout en se concentrant sur les différents blocs partiels, développé une large gamme d'apprentissage. En second lieu, afin de fusionner à petite échelle locale ou détail des traits du visage figure de la couche inférieure, peut être utilisé à la place du bilinéaire de regroupement hiérarchique ou ajouté en série.

2, détection de cible et de suivi

Papier: Associé-3Ddet: perceptive-to-conceptuelle association pour nuage de points 3D Object Detection

Détection cible et de la technologie de robot automatique est l'un des plus important facteur dans le domaine des tâches de reconnaissance de formes. Cet article présente un art adaptatif pour améliorer la robustesse des rares nuage caractéristique point. Plus précisément, la fonction est d'une scène réelle (caractéristiques de domaine conscient) et étaient corrélées de caractéristiques des nuages virtuelles complètes (caractéristique des domaines conceptuels) le point contient une foule d'informations détaillées. Ces adaptations associées méthode de domaine est en fait associé à la perception de l'objet de simulation de fonction d'association dans le cerveau humain. Un tel processus de formation de l'algorithme de détection d'objets en trois dimensions la capacité accrue de l'extraction de caractéristiques, ne nécessite pas de composants supplémentaires introduits étape d'inférence, de sorte que le cadre est facile à intégrer dans divers algorithme de détection d'objets en trois dimensions.

Thèse: Neural Message Passing et Attentif Spatiotemporal Transformateur pour nuage de points 3D basée sur la vidéo de détection d'objets

Le nuage de points 3D basé sur un seul détecteur de cadre général ne peut pas répondre à la cible où l'occlusion cible, et la distance d'échantillonnage non uniforme, etc., tandis que le point de trouble vidéo (le nuage de points par une pluralité de trames) contient généralement une mine d'informations spatio-temporelle peut améliorer la situation les résultats de la détection, ce document propose un point détecteur d'objet vidéo nuage fin de ligne 3D. Dissertation pilier Message Passing réseau (PMPNet), peut pointer vue en plan de trouble de la figure treillis non vide noeud FIG, et des informations entre les noeuds est transmis à améliorer dynamiquement les champs noeud réceptives, PMPNet efficacement liaison non-euclidienne espace figure CNN les caractéristiques européennes et les propriétés, les différences temporelles et spatiales dans le module d'agrégation, l'espace et l'attention de temps a également été proposé des mécanismes pour renforcer la couche Conv-GRU original, nouveau mécanisme de mise au point de l'espace mémoire pour le premier plan amélioré et la suppression d'arrière-plan, le mécanisme de l'attention avec le temps d'aligner les trames des objets d'avant-plan adjacent de dynamique. Le détecteur d'objet vidéo nuage de points 3D sur nuScenes grande collection de référence a atteint les résultats principaux.

Thèse: Un objet unifié Motion et Association modèle pour l'efficacité en ligne multi-objets Suivi

L'utilisation d'un tracker cible unique (SOT) comme les modèles de prédiction mouvement effectuent en ligne suivi multi-cibles (MOT) est la méthode populaire actuelle, mais ces méthodes nécessitent généralement la conception supplémentaire, un modèle d'estimation de similarité complexe pour remédier aux brouillages des objectifs similaires et l'occlusion dense problème. Dans cet article, les stratégies d'apprentissage multi-tâches, la prédiction de mouvement et la similitude d'estimer un modèle. Notamment, le modèle a également conçu un réseau triple, la formation SOT peut être effectuée simultanément, dans lequel la classification de l'objet ID discriminative et de tri, de telle sorte que le modèle de réseau de sortie peut être localiser plus précisément, d'identifier des cibles et multi-objectifs association de données, en plus, les cadeaux en papier un des modules spécifiques de tâche d'attention à mettre l'accent sur les caractéristiques des différents contextes régionaux, de renforcer encore la SOT et propose d'appliquer à la tâche d'estimation de similarité. Cette méthode a finalement obtenir une faible mémoire (30M) et une grande efficacité (5fps) modèle MOT en ligne, et a pris l'effet du plomb sur le plateau de test standard MOT2016 et MOT2017.

3, l'analyse vidéo et compréhension

Papier: ActBERT: Global Learning locale Représentations vidéo-texte

Inspiré par le BERT autosurveillance de formation, l'équipe Baidu pour la vidéo et un texte similaire de modélisation commune et de la vidéo et de la correspondance entre texte vidéo narrative basée sur la recherche. Ce qui est le texte aligné prêt par la capacité de reconnaissance automatique de la parole, qui est riche en sources de données vidéo narratives pour étudier la relation entre le texte vidéo. ActBERT fonctionnalité améliorée de texte vidéo, vous pouvez explorer l'objet à grains fins et intentions d'action mondiale. Baidu équipe sur un certain nombre de vidéo et les tâches linguistiques pour vérifier la capacité de généralisation ActBERT, comme le texte des clips vidéo de récupération, génération de sous-titrage vidéo, des questions vidéo, segmentation de mouvement et de positionnement, des clips de mouvement, ActBERT beaucoup mieux que certaines des dernières vidéo de traitement de texte algorithme, plus prouvé sa supériorité dans l'apprentissage de la fonction vidéotexte.

Thèse: Mémoire d'agrégation des réseaux pour l'efficacité Segmentation Object Video Interactive

L'objet papier est de concevoir un système de segmentation vidéo interactive rapide, l'utilisateur peut recevoir une simple ligne sur un objet basé sur une image vidéo, la division vidéo du système entier sera objet segmenté. Auparavant, un procédé de segmentation vidéo interactive utilisent souvent deux réseaux neuronaux distincts, division de trame, respectivement, interagissent, en divisant le résultat est transféré dans les autres trames. L'interaction avec l'objet conducteur dans un cadre de fusion, et en utilisant le procédé consistant à incorporer le pixel, l'intégration de chaque trame extraite de pixel vidéo une seule fois, plus efficace. En outre, ce mode de réalisation utilise un mécanisme novateur pour le stockage de la mémoire, l'effet de la teneur avant l'interaction de chaque trame et mémorisées dans une nouvelle interaction, dans lequel le cadre de lecture correspondant à la figure la mémoire, et mettre à jour la mémoire. La façon d'améliorer considérablement la robustesse du résultat de la segmentation, a pris la tête sur les résultats DAVIS ensemble de données.

Papier: Segmentation action interarmées auto-Supervisé temporelle du domaine Adaptation

En dépit de la récente surveillance complète sur le terrain, la technologie de segmentation de mouvement a fait des progrès, mais sa performance est encore insuffisante. Un défi majeur est le problème des variations spatiales et temporelles (telles que différentes personnes peuvent effectuer la même opération de diverses manières). Par conséquent, l'utilisation de papier non marqué vidéo pour résoudre ce problème en divisant la tâche de mouvement pour redessiner problème inter-domaines (domaine), et que les problèmes inter-domaines sont principalement causés par des différences dans le temps et dans l'espace pour un changement de domaine. Afin de réduire les différences, le document propose un « adaptatif dans le domaine temporel (SSTDA) auto-surveillance », qui contient deux auto-surveillance des tâches auxiliaires (prédiction de domaine de binaire et séquentielle), afin d'aligner le joint de tailles différentes inter-domaines du domaine temporel de dynamique embarqué espace de caractéristiques pour obtenir une meilleure adaptation par rapport aux autres domaines méthode fonctionne (DA). Sur trois ensembles de données difficiles publiques (GTEA, 50Salads et petit-déjeuner), SSTDA loin de la méthode de la date actuelle, et ne nécessite que 65% des données de formation d'étiquettes pour obtenir des performances comparables aux méthodes les plus courantes, ce montre également que la méthode peut effectivement utiliser la vidéo cible sans étiquette d'adaptation au changement.

4, l'image super-résolution

Papier: Canal Attention à base itératives résiduelle d'apprentissage pour la profondeur Carte Super-résolution

Avec le champ d'application de la profondeur de l'information est de plus en plus, problème d'image en profondeur super-résolution a attiré l'attention d'un large éventail de chercheurs. image profondeur super-résolution fait référence à une image en profondeur à haute résolution à partir de la base d'images de profondeur basse résolution, l'accès à la haute qualité. Proposé un super-résolution procédé d'image en profondeur, tandis que le mode à faible résolution pour produire une image de profondeur est analysée, et le mode à faible résolution deux types d'image de profondeur simulées générées: interpolation non linéaire accompagnant le bruit du mode de génération de sous-échantillonnage et le sous-échantillonnage en mode de génération d'intervalle.

Pour différents types de résolution de l'image de profondeur, tel qu'utilisé ici cadre d'apprentissage itératif image à faible profondeur de résolution résiduel est entré dans de manière grossière à fine pour rétablir progressivement les informations de fréquence d'image de profondeur à haute résolution, en même temps, en utilisant stratégie renforcée de canal pour renforcer le rôle contient fréquence plus grand nombre de canaux d'information dans le cadre de l'apprentissage, en outre, l'utilisation de stratégies d'intégration multi-étagées efficace dans les informations de réutilisation efficace obtenu processus grossier à fin, et enfin, par TGV les contraintes et la fonction de perte d'entrée à haute résolution pour optimiser davantage l'image de profondeur obtenue. La méthode proposée peut traiter efficacement le problème de la profondeur d'image super-résolution, par rapport aux procédés actuellement connus, l'effet est significatif, des avantages évidents.

5, l'identification du véhicule

Thèse: 3D Edition d'image Partie guidée pour grain fin Comprendre l'objet

Dans la scène du pilote automatique, percevoir avec précision l'état « spécial » du véhicule pour la sécurité routière critiques (par exemple: la porte ouverte il peut y avoir des passagers à descendre, les feux arrière clignotants signifie que le changement à venir de la voie). Pour ce problème, nous proposons une nouvelle donnée de synthèse (améliorée) méthode, à savoir, en alignant le modèle en trois dimensions de l'image en deux dimensions au niveau des composants de l'éditeur de véhicule génère automatiquement un grand nombre d'état « spécial » (par exemple: porte ouverte, arrière boîte, le capot, les phares, les feux arrière clignotants) des résultats d'annotation sémantique de l'image du véhicule. les données de formation générés, nous concevons un double réseau fédérateur rend le modèle peut être généralisé aux données réelles de test, par rapport à la méthode traditionnelle de rendu modèle, cette méthode équilibre la différence dans le domaine des problèmes plus pratique et léger.

Pour valider la méthode, les constructions de papier (CUS Voiture États peu fréquent) __gVirt_NP_NN_NNPS

2019 Prix Turing, décerné à un graphisme du patrimoine scientifique
Précédent
Vision - un nouveau chapitre dans la navigation Langue: objets positionnement à distance dans les tâches de navigation réelle scène
Prochain
ICML examinateurs en colère, et ne contribuent pas de papiers n'a pas le terminer!
limites de performances exceptionnelles, Ali nuage papier dragon lisant le dernier ASPLOS
CVPR 2020 | PQ-NET: la génération d'une séquence de forme en trois dimensions du réseau
Victoire BERT, Google meilleur modèle pré-formation en PNL de l'open source, une seule carte est seulement quatre jours de formation
Comment se débarrasser de « le seul papier »? Berkeley détaillée « Mode de recherche lourd » de succès
Pourquoi besoin GAN tant de bruit?
AAAI 2020 | poli avec détection cible progressive et significative des résultats optimaux
CVPR 2020 | Image Discuter arbitraire: à grains fins contrôlée image description générée automatiquement
Comment raconter une nouvelle pneumonie et la grippe couronne avec l'apprentissage en profondeur? Du dépistage précoce pour prédire un état critique
Fédéral apprendre les dernières tendances de la recherche
La recherche sur l'IA de Microsoft change-t-elle les entraîneurs, crée-t-elle de nouveaux postes et encourage-t-elle les vétérans à remplacer Shen Xiangyang?
ICLR2020 | Google les dernières recherches: un modèle quantitatif de généralisation synthétique « divergence complexe »