22 CVPR s�lectionn�s 2020, Baidu 15 articles s�lectionn�s d�taill�e

�Wen | Baidu

Ed | Jia Wei

R�cemment, le champ de vision informatique � Oscar � CVPR 2020 incluait les r�sultats des documents officiels, avec l'augmentation du nombre de cotisants, il a commenc� � recevoir le taux a connu une baisse continue. Cette ann�e, la contribution effective � 6656, un total de 1470 articles sont re�us, la r�ception �tait d'environ 22%, contre 25% le taux de s�lection de l'ann�e derni�re, en baisse de 3%.

Dans cette session, Baidu total de 22 articles ont �t� s�lectionn�s, impliquant des sujets allant de la d�tection des visages et la reconnaissance, la compr�hension et l'analyse vid�o, l'image super-r�solution, et la conduite automatique de la d�tection des v�hicules, des zones de sc�ne segmentation niveau de l'instance. Ce qui suit est une description dont 15 articles s�lectionn�s.

1, la d�tection et l'identification visage

Papier: HAMBox: en ligne Ancres Fouille de haute qualit� pour Faces d�tection externe

R�cemment, sur le d�tecteur de visage en utilisant le point d'ancrage pour construire des probl�mes d'apprentissage multi-t�ches une combinaison de rep'ere la classification et la r�gression, la strat�gie de mise en correspondance de conception d'ancrage efficace et ancre rend le d�tecteur de visage capable de positionnement pr�cis et l'attitude des personnes dans le changement � grande �chelle le visage. Le document, Baidu propose une ligne de la politique mini�re d'ancrage de haute qualit� HAMBox, il peut faire une face d'exception (faces ext�rieures) �tant compens�e d'ancrage de haute qualit�. m�thode HAMBox peut �tre un d�tecteur de visage d'ancrage � base unique �tape d'optimisation commune. Les exp�riences de programme sur WIDER FACE, Fddb, AFW et PASCAL visage ensembles de donn�es multiples montrent sa sup�riorit�, alors que dans le 2019 WIDER Visage et pi�tons D�fi, 57,13% � la carte a gagn� la r�putation internationale.

Papier: FaceScape: une grande �chelle de haute qualit� 3D face DataSet et d�taill�e Riggable pr�vision 3D Face

Le journal a publi� une grande �chelle de haute pr�cision en trois dimensions de base de donn�es mod�le de visage FaceScape, et la premi�re fois � partir d'une seule pr�cision de la pr�diction de l'image, le visage humain mod�le en trois dimensions peut �tre manipul�. base de donn�es contient environ 18000 FaceScape pr�cision des mod�les de visage 3D, chaque mod�le comprenant un substrat et une carte de d�placement et 4K textures de r�solution, la surface peut �tre caract�ris�e tr�s fine structure tridimensionnelle et la texture. Par rapport � la divulgation base de donn�es existante de visage 3D, FaceScape sur la quantit� et la qualit� du mod�le sont en plus hauts standards du monde. Sur la base de la base de donn�es de FaceScape ci-dessus, l'article explore aussi une nouvelle t�che difficile: � image unique du visage est entr�e, la pr�cision de la pr�diction, l'expression peut manipuler mod�le de visage en trois dimensions. Le r�sultat de cette m�thode de pr�diction capable de produire des s�quences de contr�le d'expression de fines mod�le du visage, le mod�le g�n�r� contient encore r�aliste structure tridimensionnelle en d�tail la nouvelle expression. Il est rapport� que, la base de donn�es et le code FaceScape va bient�t sortir libre, utilisation non commerciale pour la recherche universitaire.

Th�se: Pyramide hi�rarchique Divers R�seau de l'attention pour la reconnaissance des visages

La m�thode actuelle de reconnaissance grand public avec peu de consid�ration pour les fonctionnalit�s multi-�chelle locale des diff�rentes couches. A cet effet, nous proposons un mod�le de pyramide hi�rarchique de l'attention de la diversification. Lorsque l'apparence g�n�rale du visage des changements spectaculaires se produisent, la r�gion locale joue un r�le important. Certains modules de demande d'emploi r�cente pour localiser automatiquement l'attention de la r�gion. Si vous ne consid�rez pas la diversit� de l'attention de l'�cole produit g�n�ralement une r�ponse redondante dans certains blocs locaux similaires autour, tout en ignorant d'autres bloc local potentiel discriminante. En outre, �tant donn� que les changements de posture ou d'expression du visage, il peut appara�tre dans des blocs partiels de diff�rentes �chelles. Pour att�nuer ces d�fis, l'�quipe Baidu a propos� un module de note de diversification de la pyramide � l'apprentissage automatique et la diversification adaptative multi-�chelle de repr�sentation locale. Plus pr�cis�ment, le module d�velopp� pour capter l'attention de la pyramide fonction multi-�chelle, d'encourager le mod�le tout en se concentrant sur les diff�rents blocs partiels, d�velopp� une large gamme d'apprentissage. En second lieu, afin de fusionner � petite �chelle locale ou d�tail des traits du visage figure de la couche inf�rieure, peut �tre utilis� � la place du bilin�aire de regroupement hi�rarchique ou ajout� en s�rie.

2, d�tection de cible et de suivi

Papier: Associ�-3Ddet: perceptive-to-conceptuelle association pour nuage de points 3D Object Detection

D�tection cible et de la technologie de robot automatique est l'un des plus important facteur dans le domaine des t�ches de reconnaissance de formes. Cet article pr�sente un art adaptatif pour am�liorer la robustesse des rares nuage caract�ristique point. Plus pr�cis�ment, la fonction est d'une sc�ne r�elle (caract�ristiques de domaine conscient) et �taient corr�l�es de caract�ristiques des nuages virtuelles compl�tes (caract�ristique des domaines conceptuels) le point contient une foule d'informations d�taill�es. Ces adaptations associ�es m�thode de domaine est en fait associ� � la perception de l'objet de simulation de fonction d'association dans le cerveau humain. Un tel processus de formation de l'algorithme de d�tection d'objets en trois dimensions la capacit� accrue de l'extraction de caract�ristiques, ne n�cessite pas de composants suppl�mentaires introduits �tape d'inf�rence, de sorte que le cadre est facile � int�grer dans divers algorithme de d�tection d'objets en trois dimensions.

Th�se: Neural Message Passing et Attentif Spatiotemporal Transformateur pour nuage de points 3D bas�e sur la vid�o de d�tection d'objets

Le nuage de points 3D bas� sur un seul d�tecteur de cadre g�n�ral ne peut pas r�pondre � la cible o� l'occlusion cible, et la distance d'�chantillonnage non uniforme, etc., tandis que le point de trouble vid�o (le nuage de points par une pluralit� de trames) contient g�n�ralement une mine d'informations spatio-temporelle peut am�liorer la situation les r�sultats de la d�tection, ce document propose un point d�tecteur d'objet vid�o nuage fin de ligne 3D. Dissertation pilier Message Passing r�seau (PMPNet), peut pointer vue en plan de trouble de la figure treillis non vide noeud FIG, et des informations entre les noeuds est transmis � am�liorer dynamiquement les champs noeud r�ceptives, PMPNet efficacement liaison non-euclidienne espace figure CNN les caract�ristiques europ�ennes et les propri�t�s, les diff�rences temporelles et spatiales dans le module d'agr�gation, l'espace et l'attention de temps a �galement �t� propos� des m�canismes pour renforcer la couche Conv-GRU original, nouveau m�canisme de mise au point de l'espace m�moire pour le premier plan am�lior� et la suppression d'arri�re-plan, le m�canisme de l'attention avec le temps d'aligner les trames des objets d'avant-plan adjacent de dynamique. Le d�tecteur d'objet vid�o nuage de points 3D sur nuScenes grande collection de r�f�rence a atteint les r�sultats principaux.

Th�se: Un objet unifi� Motion et Association mod�le pour l'efficacit� en ligne multi-objets Suivi

L'utilisation d'un tracker cible unique (SOT) comme les mod�les de pr�diction mouvement effectuent en ligne suivi multi-cibles (MOT) est la m�thode populaire actuelle, mais ces m�thodes n�cessitent g�n�ralement la conception suppl�mentaire, un mod�le d'estimation de similarit� complexe pour rem�dier aux brouillages des objectifs similaires et l'occlusion dense probl�me. Dans cet article, les strat�gies d'apprentissage multi-t�ches, la pr�diction de mouvement et la similitude d'estimer un mod�le. Notamment, le mod�le a �galement con�u un r�seau triple, la formation SOT peut �tre effectu�e simultan�ment, dans lequel la classification de l'objet ID discriminative et de tri, de telle sorte que le mod�le de r�seau de sortie peut �tre localiser plus pr�cis�ment, d'identifier des cibles et multi-objectifs association de donn�es, en plus, les cadeaux en papier un des modules sp�cifiques de t�che d'attention � mettre l'accent sur les caract�ristiques des diff�rents contextes r�gionaux, de renforcer encore la SOT et propose d'appliquer � la t�che d'estimation de similarit�. Cette m�thode a finalement obtenir une faible m�moire (30M) et une grande efficacit� (5fps) mod�le MOT en ligne, et a pris l'effet du plomb sur le plateau de test standard MOT2016 et MOT2017.

3, l'analyse vid�o et compr�hension

Papier: ActBERT: Global Learning locale Repr�sentations vid�o-texte

Inspir� par le BERT autosurveillance de formation, l'�quipe Baidu pour la vid�o et un texte similaire de mod�lisation commune et de la vid�o et de la correspondance entre texte vid�o narrative bas�e sur la recherche. Ce qui est le texte align� pr�t par la capacit� de reconnaissance automatique de la parole, qui est riche en sources de donn�es vid�o narratives pour �tudier la relation entre le texte vid�o. ActBERT fonctionnalit� am�lior�e de texte vid�o, vous pouvez explorer l'objet � grains fins et intentions d'action mondiale. Baidu �quipe sur un certain nombre de vid�o et les t�ches linguistiques pour v�rifier la capacit� de g�n�ralisation ActBERT, comme le texte des clips vid�o de r�cup�ration, g�n�ration de sous-titrage vid�o, des questions vid�o, segmentation de mouvement et de positionnement, des clips de mouvement, ActBERT beaucoup mieux que certaines des derni�res vid�o de traitement de texte algorithme, plus prouv� sa sup�riorit� dans l'apprentissage de la fonction vid�otexte.

Th�se: M�moire d'agr�gation des r�seaux pour l'efficacit� Segmentation Object Video Interactive

L'objet papier est de concevoir un syst�me de segmentation vid�o interactive rapide, l'utilisateur peut recevoir une simple ligne sur un objet bas� sur une image vid�o, la division vid�o du syst�me entier sera objet segment�. Auparavant, un proc�d� de segmentation vid�o interactive utilisent souvent deux r�seaux neuronaux distincts, division de trame, respectivement, interagissent, en divisant le r�sultat est transf�r� dans les autres trames. L'interaction avec l'objet conducteur dans un cadre de fusion, et en utilisant le proc�d� consistant � incorporer le pixel, l'int�gration de chaque trame extraite de pixel vid�o une seule fois, plus efficace. En outre, ce mode de r�alisation utilise un m�canisme novateur pour le stockage de la m�moire, l'effet de la teneur avant l'interaction de chaque trame et m�moris�es dans une nouvelle interaction, dans lequel le cadre de lecture correspondant � la figure la m�moire, et mettre � jour la m�moire. La fa�on d'am�liorer consid�rablement la robustesse du r�sultat de la segmentation, a pris la t�te sur les r�sultats DAVIS ensemble de donn�es.

Papier: Segmentation action interarm�es auto-Supervis� temporelle du domaine Adaptation

En d�pit de la r�cente surveillance compl�te sur le terrain, la technologie de segmentation de mouvement a fait des progr�s, mais sa performance est encore insuffisante. Un d�fi majeur est le probl�me des variations spatiales et temporelles (telles que diff�rentes personnes peuvent effectuer la m�me op�ration de diverses mani�res). Par cons�quent, l'utilisation de papier non marqu� vid�o pour r�soudre ce probl�me en divisant la t�che de mouvement pour redessiner probl�me inter-domaines (domaine), et que les probl�mes inter-domaines sont principalement caus�s par des diff�rences dans le temps et dans l'espace pour un changement de domaine. Afin de r�duire les diff�rences, le document propose un � adaptatif dans le domaine temporel (SSTDA) auto-surveillance �, qui contient deux auto-surveillance des t�ches auxiliaires (pr�diction de domaine de binaire et s�quentielle), afin d'aligner le joint de tailles diff�rentes inter-domaines du domaine temporel de dynamique embarqu� espace de caract�ristiques pour obtenir une meilleure adaptation par rapport aux autres domaines m�thode fonctionne (DA). Sur trois ensembles de donn�es difficiles publiques (GTEA, 50Salads et petit-d�jeuner), SSTDA loin de la m�thode de la date actuelle, et ne n�cessite que 65% des donn�es de formation d'�tiquettes pour obtenir des performances comparables aux m�thodes les plus courantes, ce montre �galement que la m�thode peut effectivement utiliser la vid�o cible sans �tiquette d'adaptation au changement.

4, l'image super-r�solution

Papier: Canal Attention � base it�ratives r�siduelle d'apprentissage pour la profondeur Carte Super-r�solution

Avec le champ d'application de la profondeur de l'information est de plus en plus, probl�me d'image en profondeur super-r�solution a attir� l'attention d'un large �ventail de chercheurs. image profondeur super-r�solution fait r�f�rence � une image en profondeur � haute r�solution � partir de la base d'images de profondeur basse r�solution, l'acc�s � la haute qualit�. Propos� un super-r�solution proc�d� d'image en profondeur, tandis que le mode � faible r�solution pour produire une image de profondeur est analys�e, et le mode � faible r�solution deux types d'image de profondeur simul�es g�n�r�es: interpolation non lin�aire accompagnant le bruit du mode de g�n�ration de sous-�chantillonnage et le sous-�chantillonnage en mode de g�n�ration d'intervalle.

Pour diff�rents types de r�solution de l'image de profondeur, tel qu'utilis� ici cadre d'apprentissage it�ratif image � faible profondeur de r�solution r�siduel est entr� dans de mani�re grossi�re � fine pour r�tablir progressivement les informations de fr�quence d'image de profondeur � haute r�solution, en m�me temps, en utilisant strat�gie renforc�e de canal pour renforcer le r�le contient fr�quence plus grand nombre de canaux d'information dans le cadre de l'apprentissage, en outre, l'utilisation de strat�gies d'int�gration multi-�tag�es efficace dans les informations de r�utilisation efficace obtenu processus grossier � fin, et enfin, par TGV les contraintes et la fonction de perte d'entr�e � haute r�solution pour optimiser davantage l'image de profondeur obtenue. La m�thode propos�e peut traiter efficacement le probl�me de la profondeur d'image super-r�solution, par rapport aux proc�d�s actuellement connus, l'effet est significatif, des avantages �vidents.

5, l'identification du v�hicule

Th�se: 3D Edition d'image Partie guid�e pour grain fin Comprendre l'objet

Dans la sc�ne du pilote automatique, percevoir avec pr�cision l'�tat � sp�cial � du v�hicule pour la s�curit� routi�re critiques (par exemple: la porte ouverte il peut y avoir des passagers � descendre, les feux arri�re clignotants signifie que le changement � venir de la voie). Pour ce probl�me, nous proposons une nouvelle donn�e de synth�se (am�lior�e) m�thode, � savoir, en alignant le mod�le en trois dimensions de l'image en deux dimensions au niveau des composants de l'�diteur de v�hicule g�n�re automatiquement un grand nombre d'�tat � sp�cial � (par exemple: porte ouverte, arri�re bo�te, le capot, les phares, les feux arri�re clignotants) des r�sultats d'annotation s�mantique de l'image du v�hicule. les donn�es de formation g�n�r�s, nous concevons un double r�seau f�d�rateur rend le mod�le peut �tre g�n�ralis� aux donn�es r�elles de test, par rapport � la m�thode traditionnelle de rendu mod�le, cette m�thode �quilibre la diff�rence dans le domaine des probl�mes plus pratique et l�ger.

Pour valider la m�thode, les constructions de papier (CUS Voiture �tats peu fr�quent) __gVirt_NP_NN_NNPS