« La plus grande ensembles de données de visage aligné homme du monde ». ICCV 2017: de la résolution de face alignement est pas loin

1 Ji-won nouvelle compilation

IMAGEnet un million marque ensembles de données précises ouvre une nouvelle ère de reconnaissance d'image, il a ainsi réalisé que les données avec l'algorithme est tout aussi important. Afin de construire de meilleurs modèles et d'algorithmes, de plus en plus les chercheurs ont commencé à se dérouler dans l'exploration des ensembles de données et méthodes pour les données d'étiquetage est pas non plus limité à temps artificielle.

Ce dernier aspect d'un résultat est Computer Vision Laboratory de l'Université de Nottingham chercheurs à publier dans le papier ICCV 2017, les chercheurs décrivent loin les plus grands ensembles de données d'alignement 3D du visage qu'ils créent (environ 230000 pièces de précision dans le papier l'image de la marque), et leur utilisation 2D à la conversion 3D produit tag.

Posted appelé « distance nous résolvons l'alignement face 2D et 3D Jusqu'où? « (Dans quelle mesure sommes-nous de résoudre le problème 2D et 3D du visage d'alignement? Et un ensemble de données de 230.0003D repères du visage). Les chercheurs espèrent que, sur la base de cet ensemble de données, les problèmes d'alignement face marquera le début plus et un développement plus rapide.

Les résultats montrent : Le réseau des documents présentés (créateur décrit comme « l'alignement du monde face la plus précise du réseau ») pour détecter des points caractéristiques du visage, 2D et 3D de coordonnées s'appliquent. Source: Projet Github

alignement des visages, la plupart des recherches de vision par ordinateur au cours des dernières décennies un sujet

Avec l'émergence de grande échelle et la profondeur des ensembles de données d'annotation d'étude, des travaux récents ont montré encore atteint en vision par ordinateur sur la tâche la plus difficile de précision sans précédent. Dans ce travail, les auteurs mettent l'accent sur les points caractéristiques (localisation historique), en particulier les traits du visage de l'homme, également connu sous le nom (alignement face) aligné face, « alignement Face » peut dire que les quelques dernières décennies, l'ordinateur l'un des thèmes visuels les plus étudiés.

fonctionnalité récemment sur l'utilisation de réseaux de neurones convolutionnel (CNN) travail de positionnement du point a repoussé les limites dans d'autres domaines, tels que l'estimation de la pose du corps humain, mais il ne sait pas comment les résultats obtenus en termes de surface d'alignement.

Historiquement, selon les différentes tâches, différentes techniques ont été utilisées caractéristiques emplacement. Par exemple, avant l'émergence du réseau de neurones, les travaux d'estimation de la pose du corps humain est principalement basé sur le schéma de la structure (structure picturale) et l'extension complexe (extension), parce qu'ils sont capables de simuler l'apparence de grand changement, s'adapter à un large éventail de la posture humaine. Bien que ces méthodes n'ont pas été montré pour obtenir une grande précision pour (méthode de régression en cascade) régression des tâches d'alignement face en cascade montrent, mais d'autre part, sous l'initialisation cascade méthode erronée de régression de la performance, ou un grand nombre de points caractéristiques de la détérioration ou de rotation fermée auto-large dans le plan.

Récemment, basée sur la régression carte thermique de l'architecture du réseau de neurones de convolution complète (régression heatmap) a révolutionné l'estimation de la pose du corps humain, même pour les plus difficiles ensembles de données a également été une très grande précision. Étant donné que peu de leur demande de fin de formation de fin et les projets du travail, cette approche peut facilement être appliquée aux problèmes d'alignement du visage.

5 grandes contributions, y compris pour la première fois de construire une base solide, construit en utilisant la méthode 2D-3D de loin les plus grands ensembles de données

Les auteurs disent que, selon cette voie, « Notre principale contribution est de construire et de former un solide réseau aligné face, et la première enquête sur un grand tout visage 2D existants ensembles de données sont alignés ensembles de données 3D et la distance du nouvellement introduit propriétés proche de la saturation (saturant de performance) jusqu'à quel point ".

Plus précisément, leurs contributions sont les suivantes:

1. Pour la première fois de construire une base très forte (de base) , Combiné avec l'état de l'art architecture des points caractéristiques et l'état de l'art du bloc résiduel et une formation complète dans une très grande expansion du jeu de données de points caractéristiques du visage 2D. Ensuite, nous évaluons tous les autres ensembles de données 2D (environ 230000 images), nous enquêtons sur le visage aligné de la 2D pour résoudre le problème dans quelle mesure.

2. Afin de résoudre le problème de visage 3D ensembles de données moins alignées, nous Propose en outre une annotation 2D 2D dans les méthodes de points caractéristiques d'annotation 3D CNN, et l'utiliser pour créer des ensembles de données LS3D-W, qui est de loin la plus grande et la plus difficile jeu de données de points caractéristiques du visage 3D (environ 230000 image), qui est presque tous les ensembles de données existants Unifier get.

3. Ensuite, nous avons formé un réseau aligné face 3D et évalué dans une nouvelle organisation à grande échelle de données de points caractéristiques du visage 3D, nous enquêtons sur le visage humain de 3D pour résoudre le problème d'alignement encore loin.

Tout le facteur « traditionnel » 4. Nous étudions encore l'impact des performances alignées face, comme un grand geste, l'initialisation et la résolution, et l'introduction de facteurs « nouveaux », à savoir la taille du réseau.

5. Les résultats montrent nos réseaux alignés face-2D et 3D ont réalisé une très haute performance de précision, ce qui peut être proche de propriétés de saturation de l'ensemble des données utilisées.

Structure 2D-FAN : HG construit par empilement de quatre face de nappe alignée (Réseau de visage d'alignement, FAN), dans lequel tous les blocs de goulot (dessin du carreau) est remplacé par la nouvelle couche, parallèle et bloc multi-échelles.

Méthodes et données: 2D, 3D et étiquetage des propriétés de conversion 2D-3D sont proches de la saturation

L'auteur a construit un premier réseau aligné face "FAN" (Facee réseau Alignment), puis appuie sur FAN, construit 2D à 3D-FAN, également sur une image 2D donné dans un réseau de points de repère pour le visage 3D. Les auteurs disent, à leur connaissance, à grande échelle des expériences d'alignement face 2D / 3D dans la formation et l'évaluation FAN un puissant réseau, mais aussi la première fois.

Sur la base de leur une de l'architecture la plus avancée de la posture du corps HourGlass (HG) pour construire FAN et HG bloc de goulot d'étranglement du module d'origine est remplacé par un nouveau hiérarchique parallèle structure multi-échelle (proposée par d'autres chercheurs) estimation.

2D-3D à-FAN architecture réseau : La posture du corps sablier architecture basée sur l'estimation, et l'image en 2D est un des repères du visage d'entrée RGB, la sortie est les sites d'intérêt 3D du visage correspondant.

2D-FAN Marqué

3D-FAN Marqué

Ci-dessous une comparaison avec la méthode classique (rouge), ce point de vue plus de précision apparente de la nouvelle méthode:

En plus de la construction FAN, auteur vise également à créer la première grande échelle jeu de données historique du visage 3D. Actuellement 3D données Repères du visage est encore très rare, et donc apportent une contribution considérable à ce travail. Compte tenu des excellents résultats 2D-FAN, les auteurs ont décidé d'utiliser 2D à 3D-FAN générer un jeu de données historiques du visage 3D.

Mais elle pose aussi un problème qui est difficile d'évaluer la 2D à la 3D des données. L'ensemble des données existantes est le plus grand AFLW2000-3D similaire. Ainsi, avant l'utilisation de 2D-FAN, générer une 2D des repères marqués du visage, puis utiliser la 2D à 3D-FAN, la conversion des données en 2D à des repères du visage 3D, l'est finalement généré est comparé avec les données 3D AFLW2000-3D.

On a constaté que les deux n'ont des différences, le montre la figure ci-dessous la plus grande différence 8 résultats d'image marque (livre blanc est le résultat):

Les auteurs disent que la principale raison de la différence est que les méthodes précédentes de pipeline d'étiquetage semi-automatique l'attitude complexe ne génère pas de résultats précis. Ainsi, les données améliorées, ils AFLW2000-3D en ensembles de données existants, LS3D-W créé (à grande échelle 3D Faces in-the-Wild ensemble de données), il contient un total d'environ 230000 pièces de l'image de l'étiquette, et jusqu'à présent la plus grande 3D face alignée ensemble de données.

Après les auteurs ont évalué les performances des ensembles de données LS3D-W de divers aspects. Les résultats montrent que leur réseau a atteint ensemble de données « performance de saturation », et dans la composition, la résolution et le nombre de paramètres d'initialisation du réseau d'une résistance ultra-élevée (résilience). Pour plus d'informations, voir le document.

Les auteurs disent que bien qu'ils ne sont pas concentrés sur d'explorer quelques-uns des effets de l'attitude rare dans ces données, mais aussi longtemps que il y a assez de données, ils croient que le réseau peut aussi se comporter comme bon.

Thèse: Nous résolvons 2D visage 3D de l'alignement et quelle distance?

résumé

Dans cet article, un réseau très profond de neurones aligné les données existantes face 2D et 3D ensemble atteint près du niveau de saturation de la performance. A cet effet, nous vous proposons de faire cinq contributions: (a) à combiner le plus de points de caractéristiques faciales avancées (localisation historique) l'architecture et le plus résidus de modules avancés (bloc résiduel), la première fois que nous avons construit une base très solide dans un jeux de données 2D très grandes des caractéristiques du visage (ensemble de données historique du visage) sur la formation, et évalués sur tous les autres ensemble de données de points caractéristiques du visage. (B) Nous allons créer une 2D à la marque de point caractéristique de conversion 3D, et d'unifier tous les ensembles de données existants, la création de loin le plus grand et le plus difficile LS3D-W de jeu de données de points caractéristiques du visage 3D (environ 230000 image). (C) Ensuite, on former un réseau de neurones pour effectuer l'alignement de la face 3D (alignement de la face), et évalué sur un nouvel ensemble de données LS3D-W. Tous les facteurs « traditionnels » (d) Nous étudions encore l'impact des performances alignées face, comme un grand geste (grande pose), l'initialisation et la résolution, et l'introduction d'un des facteurs « nouveaux », à savoir la taille du réseau. (E) Notre étude montre 2D et les réseaux alignés face-3D ont atteint un niveau de performance très élevé, ce qui est susceptible d'être proche de propriétés de saturation de l'ensemble de données utilisé. peuvent être téléchargés à partir https://www.adrianbulat.com/face-alignment/ formation et le code de test et d'ensembles de données.

  • Thèse: https: //arxiv.org/pdf/1703.07332.pdf

  • Github: https: //github.com/1adrianb/face-alignment

Et modèle télécharger

  • 2D-FAN : Https: //www.adrianbulat.com/downloads/FaceAlignment/2D-FAN-300W.t7

  • 3D-FAN : Https: //www.adrianbulat.com/downloads/FaceAlignment/3D-FAN.t7

  • 2D à 3D FAN : Https: //www.adrianbulat.com/downloads/FaceAlignment/2D-to-3D-FAN.tar.gz

  • 3D-FAN profondeur : Https: //www.adrianbulat.com/downloads/FaceAlignment/3D-FAN-depth

Cliquez ici pour lire le message original pour voir les détails, espérons que vous pouvez rejoindre ~

posture Up! Direction secouer la roue comme il est, la raison est simple
Précédent
Les troupes de façon de passer l'école de nuit, même la nuit Tellement est arrivé!
Prochain
« Microsoft a atteint 8000 AI » enjeux AI augmentation, ainsi que Amazon, Apple et Google concurrence
Pas 3-5 ans, ne pas essayer d'obtenir une nouvelle capacité
Qui est le plus chinois | Laba chose bouillie
Tant le marketing de contenu, Durex Pourquoi un seul?
La seule liste! National Geographic sélectionné passera, le temps avant que les touristes commencent tout partout dans le monde
Quatre marché lourd nouvelle voiture en une journée! Vous voulez le RS-5, boussole, une géométrie sont à venir!
Tesla et voiture coopération AMD puce AI, est la profondeur de la coopération ou de hype?
La Fed est plus inquiète des choses peut-être vrai, le retour du dollar à l'étalon-or ou est fait de nouveaux progrès
Faye Wong a été, Yang Mi choisir chez les parents parent-enfant à Voyage! Profitant de la nouvelle année pour jouer aux cartes
Gong Yan: 0 à 1, 1 à N. Quel est le plus grand obstacle?
30 millions de yens voiture dont vous rêvez? jour germano-américain de cette 3 voitures a fait!
images globales de CT de lésions tumorales du foie Défi, a remporté le championnat Lenovo E-Santé