« Rapport académique » Ali Baba Zhang Gang: générative contre réseau et modifier les propriétés du visage humain

Août 2018 Avril par l'Institut de Technologie de Beijing Learning Center Big Data Innovation et Intelligence Artificielle Alliance Group norme Académie chinoise des sciences ont organisé conjointement le « 2018 profondeur l'apprentissage par renforcement: théorie et applications » Symposium, du monde universitaire et supérieur des experts de l'industrie réunit, part des recherches approfondies afin de renforcer les domaines d'apprentissage.

Confrontation avec le réseau visage générative éditeur d'attributs

Zhang Gang Alibaba hôpital Dharma -AI Lab

Je suis diplômé en Juillet 2018 après avoir travaillé dans Alibaba, la direction principale est sans pilote, puis m'a présenté pour modifier les propriétés en face de ce faire un travail de quatre aspects.

D'abord présenté le contexte et l'importance de l'étude. Face à l'éditeur de propriété pour modifier les propriétés des images de visage humain en même temps pour faire face à l'identité de l'invariance de garant et des informations d'attributs des domaines non liés. Par exemple, la figure montre que l'on se débarrasse des verres pour donner des chiffres, être conservés ailleurs, alors nous ne nous intéressons, avec d'autres régions et régionales liées à l'oeil, y compris fond, le front, la bouche, etc., doivent être conservés intacts. La première est la recherche appliquée dans le divertissement, les zones sociales, telles que le blanchiment du portrait, par âge, souriant, etc., et l'autre est sur le visage dans l'augmentation de la base de données de reconnaissance faciale, j'ai partie DONE du travail du peuple est par GAN faire la base de données de visage augmentée, et enfin d'améliorer la précision de la reconnaissance faciale.

Beaucoup de gens pensent que le travail est très simple, consiste à modifier les propriétés du visage humain, pourquoi ne pas la formation du réseau FCN? Le vrai problème est le manque d'images paires marquées, et ne peut donc pas être utilisé méthode d'apprentissage directement supervisé. Généré contre le réseau a été proposé en 2014, son essence est un cadre de discrimination et générateur composé de discriminateur est produit des images et des images réelles devraient établir une distinction, le générateur est d'essayer de générer une image trompeuse discriminateur fou et enfin atteindre le discriminateur d'image généré générateur ne peut pas distinguer entre réel ou généré, qui a atteint l'équilibre final.

Les progrès dans des domaines connexes présentation prochaine, et un de nos travaux connexes est AcGAN, parce que le but de GAN est de générer une image réelle, mais ne savent pas à la fin ce genre d'images générées, AcGAN est d'utiliser un contrôle de l'étiquette dans la fin Quel genre d'image est générée. Builder entrée ainsi que l'étiquette C, discriminateur D tout en faisant ce qui précède deux tâches: l'un est le classement vrai et faux, une étiquette de classification C, et, finalement, pour atteindre un générateur de résultat équilibré est capable de générer C est contrôlé par un très réel image. homme GAN avec l'éditeur d'attributs de visage, première consiste à mettre en avant IcGAN 2016, principalement pour faire de la formation en deux phases: un bruit de phase à travers la propriété C et Z, la formation d'un CGAN, mais cette fois que du bruit Z, notre objectif images d'entrée et de contrôle vectoriel, la lutte antivectorielle et la commande de sortie des images de visage.

Une autre étape est codée dans l'image par le Z du codeur, parce que la première phase est à Z de l'image, et la seconde phase a pris, à son tour, par des images du visage retournent à Z. Ce travail semble très travail, en fait, le plus grand inconvénient est que le travail ne peut pas maintenir les informations d'identité du visage. CycleGAN est un autre très bien connu le travail, il a fait un travail image à l'image apparié générale Traduction, le point clé est l'introduction de la fonction de perte de reconstruction pour assurer la cohérence du contenu de l'image, les informations de contenu de l'image ne soit pas perdu.

D'autre part, il y a la perte de la fonction de confrontation, assurez-vous le visage sans lunettes deviennent les lunettes picture images visage humain, puis utilisez la fonction pour se prémunir contre la perte traduit à un autre domaine. Un inconvénient est l'impossibilité de garantir CycleGAN propriété invariance zone sans rapport. Même s'il y a une perte de reconstruction de la fonction, les résultats expérimentaux trouvent qu'il est difficile de garantir, en plus du spectacle du lieu ne soit pas modifié.

StarGAN que CycleGAN un peu en avant, la conversion CycleGAN se fait entre deux domaines, ce qui signifie l'édition multi-attributs, chaque attribut sont formés à un GAN, StarGAN plus efficace parce qu'il a mis tous les attributs sont compressés à modifier à l'intérieur d'un réseau, entrée et CycleGAN est pas le même, il n'y a pas seulement des contrôles d'attributs d'image de visage humain C, D arbitre tout en faisant les deux tâches: l'un est le classement vrai et faux, un attribut de classification C par dans cette confrontation de manière, le générateur final peut être contrôlé pour générer une propriété face images C.

Ensuite, il y a ResGAN, le générateur d'origine est une production directe d'images de visage humain, superposé au-dessus de la carte originale, en fait, ce chiffre est le résultat de notre propre, mais l'effet de cette méthode est relativement pauvre, il a été également une bonne direction , qui est, lorsque vous faites de retouche d'image, ou modifier les propriétés du visage doivent veiller à ce que la zone ne sont pas la propriété est pas modifiée. La méthode proposée derrière nous est également basée sur des recherches antérieures, tout en assurant l'attribut indépendamment de la région ne sont pas modifiés.

Afin de résoudre le problème mentionné ci-dessus, nous introduisons mécanisme de l'attention spatiale, dans la plupart des applications de cette classification d'images, segmentation. Notre attention a été fait le réseau GAN Sagan a ajouté, comme indiqué dans notre réseau générateur G est composé de deux parties: un réseau d'attention spatiale (SAN) et le réseau d'édition propriété (AMN). Est seul responsable AMN de modification des propriétés, semblables au réseau précédent CycleGAN et StarGAN. se concentre réseau d'attention spatiale sur les zones qui doivent être modifiés, et quels domaines doivent être ignorés. Le masque est généré formules réseau d'attention, cela ne peut être verres concernés, puis mettre celui-ci sortir et faire le point au-dessus, le reste ne sera pas modifié en partie pris directement à partir de l'original, cousu ensemble l'image finale est généré.

Nous faisons ce réseau sagan principalement deux tâches: l'un est le classement vrai et faux, est une classification des biens, prendre en compte l'efficacité, parce que mes lunettes et verres entre la région de l'attention est le même, nous avons également mis en place deux propriété réciproque, on porte des lunettes réseau, un réseau est de lunettes, un sourire est un réseau, un réseau est de garder le sourire, se refléter dans la même zone qui.

Ici localiser la zone de, modifier liée à la propriété des propriétés du réseau est seul responsable de la modification des propriétés, la formule finale, nous obtenons le générateur. Tout au long de l'expérience et aussi plus bien connu CycleGAN, StarGAN et ResGAN à faire une comparaison, le choix principal des yeux, de la bouche, le nez et la barbe, qui est la reconnaissance au sein d'un impact relativement important, mais aussi pour la reconnaissance de notre travail à faire. Les résultats de l'évaluation sont d'un point de vue visuel et la précision de la classification des biens, dont deux sont faites de notre propre, on est MAE, un taux de reconnaissance faciale, sera décrit en détail plus loin dans ces deux indicateurs.

Afin de tester l'efficacité de notre approche, nous testons pour voir le réseau d'attention spatiale à la fin pouvoir apprendre quelque chose, ainsi que les résultats finaux sur des ensembles de données et CelebA LFW. La première rangée est modifié verres, verres à une, une porte des lunettes, le masque est la sortie du réseau de l'attention spatiale droite poids de figure, lié région de réponse particulièrement élevé, la région de la bouche bouche fermée Attention est liée à Beard Beard est ajouté Enfin, l'ensemble du visage à sourire, car le mécanisme de sourire est plus complexe, leur visage tout peut être déplacé.

Certaines personnes soupçonnent que nous ne sommes pas marqués avec des données supplémentaires, est la formation masque réseau, notre approche n'est pas marqué dans le jeu de données, similaire à la faible surveillance est également très efficace. Le visage de chaque personne à côté d'une photo en noir est entrée photos des images retouchées et affichage de la différence absolue, les effets visuels sont visibles dans des domaines non liés non modifiés. Notre approche est non seulement l'effet visuel est bon, mais seulement modifier une partie des lunettes liées.

Ensuite, il y a la bouche et renfermés, les effets visuels font également un meilleur travail. En fait, la barbe est plus difficile, car il est associé avec le sexe et ensemble, l'ensemble de données ne sont pas chez les filles image barbu, il est donc facile de devenir un homme de bâton de femme à barbe, puis les hommes à devenir barbe femme. Que ce soit appliqué à la femme à barbe ou moustache ne doit pas être le genre a changé, le réseau de l'attention de l'homme compare le travail dans ce cas, est le seul domaine de préoccupation lié à la barbe, les autres ne vont pas modifier. propriété Sourire est impliqué dans beaucoup de visage, nos résultats semble aussi mieux que d'autres méthodes. Ce sont des effets visuels juste, seront derrière les indicateurs quantitatifs réels.

Quelle superficie est la propriété ne définit pas faire? Telle est la définition de de notre propre, est de définir les propriétés des verres et chauve, on n'a rien à définir la zone de la moitié inférieure du visage ou de porter des lunettes parce que des lunettes, chauve seulement sur la moitié du visage. Plus bouche, barbe, souriant, la prochaine moitié du visage est concerné, quel que soit notre région dans la première moitié du visage, puis ne rien faire à la région du MAE pour, contre quatre méthodes. Cet indicateur est plus le meilleur, les résultats dans le tableau suivant, supérieur par rapport aux autres trois méthodes.

catégories d'attributs existent deux points: l'attribut cible doit être modifié, le reliquat des biens ne peut être modifié. Nous avons comparé cinq méthodes, la dernière manière est la vraie image, vous devez utiliser réelle que les images. Nous avons choisi seulement les yeux d'attributs cibles, le sourire et l'âge, qui est, de notre point de vue l'effet de la perte de classification est le meilleur et le plus proche de l'image réelle. En fait, l'image réelle est parce que nous ne sommes pas classification attribut précision de certains ne sont pas particulièrement élevé, un peu plus de 90%.

La dernière étape consiste à améliorer le taux de reconnaissance, et nous sommes quelques autres façons de faire contraste, est une formation plus de 8000 personnes dans l'ensemble de la formation, ce qui est notre propre division, l'ensemble de test est le reste du peuple. La ligne solide rouge représente la méthode proposée, la ligne en pointillé est de base, et plusieurs autres couleurs est StarGAN ResGAN, notre approche est beaucoup mieux qu'avant, cela prouve que notre méthode peut améliorer le taux de reconnaissance. Nous avons été la première faite par un homme face base de données sagan méthode augmentée, ce qui est un bon point d'application.

Enfin regarder vers l'avenir, nous faisons contribution majeure de ce travail n'est pas lié au mécanisme par garant de l'attention des propriétés de la zone visage, cette méthode peut être appliquée non seulement dans l'attribut visage peut être appliqué à l'éditeur de propriété plus générale. À l'heure actuelle, nous travaillons à développer l'attention doit être utilisé dans la réalisation de l'image ci-dessus, est maintenant à faire principalement avec le GAN, si l'attention est de savoir si le réseau est directement applicable à la région est bloquée, puis directement sur la zone occlus réalisée en complète.

L'autre est que notre méthode est très efficace pour améliorer le taux de reconnaissance, dans certains des millions et des milliards de données de niveau fixés pour ce spectacle que les attributs augmentée à faire, les résultats montrent peut améliorer un ou deux points. Notre approche a aussi quelques inconvénients, on nous ne pouvons pas exploiter la diversité des méthodes, telles que la diversité se reflète dans les différentes catégories à la même personne portant des lunettes, on ne peut donner à cette personne au hasard portant des lunettes.

Ensuite, plus d'une propriété est impossible, essayé avant à face éditeur multi-attributs intégré dans notre approche, mais les résultats des tests finaux étaient pauvres, car plusieurs propriétés dans les besoins d'attention multi-attributs pour aller. Nous pouvons suivre le processus d'édition des gens, les gens dans l'image est édité avec un mécanisme d'examen, pour voir comment l'effet d'un changement, l'effet est non seulement un autre changement, modifier la séquence de la manière, l'avenir de notre travail peut être étendu à se rapprocher de cette direction.

Pour un PPT complet, s'il vous plaît répondre retour: rapport académique

Photo fournie par Zhang

Derrière le rapport académique merveilleux, un groupe de talent académique exceptionnel. Les gens disent que doivent se livrer à « vulgarité » académique, les pauvres ont besoin d'être en mesure de supporter la solitude, en fait ...... noyau monarque veut dire: tout sans même ah! Par exemple, 2018 Baidu appliquer immédiatement pour une bourse - oui, le talent Baidu pour chaque IA a des élites académiques « potentielles » pour fournir une ressources large de la plate-forme et de l'espace de développement, 200000 pour fournir un soutien financier de la recherche pour aider le corps exceptionnel des étudiants coeur dans la recherche scientifique, se concentrer sur l'exploration scientifique.

Alors quoi, vous - la prochaine star académique, appliquez rapidement vous inscrire dès maintenant!

Pour réimprimer, s'il vous plaît laisser un message dans les coulisses, se conformer aux normes de réimpression

Hafer commence après F7, pour parler de ma sensation de voiture
Précédent
Aujourd'hui, le son de base | vous êtes mes yeux me prennent à travers la foule -
Prochain
L'efficacité énergétique / puissance mise à niveau des modèles Jeep Compass 1,3T mis en vente Wan 15,58 à 22,98
club de volley-ball Beiqi en reconnaissance de l'année a eu lieu à Beijing et Xu Yi: le soutien du développement des clubs
Marteau nouvelle conférence, Surchauffe subvertir quoi?
Pour répondre aux besoins des utilisateurs plus, intérieur Isuzu Jiangxi vue de la nouvelle exposition Billiton cloche
Alibaba Hongjia Peng: les gens contre réseau et générer des attributs cachés échange migration d'attribut face
Ensuite, définir ou révolution? Suoni La d'un écran d'encre électronique!
Le nouveau design « V profond » Kai Chen trois modèles EV chiffre officiel publié Shanghai Motor Show
« BDIC équipe du Grand Prix a rapporté » grandes données et l'intelligence artificielle, jeu télévisé de style créatif (sur)
Ânerie! Microsoft a dévoilé une application selfie
Lenovo a publié Z5 vue réelle extérieur, il n'y a pas de comptabilité pour Liu + ultra impressionnant écran
« Rapport académique » Alibaba Jin Chun Qi: pour renforcer l'application de l'apprentissage dans l'affichage publicitaire aux enchères en temps réel
voitures Dirks poussera le Ugine suisse T70L / T72L Dora Run