Ji-won 1 nouvelle compilation
GAN (généré contre le réseau) apporte beaucoup de surprises pour les tâches de transformation d'image concernent par de nombreux chercheurs. Récemment, par exemple, est le feu projet « chat peint » (edges2cats): définir les contours des objets, réseau de neurones peuvent automatiquement des informations d'image complète, pour générer l'image correspondante (figure 1). Il a également été trou du cerveau grand ouvert, avec DCGAN, WGAN GAN pour produire quatre sortes de « tableau de chat » (figure 2). Récemment, NTT Data itok_msi est le petit frère du Japon avec lequel le relativement nouveau réseau cycleGAN, a fait un modèle de « l'image du chien est devenu chat », et génère la couleur du pelage et de la posture d'un chat et de garder un chien comme une entrée d'image.
Figure 1: edges2cats dessin chats
Figure 2: Image de chat généré WGAN
cycleGAN
le style cycleGAN est une technologie de conversion d'image à l'UC Berkeley Jun-Yan Zhu, qui a proposé. L'idée dans le cas d'une paire de données de formation n'a pas réalisé le style de conversion d'image. effet cycleGAN est impressionnant, il permet à différents styles de peintures de l'artiste réduit à des photos, l'été devient l'hiver, le cheval devient zèbre, orange deviennent des pommes, etc. (figure 3).
Figure 3: le rendement de transfert d'image cycleGAN
méthodes spécifiques CycleGAN et les détails de mise en uvre voir les documents, l'adresse papiers: https: //arxiv.org/abs/1703.10593
les chiens et les chats cycleGAN des difficultés de conversion
En fait, dans cycleGAN documents originaux (Zhu, Jun-Yan, et al., 2017) a également soulevé l'image du chien devient l'idée d'un chat, mais les résultats expérimentaux du papier est un échec (Figure 4).
Figure 4: cycleGAN le chien dans un chat est un exemple d'échec
Ceci est parce que les chats et les chiens couleur du pelage, des textures différentes, en particulier, le visage très différent. papier original a également souligné que c'est un sujet des besoins de recherche future.
En particulier, le chat de Gdog (chien dans un chat) hors de l'image est presque identique à l'original. Qu'est-ce? Les auteurs suggèrent deux raisons possibles:
1. Cycle effet de perte de cohérence est trop forte
Pour transformer les chats et les chiens, vous devez sacrifier une partie de l'information de l'image d'entrée. Cela nécessite le cycle augmente de perte de cohérence. Dans un aspect, exactement comme si l'image de l'image d'entrée et la sortie, à savoir nécessite une perte de cohérence de cycle minimum. Nous voulons devenir un chien un chat, alors il est pas exactement la même chose, qui est, cycleGAN besoin d'une plus grande perte. Cependant, le problème est ici chez les chiens et les chats ont des caractéristiques locales sont très similaires.
2. Les caractéristiques locales sont très similaires pour les chiens et les chats
discriminateur cycleGAN (DA, DB) en utilisant patchGAN (Référence ) un mécanisme d'apprentissage. image d'entrée discriminante est une image générée par le générateur ou l'image source, l'image entière n'a pas été utilisé, mais l'utilisation d'images partielles (patch) discriminé.
Bien que petit réseau discriminateur est bon, mais certains chats et les chiens est très similaire à des caractéristiques locales, cet apprentissage difficile (fig. 5). En d'autres termes, même si le chat de Gdog (chien dans un chat) a produit des résultats cohérents avec l'image source, il est également susceptible de discriminateur tromper ledit effet de conversion est très bon.
Figure 5: Les chiens et les chats ont des caractéristiques locales sont très similaires
version modifiée de cycleGAN
Pour les deux questions ci-dessus, à cycleGAN étaient deux changements simples.
1. Soit les juges discriminantes observés fonction mondiale
En bref, une couche discriminateur augmentation de patchGAN, LGAN garde de l'information de l'information globale et locale.
2. sur la proportion de la fonction d'erreur devient une perte de cohérence du cycle plus petit
cycle de coefficient de perte de cohérence est réduite à 1/10 de la fonction d'erreur.
expérience
Mettre en uvre des modifications mineures sur la base open source dans les auteurs cycleGAN pytorch, environnement expérimental est des exemples p2.2xlarge de aws.
utilisation des données
Utilisez Oxford-IIIT Pet Dataset, où l'image est chien 1922, image de chat 3922 en tant que données de formation, et le reste que les données de vérification.
Les résultats expérimentaux
Bon résultat ( Chats Chiens)
Les chats semblent regarder la sortie stupide stupide stupide stupide est le résultat d'un chien
Bon résultat ( Chiens Chats)
Les conséquences de l'échec ( Chats Chiens)
Les conséquences de l'échec ( Chiens Chats)
penser
Bien que certaines modifications ont été apportées, mais parfois ne peuvent pas obtenir les résultats escomptés, en particulier:
-
Les animaux à fourrure pas gardé l'information
-
Et mélange d'arrière-plan animal
-
L'image résultante est très floue
-
Chats et chiens images avant et après la conversion semble pas différent
Des exemples de défaillance peu plus.
La raison peut être:
-
taux d'erreur réseau de la petite modification
-
réseau discriminateur est trop grand pour étudier l'effet est pas bon
D'autres résultats
Sur la base des expériences ci-dessus, les raisons possibles pour continuer à modifier l'expérience a échoué, pour obtenir quelques bons résultats:
Bon résultat ( Chats Chiens)
Bon résultat ( Chiens Chats)
Les conséquences de l'échec ( Chats Chiens)
Les conséquences de l'échec ( Chiens Chats)
En général, si les chiens et les chats font face à l'avant de l'image, le résultat sera meilleur. En effet, à l'avant, les chats et les chiens ont des traits du visage similaires. Cependant, dans les exemples ci-dessus deux, si l'image d'un visage de chien ou un chat vers le côté, le chien a de grandes oreilles et les chats ne ont pas besoin d'être audacieux transformation, il est encore assez difficile.
références
Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros, apparié image à l'image en utilisant la traduction accusatoire Réseaux Cycle Consistent, arXiv prépublication arXiv: 1703,105932017.
Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros, Traduction image-to-Image avec Conditionnel accusatoires Networks, Traduction image-to-Image avec Conditionnel accusatoire Networks, arXiv prépublication arXiv: 1611,070042016.
Original: http: //qiita.com/itok_msi/items/b6b615bc28b1a720afd7
Cliquez ici pour lire le message original pour voir les détails, espérons que vous pouvez rejoindre ~