Etonnamment Wasserstein GAN, résoudre complètement le problème de l'instabilité formation GAN

1 Xinzhi yuans Recommandé

Auteur: Zheng Huabin

AI redémarrage, mise à jour Vientiane!

Ji-won Je souhaite que notre nouveaux abonnés de coq!

New Ji-won pour lancer un nouveau cycle de recrutement : COO, directeur de la rédaction, rédacteur en chef, compilateur avancé, écrivain, directeur des opérations, directeur de comptes, directeur conseil, adjoint administratif et neuf autres positions complètement ouvertes.

livraison de reprise: j obs@aiera.com.cn

HR Micro lettre: 13552313024

Ji-won en tant que nouveau chef de l'exploitation et directeur de la rédaction du plus haut salaire annuel de plus d'un million d'incitation, pour fournir le système le plus complet de formation est l'épine dorsale du personnel, Plus élevé que l'industrie niveau moyen des salaires et des primes.

Chi Yuan a rejoint les nouvelles, l'intelligence artificielle et leaders de l'industrie travaillent ensemble pour changer le monde.

[New Ji-won EXAMEN Cet article analyse détaillée de la récente a suscité la discussion chauffée en version reddit Machine Learning d'un papier Wassertein GAN, le papier proposé WGAN par rapport au processus de mise en uvre de l'algorithme de GAN original est modifié, mais seulement quatre points, mais la réalisation de la résoudre une formation d'instabilité GAN essentiellement résolu le problème du mode d'effondrement et d'autres avantages.

GAN recherche en plein essor, même être considéré comme endémique aujourd'hui, un document arXiv fraîchement sorti du four Wassertein GAN était en feu Machine Learning Channel Reddit, même Goodfellow et une discussion animée à la fois dans le poste, que ce document comment pas le placer?

Pour savoir que depuis 2014, Ian Goodfellow a fait, GAN sur l'existence de difficultés dans la formation, générateurs et arbitre de la perte ne peut pas indiquer que le processus de formation, le manque de générer un échantillon de la diversité et d'autres questions. Depuis lors, de nombreux articles tentent de résoudre, mais les résultats ne sont pas satisfaisants, comme le plus célèbre est de compter sur la discrimination DCGAN améliorée et l'énumération de l'expérience de l'architecture du générateur, enfin nous avons trouvé un meilleur ensemble de l'architecture de réseau paramètres, mais en fait, il est une solution temporaire, ne résout pas complètement le problème. protagoniste d'aujourd'hui Wasserstein GAN (ci-dessous dénommé WGAN) a réussi à faire un peu moins explosif:

  • formation GAN résoudre complètement le problème de l'instabilité, plus besoin d'équilibrer soigneusement le degré de générateurs de formation et classificateurs

  • Fondamentalement résolu le problème du mode d'effondrement, assurant les échantillons générés de la diversité

  • Enfin, il y a une image de processus de formation d'entropie croisée, l'exactitude de ces valeurs pour indiquer le processus de formation, plus cette valeur plus le GAN de formation représentative, pour produire image représentative de la qualité supérieure du générateur (comme représenté sur la figure. Titre)

  • Tous les avantages ci-dessus ne ont pas besoin de l'architecture réseau bien conçu, le plus multi-couches réseau entièrement connecté peut être fait

Où sont les avantages qui viennent d'en haut? Bizarrement, cela fait partie de la - du fait qu'il a fallu deux documents, dans le premier article intitulé « Vers Principled méthodes de formation génératives accusatoires Networks » qui a poussé un tas de théorème de formule, analysé théoriquement le GAN d'origine le problème, afin de donner les points d'amélioration ciblés, dans ce deuxième « Wassertein GAN » qui, encore une fois amélioré de ce point de départ pour pousser un groupe de théorème de formule, donne éventuellement processus de mise en uvre améliorée de l'algorithme, et l'amélioration par rapport au processus de mise en uvre de l'algorithme de GAN d'origine, mais seulement changé quatre points:

  • Discriminateur retirer la dernière couche sigmoïde

  • Et classificateurs générant une perte connecter ne prend pas

  • Après chaque mise à jour des paramètres du discriminateur tronqué à leurs valeurs absolues ne dépasse pas une constante fixe C de

  • Ne pas utiliser des algorithmes d'optimisation dynamique (y compris l'élan et Adam) basé sur la recommandation RMSProp, SGD est OK

algorithme Capture d'écran est la suivante:

Le changement est si simple, l'effet est étonnamment bon, tant de gens sur Reddit soupir: Alors? Rien d'autre? Trop simple maintenant! La réaction me rappelle d'une année d'un tout à fait morceau de soupe au poulet, dit être un ingénieur dans les coups de boîtier du moteur avec une ligne rose résolu le problème, demander dix mille dollars - pour tracer une ligne, 100 $, savoir où tracer la ligne et 9999 $. Ces quatre points au-dessus de l'amélioration est l'auteur Martin Arjovsky dessiner les quatre lignes simples, est suffisante pour la réalisation du projet, mais savoir où il est passé derrière l'analyse mathématique sophistiquée, ce qui est le contenu du document de travail veut.

Ce document est divisé en cinq parties:

  • GAN originale exactement ce qui ne va pas? (Cette partie est plus)

  • Avant WGAN une solution provisoire

  • propriétés avantageuses Distance Wasserstein

  • Distance de Wasserstein à WGAN

  • résumé

  • De nombreux théorèmes compréhension de la formule originale a besoin une certaine maîtrise de la théorie de la mesure de la connaissance mathématique, topologie, etc., ce sera une interprétation importante de chaque formule d'un point de vue intuitif, parfois par quelques exemples mathématiques faibles dimensions pour aider le lecteur à comprendre la pensée derrière elle, donc inévitablement perdu dans la rigueur, si des allusions inappropriées, s'il vous plaît remarquer dans les commentaires.

    Wassertein GAN ci-après dénommé le « WGAN cela comme » court vers Principled méthodes de formation génératives accusatoires Networks « WGAN avant. »

    WGAN mise en uvre de la source: https: //github.com/martinarjovsky/WassersteinGAN

    La première partie: le GAN d'origine ce qui est le problème exactement?

    Rappelons que la fonction de perte de discriminateur de GAN d'origine pour être réduite au minimum dans la mesure du possible dans les échantillons des exemples réels positifs, générer un échantillon dans un exemple de négatif:

    Dans laquelle Pr est la distribution réelle de l'échantillon, l'échantillon Pg est généré par le générateur de profil. Pour le générateur, Goodfellow a fait un début à une perte de fonction, et a ensuite proposé une fonction améliorée de la perte, à savoir,

    Les deux derniers documents cités WGAN « le - log D alternatif » ou « - journal trick D ». WGAN avant ont été analysées les deux formes du GAN d'origine de leur problème, sont expliqués ci-dessous.

    La première question de la forme du GAN d'origine

    Résumée dans une phrase: discriminateur, mieux, plus grave la disparition du générateur de gradient. WGAN avant été démontrée à partir de deux angles, un premier angle est équivalente à la perte de la coupe du générateur de fonction.

    En premier lieu, il peut être obtenu à partir de l'équation 1, où le générateur de paramètres fixes G Quel est le discriminateur D optimal devrait être. Pour un échantillon particulier, il peut venir de la distribution réelle peut également générer de la distribution de sa contribution à la Formule 1 est fonction de perte

    Faire dérivé avec D (x) est égal à 0, pour donner

    La simplification a été le meilleur discriminateur est:

    Ce résultat est facile à comprendre de manière intuitive, il est à voir un échantillon x à partir de vraies proportions relatives des distributions de distribution et de probabilité générées. Si Pr (x) = 0 et Pg (x) 0, le meilleur discriminateur devrait être très confiant étant donné la probabilité 0, si Pr (x) = p (x), ce qui indique que l'échantillon est vrai de la possibilité de seulement la moitié et la moitié, alors il devrait donner la meilleure probabilité de 0,5 discriminateur.

    Cependant GAN a formé un truc, qui est, ne, sinon prenez pas classificateurs trop bien formé dans le générateur d'expérience sera complètement immobile la science (perte non aller vers le bas), afin d'explorer les raisons, nous pouvons regarder un cas extrême - - lorsque le meilleur discriminateur, la perte de générateur de fonction de ce qui devient. Pour l'équation 2 plus un générateur ne dépend pas de l'élément à se rendre en

    Notez que, pour minimiser la fonction de perte est équivalente à minimiser l'équation 2, et il se trouve être une fonction inverse de la perte de discriminateur. discriminateur optimale à-dire son remplacement par l'équation 4, alors une simple transformation peut être obtenue

    Converti de cette manière est d'introduire la divergence Kullback-Leibler (appelée divergence KL) et de divergence Jensen-Shannon (appelée divergence JS) de ces mesures deux similitude importante, une distance Wasserstein derrière le protagoniste, est suspendue ils jouent deux. Donc, nous présentons ces divergences de --KL deux important rôle de soutien et de divergence JS:

    Nous pouvons donc continuer à écrire comme équation 5

    Ici, le lecteur peut tout d'abord le souffle, regardez le courant Quelles conclusions: Selon la perte de discriminateur du GAN d'origine définie, nous pouvons obtenir la forme optimale d'arbitre, et dans le meilleur discriminateur, nous pouvons mettre le GAN d'origine générateur défini par une perte équivalente divergence entre JS minimisant la génération et la distribution de la distribution réelle Pr Pg. Plus nous discriminateur entraînons, plus il est proche de générateur minimum métaplasie optimal de la perte sera également plus semblable à la divergence JS entre la minimisation Pr et Pg.

    Les mensonges de problème dans la divergence JS. Nous espérons que le plus petit, plus ils JS divergence entre les deux distributions si, en optimisant la divergence JS, nous serons en mesure de Pg « tirer à » Pr, finalement trompeur. Le chevauchement de l'espoir dans les deux distributions est temps de mettre en place, mais si les deux distributions est pas de chevauchement ou se chevauchent peuvent être ignorés (expliqué ci-dessous ce qui est négligeable), ils JS divergence est combien ?

    La réponse est log2, parce que pour une x seulement quatre possibilités:

    Le premier ne contribue pas à la divergence calculée JS, depuis le deuxième cas, il est une contribution négligeable à la partie chevauchée est également 0, un troisième cas, la contribution du premier terme à droite est la formule 7

    Le quatrième cas est similaire, de sorte que la finale

    En d'autres termes, peu importe avec le Pr Pg est loin, ou en vue, tant que les deux ne font pas partie de chevauchement ou de chevauchement qui peut être ignoré, JS divergence constante Iog2 est fixé, Cela signifie que pour la méthode de descente de gradient - gradient de 0! Cette fois-ci pour le meilleur discriminateur, le générateur est certainement pas la moindre information de gradient, même pour discriminateur presque optimale, le générateur est aussi une excellente occasion pour faire face à la pente disparaître.

    Mais la possibilité de Pr et Pg se chevauchent ou des parties non-chevauchement peut ignorer combien? Pas de réponse rigoureuse est: très grande. La réponse est plus sévère: Pr et Pg lorsque l'ensemble de support (Support) est un collecteur de faible dimension (le collecteur) espace de grande dimension, Pr et Pg mesurer portion de chevauchement (la mesure) est la probabilité de 0 à 1.

    Ne pas avoir peur de désactiver les pages de termes étranges, bien que le papier est donné une description mathématique stricte, mais est en fait très facile à comprendre intuitivement. Tout d'abord, un bref regard sur ces concepts:

    • Set support (support)

    • Manifold (collecteur)

    • Mesure (mesure)

    Avec le recul de la première phrase, « Pr et Pg ensemble lorsque le support est un collecteur de faible dimension dans l'espace tridimensionnel à haute », ce qui est établi sensiblement. La raison en est que le GAN est habituellement généré à partir d'un des échantillons de faibles dimensions (par exemple 100 dimensions) dans un vecteur codant pour la distribution aléatoire, et ensuite à travers un réseau neuronal pour générer un échantillon de grande dimension (par exemple une image de 64x64 ont des dimensions 4096) . Lorsque le générateur de paramètre fixe, la probabilité de génération d'une distribution de l'échantillon, bien que l'espace défini 4096 dimension, mais toutes ses variations peuvent se produire ont été répartis de façon aléatoire la dimension 100 est définie, dont la dimension essentiellement 100, considérer cartographie du réseau de neurones pour amener la réduction de la dimension peut éventuellement être inférieure à 100, il génère un ensemble de support de distribution échantillon constitue une dimension allant jusqu'à 100 dans un espace tridimensionnel collecteur de faible dimension 4096, « insatisfaction de maintien » avec la totalité de l'espace de dimension élevée.

    « Attente insatisfait » va conduire à la distribution réelle de dur « surface de contact » et la distribution de la production, il est facile à comprendre en deux dimensions: d'une part, deux courbes de plan en deux dimensions sélectionné de façon aléatoire, il suffit de la présence du segment de chevauchement entre ceux-ci probabilité est 0; d'autre part, bien qu'ils puissent exister grande intersection, mais comparé en termes de deux courbes, les intersections d'une dimension inférieure à la longueur de la courbe (mesure) est égal à 0, il peut être ignoré. En trois dimensions d'espace sont similaires, choisis au hasard deux surfaces, il y a une comparaison entre une ligne maximale possible d'intersection entre eux, mais une dimension inférieure à la surface en coupe ligne, est de 0, il peut être ignoré la zone (de mesure). espace de petite dimension pour étendre à un espace de grande dimension, il y a la logique suivante: Depuis le début du générateur aléatoire initialisé, Pr et Pg est presque impossible d'avoir une quelconque pertinence, le chevauchement entre leurs supports fixé soit inexistante ou la plus petite dimension de Pr et Pg est encore plus faible au moins une dimension, et donc de mesurer 0. Le soi-disant « partie chevauchement mesure 0 » est indiqué précédemment, « ne se chevauchent pas ou partiellement chevauchement négligeable » signifie.

    Nous obtenons le premier argument concernant disparait générateur de gradient de WGAN prédécesseur: à (environ) le meilleur discriminateur, générateur de métaplasie est équivalent minimum de perte pour réduire au minimum et Pr Pg JS divergence entre les deux, et comme Pr et Pg presque impossible d'avoir un recouvrement non-négligeable, de sorte que quelle que soit la distance ils sont des constantes divergence log2 JS, résultant en un générateur de gradient (environ) est de 0, le gradient disparaît.

    Alors j'écris beaucoup de formules pour démontrer théorèmes du deuxième point de vue, mais l'idée derrière elle peut être visuellement expliqué:

    • Tout d'abord, PRPG

    • Etant donné qu'un réseau de neurones est déterminé comme étant l'ajustement peut être illimité cloison incurvée, il y a un discriminateur optimum, presque tous les échantillons ont la probabilité réelle 1, la quasi-totalité des échantillons afin de générer une probabilité donnée 0, et les parties non séparé il est difficile à classer dans les meilleurs échantillons discriminantes, mais leur mesure est 0 peut être ignoré.

    • analyse de probabilité de discriminateur optimale sur la distribution réelle du support et de distribution sont générées à courant constant (1 et 0), ce qui entraîne le générateur de gradient de perte est égal à 0, le gradient disparaît.

    Avec cette théorie, la cause de l'instabilité GAN d'origine tout à fait claire: discriminateur trop bien formés, disparaissent générateur de gradient, la perte de générateur ne descendrons point, la formation et discriminateur, ne sont pas autorisés générateur de gradient, quatre courir. discriminateur formation ne pourrait pas être vraiment mauvais travail, mais la chaleur et difficile à appréhender, même à différents stades du même cycle de formation avant et après la chaleur peuvent ne pas être les mêmes, GAN était une formation si difficile.

    Experimental preuve secondaire comme suit:

    FIG: WGAN avant la Figure 2. Première DCGAN respectivement une formation 1,20,25 Epoch, puis la fixation du générateur ne se déplace pas, il est re-initialisation déterminée de l'aléatoire à partir du début de la formation, le gradient pour la première forme de perte générée par le générateur peut imprimer sa courbe d'échelle, comme on peut le voir discriminateur de formation, le générateur de gradient sont rapidement désintégration. Notez que l'axe y est un axe logarithmique.

    La deuxième forme du problème de GAN d'origine

    Résumer en une phrase: pour minimiser la fonction de perte du second générateur sera équivalent à minimiser une mesure de distance déraisonnable, conduisant à deux questions, à savoir l'instabilité gradient, et le second mode effondrement qui est le manque de diversité. WGAN avant est a été démontré sous deux angles, dit ce qui suit que le premier point de vue, parce que, pour le second point de vue, je ne peux pas trouver un moyen intuitif d'explication, les lecteurs intéressés ou visitez le papier sur lequel il.

    Comme mentionné précédemment, Ian Goodfellow a proposé « - journal trick D » est remplacée par la perte Builder

    Ce qui précède est dérivé dans le discriminateur optimum D *

    Nous pouvons KL divergence (notez que ce qui suit est à g r) D * contenant converti en la forme:

    Il peut être obtenu par la modification équivalente formule 3,9,10 minimiser l'objectif

    On notera que l'équation ci-dessus ne dépend pas de ces deux derniers générateur G, la formule de minimisation finalement obtenu 3 est équivalent à minimiser

    Il y a deux problèmes graves, cela équivaut à minimiser l'objectif. La première est qu'il génère tout en minimisant la divergence KL et les distributions réelles de, mais pour maximiser la divergence JS entre les deux, à un étroit doit repousser! Il est absurde de manière intuitive, peut conduire à gradient numériquement instable, ce qui se cache derrière l'élément de mauvaise divergence JS.

    En second lieu, même si l'avant du terme de divergence normale KL est également défectueux. Étant donné que la divergence KL n'est pas une mesure de symétrie, KL (p || Pr) et KL (Pr || Pg) il y a une différence. Le premier, par exemple

    En d'autres termes, KL (Pg || Pr) pour les deux pénalité d'erreur ne sont pas les mêmes que ci-dessus, une première erreur qui correspond à la « générateur ne génère pas vrai échantillon », mineur pénalité; le second correspond d'erreur à un " générateur génère un faux échantillon « grand châtiment. La première correspond à une erreur d'absence de diversité, correspondant à la seconde erreur est le manque de précision. En vertu de cette mettre une douzaine, le générateur serait plutôt générer une répétition, mais il est échantillon « sûr », mais aussi ne veulent pas générer une variété d'échantillons, parce que croire produira la deuxième erreur, ne vaut pas la chandelle. Ce phénomène est, nous disons souvent que le mode d'effondrement.

    La première partie Sommaire: Sous discriminateur optimale des problèmes de perte, de GAN (environ) le premier original générateur de gradient fait face disparait, la deuxième objectifs d'optimisation face la perte de générateur d'instabilité ridicule, gradient, la diversité et la punition précision mode de déséquilibre effondrement ces questions.

    Experimental preuve secondaire comme suit:

    FIG: WGAN avant la Figure 3. Première DCGAN respectivement une formation 1,20,25 Epoch, puis la fixation du générateur ne se déplace pas, il est re-initialisation déterminée de l'aléatoire à partir du début de la formation, la pente de la deuxième forme de perte générée par le générateur peut imprimer sa courbe d'échelle, comme on peut le voir à gradient de croissance rapide classificateurs formés, courbes bleues et vertes générateur décrit l'instabilité gradient, ce qui correspond à l'état de convergence par rapport DCGAN rouge, le gradient était stable.

    Partie II: avant WGAN une solution provisoire

    racine d'origine GAN du problème peut être attribué à deux choses, un équivalent optimisé pour mesurer la distance (divergence KL, divergence JS) est déraisonnable, le second est la distribution du générateur pour générer l'initialisation aléatoire ne peut pas être ignoré et difficile d'avoir la distribution réelle chevauchement.

    WGAN avant le fait a été proposé pour le deuxième point d'une solution est de générer un échantillon et échantillon réel plus le bruit, intuitivement il a dit que les deux avaient des collecteurs de faible dimension « diffuse » à l'ensemble de l'espace-dimensionnelle, les forçant à produire chevauchement non négligeable. Une fois que le chevauchement existe, la divergence JS peut vraiment jouer un rôle dans ce cas, si plus les deux distributions sont « diffus » sur plus de chevauchement, la divergence JS ne sera pas toujours plus petite et une constante, puis (dans la première forme de la GAN originale) gradient disparaît problème est résolu. Pendant la formation, nous pouvons ajouter du bruit au recuit (recuit), ce qui diminue progressivement la variance, à l'arrière des deux « corps » bas des variétés de dimension quand on a superposé, même si le bruit est complètement enlevé, JS divergence peut encore jouer un rôle, continuent d'avoir un gradient significatif des deux collecteur de faible dimension étroite, jusqu'à ce qu'ils presque complètement coïncident. Ce sont l'interprétation visuelle du texte original.

    Dans cette solution, nous pouvons en toute sécurité mettre la formation discriminateur à proximité optimale, ne vous inquiétez pas les gradient de disparait problème. Lorsque la détermination et la plupart, une perte minimale de classificateurs disponibles niés Formule 9

    Pr + e où et Pg + e sont la distribution réelle et la distribution après avoir ajouté le bruit généré. A l'inverse, de la meilleure discriminateur de divergence de perte JS peut lancer l'ajout d'anti-bruit deux distributions actuelles. Deux JS distribution de divergence plus le bruit peut être à une distance de deux représentants avaient distribué dans une certaine mesure, qui peut être le meilleur arbitre de la perte reflète le processus de formation! ...... vraiment bonne chose?

    Ne pas, à cause du bruit supplémentaires JS divergence des valeurs spécifiques affectées par la variance du bruit, les valeurs de bruit que le recuit, on ne peut pas comparer avant et après, il ne peut donc être essentiel pour mesurer la distance du Pr et Pg.

    Parce que l'objectif de cet article est WGAN lui-même, si WGAN avant d'ajouter du bruit au mémoire du programme ici, les lecteurs intéressés peuvent lire le texte original pour plus de détails. Ajoutant programme de bruit est le deuxième point de la racine du problème soulevé par le GAN d'origine, pour résoudre le problème de la formation de l'instabilité, ne pas besoin d'équilibrer soigneusement la formation discriminateur du four, vous pouvez en toute sécurité mis discriminateur formation proche de l'optimum, mais toujours pas en mesure de fournir un index numérique pour mesurer le processus de formation. Mais WGAN Cela fait le premier point de départ à partir des racines au lieu de divergence JS avec la distance Wasserstein, alors que l'achèvement des problèmes de formation et la stabilité des indicateurs de processus!

    Les auteurs n'ont pas l'intention de cette vérification expérimentale.

    la distance Wasserstein des propriétés avantageuses: une troisième partie

    Wasserstein de distance Terre-Déplacement (EM) connu, défini comme suit:

    Expliquée comme suit: (Pr, Pg) est l'ensemble de tous distribution conjointe possible Pr et Pg sont combinés, à l'inverse, bord (Pr, Pg) de chaque distribution est une distribution de Pr et Pg. Pour chaque distribution possible combinaison de , il peut être obtenu à partir d'un échantillon authentique et un échantillon x générer des échantillons y et calcule la distance de l'échantillon que || x - y ||, il est possible de calculer la distribution conjointe de l'échantillon à la distance des attentes. Toutes les combinaisons possibles de la distribution peuvent être prises à la limite inférieure de la valeur attendue, il est défini comme la distance Wasserstein.

    Comme il peut être compris intuitivement ce qu 'au « de planification de trajectoire » à cette pile Pr « sable » déplacé Pg « position » requis « consommé », et W (Pr, Pg) est « planification du chemin optimal » dans "consommation minimale", que l'on appelle la Terre-Mover (bulldozer) distance.

    Wasserstein comparé distance de divergence KL, la supériorité de divergence JS est que, même si les deux distributions ne se chevauchent pas, la distance restant à refléter la distance de celle-ci Wasserstein. WGAN cela pour un exemple simple illustre ce point. Considérons les suivants deux distributions P et P dans l'espace à deux dimensions, le segment de ligne AB uniformément répartie P, P distribution uniforme du segment de droite CD, peut être commandé le paramètre par réglage de la distance de la distribution de deux à distance.

    Aisément disponible à ce moment (le lecteur peut s'authentifier)

    divergence KL et la divergence JS est muté, que ce soit maximum ou minimum, la distance Wasserstein est lisse Si nous utilisons la méthode de descente de gradient pour optimiser le paramètre , les deux premiers peuvent tout simplement pas fournir le gradient peut, la distance Wasserstein. De même, dans l'espace de grande dimension, si les deux distributions ne se chevauchent pas ou se chevauchent partiellement négligeable, et la distance KL JS ne reflètent à la fois, ne peut pas fournir un gradient, Mais il peut fournir un gradient significatif Wasserstein.

    Partie IV: Distance de Wasserstein à WGAN

    Puisque la distance Wasserstein a des propriétés supérieures, si nous pouvons le définir comme un générateur de perte, vous ne pouvez pas avoir un gradient significatif pour mettre à jour le générateur, de manière à générer de la distribution est tirée à la distribution réelle de celui-ci?

    Pas si simple, parce que dans (équation 12) ne peut pas résoudre directement la distance Wasserstein est définie, mais il n'a pas d'importance, les auteurs ont utilisé un théorème, il a été transformé en la forme suivante

    La preuve a été jeté auteur de l'annexe du papier, et nous du mal, peu importe, jeter un oeil à la formule exactement ce qui a été dit.

    Tout d'abord besoin d'introduire un concept --Lipschitz continu. Il est en fait une application continue d'une fonction de limitation supplémentaire f ci-dessus, nécessitent la présence d'une constante de telle sorte que deux éléments quelconques k0 X et X sont définies dans la technique pour répondre à la

    A ce moment, ladite constante de Lipschitz pour la fonction f K.

    Simple à comprendre, par exemple, le domaine de f est l'ensemble des nombres réels, que l'exigence ci-dessus est équivalente à la dérivée de la fonction f est pas plus que la valeur absolue de K. Un autre journal exemple (x) n'est pas Lipschitz continue, parce que sa fonction ne guide pas la communauté. Lipschitz conditions continues limiter l'amplitude maximale de la variation locale d'une fonction continue.

    Dans les conditions de l'équation 13 signifie que la fonction f est requise Lipschitz K ne dépassant pas constante, la mesure du possible de satisfaire la condition f prendre la limite supérieure, puis divisé par K. nous pouvons définir, en particulier, un ensemble de paramètres w une série de fonctions possibles, la résolution de l'équation 13 à ce moment peut être approchée sous la forme suivante Solution

    Et puis nous nous engageons dans l'apprentissage en profondeur des personnes les plus familières avec les choses, vous ne pouvez pas utiliser le f w paramètres d'un réseau de neurones pour représenter la chose! Étant donné que la capacité mise en place du réseau de neurones est assez forte, nous avons des raisons de croire que ces définitions d'une série de 13, bien qu'ils ne peuvent pas couvrir autant que possible, mais assez que la formule très approximative.

    Enfin, nous ne pouvons pas oublier la limite de 14 pour répondre à cette formule. En fait, nous ne nous soucions pas de la spécifique K est le nombre, tant que ce n'est pas infini positif sur la ligne, car il rend juste le temps de gradient K plus, et n'affectera pas la direction du gradient. Ainsi, l'auteur a adopté une approche très simple est de limiter le réseau de neurones ne dépasse pas une certaine gamme tous les paramètres, par exemple, lorsque toutes les dérivées partielles ne dépassent pas une certaine plage, il doit y avoir un K constante inconnue telle que l'ampleur des variations locales ne le dépasser, la condition lipschitzienne est satisfaite. Dans l'algorithme particulier, nous avons seulement besoin de mise à jour après chaque clip w fini revenir à la plage sur elle.

    Jusqu'à présent, on peut construire contenant un paramètre w, détermine la dernière couche d'un réseau de la couche active est non linéaire, dans la limite d'au plus w une gamme de conditions, par exemple

    Possible de prendre le maximum, la distance entre la distribution Wasserstein va se rapprocher de la distribution réelle génération L (sans tenir compte d'un multiple constant de K). Notez que le do discriminateur GAN d'origine est vrai et faux tâche de classification binaire, la couche finale est le sigmoïde, mais maintenant WGAN discriminateur Do est en forme approximative la distance Wasserstein, appartiennent à revenir à la tâche, afin de mettre la dernière couche du sigmoïde enlevé.

    A côté de générateur d'environ minimiser la distance Wasserstein peut être réduite au minimum L, en raison de l'excellente propriétés Wasserstein la distance, nous ne devons nous préoccuper de l'disparait générateur de gradient. L prenant en compte le premier terme est indépendant de la génération, obtenir les deux pertes WGAN

    L'équation 15 équation 17 est inversé, il peut indiquer que le processus de formation, plus la valeur est élevée, la distribution réelle de distribution à distance Wasserstein et générer plus petit, GAN formation le mieux.

    WGAN algorithmes complets et les processus ont été publiés, et de le coller à nouveau ici pour la commodité du lecteur:

    Mentionné ci-dessus, WGAN GAN par rapport à la forme originale des premiers, seulement changé quatre points:

    Les trois premières proviennent d'une analyse théorique, ont été l'introduction, quatrième point est les auteurs ont constaté que de l'expérience, appartiennent trick, relativement « mystérieuse ». DE trouvé que si Adam, de la perte de classificateurs effondrement parfois hors, lorsqu'il est rebondi, Adam mis à jour l'angle de direction donnée cos valeur de direction de gradient devient négative, la direction de la mise à jour direction de gradient diamétralement opposée, ce qui signifie une perte de discriminateur de gradient est instable, il ne convient pas pour un tel algorithme d'optimisation d'Adam basée sur l'élan. Après les auteurs utilisent RMSProp, le problème est résolu, car RMSProp gradient approprié à la situation instable.

    auteur WGAN a fait beaucoup d'expériences, il ne mentionne que les points les plus importants. Tout d'abord, le discriminateur de qualité d'image génère le générateur Wasserstein à distance approximative très pertinente, comme suit:

    En second lieu, l'effet WGAN si une architecture DCGAN similaire, et l'image résultante est presque DCGAN:

    Mais l'endroit puissant qui WGAN pas DCGAN conception architecturale spéciale peut obtenir de bons résultats, comme si tout le monde, puis retirez le lot Normalization, DCGAN à l'effondrement:

    Si WGAN GAN d'origine et utilise un réseau entièrement connecté à plusieurs couches (MLP), et non CNN, la qualité WGAN deviendra pire, non seulement la qualité mais le GAN d'origine pire, mais aussi apparu en mode effondrement, à savoir le manque de diversité:

    Partie V: Résumé

    WGAN analyse avant leur problème de GAN originale présente sous deux formes Ian Goodfellow, sous la première forme de génération de discriminateur équivalent optimal équivalent à minimiser la divergence JS entre la vraie distribution et de distribution, en raison de la répartition aléatoire généré difficile et chevauchant caractéristique de divergence JS mutant ne peut pas être ignorée et la distribution vrai, de sorte que les problèmes rencontrés par le générateur de gradient ont disparu, la seconde forme est au plus équivalente à la détermination de façon à minimiser la génération et de véritables distributions directement la divergence KL, mais aussi de maximiser sa divergence JS, contradictoires, conduisant à gradient instable, et l'asymétrie de la divergence KL fait générateur serait plutôt la diversité ne lose veulent pas perdre la précision, ce qui phénomène de mode effondrement.

    WGAN avant la distribution proposée du problème qui se chevauchent pour une solution transitoire, en générant l'échantillon réel et l'échantillon plus fait du bruit deux distributions se chevauchent, en théorie, peut résoudre le problème de la formation d'instabilité, discriminateur de formation peut être assurée d'être proche de l'optimum, mais omis de fournir un indicateur fiable indiquant le processus de formation, mais aussi sans vérification expérimentale.

    Cela introduit WGAN pour la distance Wasserstein, et parce qu'il est relativement JS divergence divergence KL a des caractéristiques supérieures de régularité, peuvent être résolus théoriquement gradient disparaissant. Suivi par transformation mathématique de Wasserstein forme écrite peut être résolu en utilisant un nombre limité de valeurs de paramètres est déterminé pour optimiser la forme du réseau de neurones, il peut être approchée à partir de Wasserstein. Dans cette quasi-optimale classificateurs optimisation générateur Wasserstein de réduire la distance qui peut effectivement réduire la production et les distributions réelles. WGAN seulement résoudre le problème de la formation d'instabilité, mais fournit également un indicateur fiable du processus de formation, et en effet une forte corrélation avec l'indice généré qualité échantillon. Auteur de la vérification expérimentale WGAN.

    (Cet article won a transmis l'autorisation de l'auteur, l'adresse d'origine: https: //zhuanlan.zhihu.com/p/25071913)

    [Trouver] nouvelle licorne AI Ji-won ensemble 10 grand capital

    Début Business Plan Competition 2017

    AI concurrence de l'esprit d'entreprise de la nouvelle Ji-won avec 10 mainstream AI VC: Bleu Chi Ventures, Sequoia Capital China, Gao Ling-chi fonds d'intelligence artificielle, capitale de Blue Lake, Blue Elephant, Capital IDG, capital élevé Yung, CITIC les titres de placement de la construction, Ming capital potentiel, sonhwa loin de se joindre au fonds lancé, parrainé par le nouveau yuan chilien, le Comité administratif Parc de Beijing Zhongguancun science, soutient le comité de gestion de Zhongguancun Haidian science Park, est une agrégation des leaders de la technologie AI et les chefs d'investissement événement. Zhi Yuan pour fournir de puissantes nouvelles ressources en capital-risque à la prochaine occasion d'accueil AI licorne pleine d'ambition, haut risque TS vous attend pour venir chercher.

    Cliquez ci-dessous pour lire l'article original, remplissez le formulaire d'inscription formulaire de demande en ligne. Les montres de journaux participent à la sélection pour les informations requises.

    Si plus des informations de description (tels que BP, etc.), peuvent être envoyés à xzy100@aiera.com.cn, s'il vous plaît indiquer le nom de la société de l'en-tête du message. Si vous avez des questions de conseils, ne hésitez pas à contacter l'expéditeur à la boîte aux lettres.

    A partir de la contre-attaque de route de 2% à 10% de marge de profit, l'entreprise fournit
    Précédent
    À la connaissance du système, mais aussi pour soulager leur soif de la faim, les muscles durent longtemps
    Prochain
    Top de RAN de route cross-country de dix premiers sur deux ou plus cette vie sans regret!
    « Rappelez- » la femme baignant faiblesse soudaine dans un voisin la porte, méfiez-vous cette chose!
    « Wall Street Journal » valeur de données de la concurrence: l'analyse des affaires à l'apprentissage de la machine
    Tencent Tony: la faiblesse spirituelle du produit, compter plus de financement, l'exploitation et la gestion est également inutile
    Le thé est la boisson ne peut pas être remplacé!
    Branchez les mains de téléphone de la police, la calomnie de vol de la police! Introduits dans la finale parfaite!
    longue distance de voiture, la batterie de voiture est mort, comment urgence?
    "AI Factory" Lumos Facebook plate-forme de vision informatique, compréhension de la technologie de l'image sur le contenu
    L'utilisation de la matrice des produits du savoir, LUO obtenir la graisse APP
    affection secondaire secondaire investiture
    la possession chinoise de 10 parcs nationaux, les étrangers ne peuvent envier!
    défi de la Journée nationale ligne Sichuan-Tibet, vous devez comprendre ces rumeurs dix