La machine n'apprend pas: compétences d'apprentissage en profondeur la formation crépus une normalisation par lots par lots Normalization

BN a été développé par Google en 2015, qui est une technique de formation du réseau de neurones profonds, il peut non seulement accélérer le modèle de convergence, mais surtout dans une certaine mesure atténué le problème « diffusion gradient » réseau profond, ce qui profondes marques de formation modèle de réseau plus facile et stable. Alors maintenant BN est devenu les techniques de convolution standards quasi-totalité du réseau de neurones.

De la signification littérale semble lot Normalization (appelé BN) pour chaque lot de données est normalisé, en effet, les données d'une formation de lot particulier {x1, x2, ..., xn}, notez que ces données sont entrée peut être une couche intermédiaire d'une sortie de réseau. Avant BN se montre, notre exploitation normalisée généralement dans la couche d'entrée de données, l'entrée de données de la moyenne et cherchent écarts font la normalisation, mais BN semblent briser cette disposition, nous pouvons une dans le réseau couche traitement de normalisation, puisque la plupart méthode d'optimisation, nous avons utilisé est min-lot SGD, donc on normalise le fonctionnement devient normalisation par lots.

Pourquoi avons-nous besoin de BN?

Une fois que nous savons le train le réseau, la mise à jour des paramètres se produira, en plus de la couche d'entrée de données (données de la couche en entrée, nous avons artificiellement normalisé pour chaque échantillon), le réseau de distribution de données d'entrée derrière chaque couche a une dans les changements, comme dans la formation, le paramètre de mise à jour de formation couche avant de la couche arrière se traduira par un changement dans la distribution de données d'entrée. Dans la deuxième couche de réseau à titre d'exemple: la seconde couche d'entrée du réseau, a été calculée à partir des paramètres d'entrée et la première couche, la première couche du paramètre au cours du processus de formation a changé, provoque donc inévitablement derrière chaque entrée de la couche des changements de distribution de données. Nous couche réseau intermédiaire dans le processus de formation, en changeant la distribution des données est appelée: « Covariable interne Shift ». BN proposé, il est à résoudre dans le processus de formation, la couche intermédiaire de changements de distribution de données.

BN comment faire?

Comme indiqué ci-dessus, BN étape est divisé en quatre étapes:

  • la moyenne des données pour chaque lot de formation
  • A la recherche de la variance pour chaque lot de données de formation
  • Calculée en utilisant la moyenne et la variance ne se stabilisent le lot de données de formation pour obtenir 0-1 distribution. où
  • est un petit nombre positif à la division éviter par zéro lorsqu'il est utilisé.
  • Décalage et de transformation à grande échelle: X-
  • Je
  • xi multiplié par
  • La valeur de réglage de la taille, , ainsi que
  • Après addition d'un décalage pour donner y
  • Je
  • yi, où
  • est un facteur d'échelle,
  • est un facteur de traduction. Cette étape est l'essence de la BN, x due après la normalisation
  • Je
  • xi distribution sensiblement normale est limitée, de sorte que la capacité d'expression du réseau diminue. Pour résoudre ce problème, nous présentons deux nouveaux paramètres:
  • ,
  • .
  • et
  • est le réseau au cours de la formation obtiennent leur propre apprentissage.
  • BN à la fin de résoudre quoi?

    Une étape de normalisation standard consiste à soustraire la variance moyenne, sauf que cette opération de normalisation quel effet? Nous observons la figure suivante,

    un milieu est laissé sans traitement des données d'entrée, la courbe est fonction sigmoïde, si les données de gradient dans une petite zone, le taux d'apprentissage sera très lent ou même tomber dans une longue période de stagnation. Sauvegarder la variance moyenne de l'addition, les données sont déplacées vers la droite comme représenté sur la région centrale, pour la majorité de la fonction d'activation, le gradient dans cette région est la plus grande, ou à gradient (par exemple RELU), qui peut être considéré comme un moyen efficace contre gradient disparaît. Pour une telle couche, si les données pour chaque couche de le faire, ainsi que la distribution des données est toujours sensible aux changements dans la région, ce qui équivaut sans tenir compte des changements de distribution de données, afin de les former plus efficaces.

    Alors, pourquoi avoir l'étape 4, en plus non seulement en utilisant l'opération de réduction de la variance moyenne sera en mesure d'obtenir l'effet désiré? Nous pensons à un problème, on obtient en plus de la distribution de la variance de la réduction moyenne d'une distribution normale, on peut considérer la distribution normale est le meilleur ou incarne le mieux les caractéristiques de notre distribution d'échantillons de formation de celui-ci? Ne peut pas, par exemple des données est lui-même fonction asymétrique ou d'activation ne sont pas nécessairement les meilleurs données de performance de variance 1, comme fonction d'activation sigmoïde, peu de dénivelé entre -1 et 1, l'effet de la transformation non-linéaire il ne peut pas très bien réfléchi, autrement dit, la variance de la réduction moyenne, en plus de l'opération peut affaiblir la performance du réseau! Dans ce cas, l'ajout de l'étape 4 dans les trois étapes précédentes après l'achèvement d'une véritable normalisation des lots.

    BN est l'essence même du changement en contradiction avec la taille optimisée et l'emplacement signifie que la nouvelle répartition de la distribution réelle des données plus pertinentes et d'assurer le modèle d'expression non linéaire. BN est le cas extrême de ces deux paramètres égale à la mini-série de la moyenne et la variance, puis par l'entrée de données de la normalisation des lots après exactement la même chose, bien sûr, la situation générale est différente.

    Comment moyenne et la variance de la prévision de la demande?

    En formation, nous allons résoudre le même lot de la moyenne et la variance des données, puis les opérations normalisées. Mais pour prédire comment la demande, nous entendons et de la variance de celui-ci? Par exemple, nous prévoyons un seul échantillon, et qui est aussi comment ah méthode de calcul de la moyenne! En fait, c'est le chemin, la moyenne et la variance pour la phase de prévision utilisée, en effet, est dérivé de l'ensemble de la formation. Par exemple, lorsque nous enregistrons la formation du modèle que nous entendons et de la variance dans chaque lot, jusqu'à ce que la formation est terminée, nous trouvons la moyenne et la variance des attentes à travers les échantillons de formation, réalisées moyenne et la variance de BN comme nous prévoyons:

    phase finale de test, BN à l'aide de la formule est:

    BN est une position sur l'utilisation, en général CNN avant que la fonction d'activation non linéaire est appliquée, de la fonction de type s (x) de l'argument x est le résultat du traitement par l'intermédiaire du BN. Ainsi, la formule de calcul de conduction directe doit être:

    En fait, étant donné que le paramètre offset b après couche BN est en fait d'aucune utilité, sera la dernière normalisation moyenne, bien sûr, il y a un paramètre couche derrière BN comme un terme de polarisation, b de sorte que le paramètre ne peut pas. Ainsi, la dernière fonction d'activation de la couche + couche BN devient:

    CNN BN

    La façade de la note est écrite pour le cas général, pour un réseau de neurones de convolution est légèrement différente. Du fait que le réseau neuronal convolutif caractérisé en ce que la réponse correspond à une caractéristique entier sur la figure, BN devrait le faire en fonction de la courbe de réponse de chaque dimension à la place de l'unité. Par exemple, dans une couche, la taille du lot m, en réponse taille figure w × h, puis faire la quantité de données de BN est m × p × h.

    BN rôle DNN est clair: Si vous rencontrez une convergence lente de la formation des réseaux de neurones, ou « explosion gradient » et BN peut essayer de résoudre la situation lorsqu'ils ne sont pas la formation a lieu. En même temps, en utilisation normale peut également être ajouté pour accélérer la formation du modèle BN, et même d'améliorer la précision du modèle.

    Aussi populaire que d'Apple iPhone7! OPPO téléphone shell R11 recommandé
    Précédent
    Station de chargement dacentrurus R5 hôte vraiment pas cher! 3000 yuans écran de configuration de l'ordinateur de jeu
    Prochain
    liste des ordinateurs Jingdong publiée en Août pour voir où la plupart des joueurs prêts à investir!
    Et chercher le développement commun de Smart Home Smart Home Chine Xiuzhou Industrial Park Hangzhou Recommander
    Abandonner fantaisie, revenir au simple! Apple iPhone7 / 7Plus recommandé téléphone mobile fixe
    garçon de 12 ans à 25 ancre un des parents de récompense un regard sur le projet de loi, ébahi ......
    NetEase nuage bouchon de coeur! musique en ligne APP dernier classement: la première est que ......
    Dacentrurus R5, plus GTX1050, moins de 4000 yuans configuration de l'ordinateur de jeu recommandé
    La machine n'apprend pas: apprentissage amélioré en fonction des multi-tâches modulaire
    Pas cher, simple et plus pratique, Apple iPhone7 / 7Plus recommandé téléphone mobile fixe
    La machine n'apprend pas: L'étude des ondes cérébrales EEG dans la classification visuelle profondeur
    A partir d'aujourd'hui, Alipay, paiement microcanaux changement drastique! Rechercher
    « King of Glory » joueur moyen national Dan a publié encore vous retenir?
    Vraiment économiser de l'argent! Lorsque le matériel utilisé pour enregistrer un hôte, la performance est très bonne