Cet article a été compilé Lei groupe de technologie blog Feng, le titre original soluce étape par étape de formation RNN - Partie I, auteur Eniola Alese: Lei Feng réseau presse.
Traduction | Zhao Pengfei Cheng Sijie finition | Jiang Fan
RNN de se propager peu à peu avant l'exercice
RNN cellule unique de l'algorithme de propagation de front en
Dans l'article précédent, nous avons introduit la structure de base de RNN et élargissons dans une série chronologique dans les cellules chaîne de cycle, les cellules appelées RNN. Ci-dessous, nous vous dévoilerons la structure interne d'une seule cellule RNN et calcul de la propagation vers l'avant.
Lequel procédé est divisé en une pluralité d'étapes:
La première étape: cellule accepte deux entrées: xt et at-1.
Deuxième étape: Ensuite, calculer le produit de la matrice , W_xh par xt, W_ah par at-1. Ensuite, en ajoutant le produit de deux ou plus, et en ajoutant un décalage B_H, calculé ht.
La troisième étape: Ensuite, les étapes ci-dessus, le h (t) transmis à la fonction d'activation (tanh tel ou RELU) de calcul a (t). fonction d'activation utilisé dans la fonction tanh présente forme de réalisation.
Quatrième étape: sortie de cellule at et il passe à la cellule suivante pour des calculs ultérieurs.
Cinquième étape: Ensuite, calculer ot, ce qui est toutes les valeurs possibles de la probabilité de sortie de journal non standard. La méthode consiste à calculer le produit de la matrice , W_ao par at, avec b_o ajouté.
Sixième étape: Enfin, par ot transmis à la fonction d'activation (par exemple, sigmoïde ou SoftMax), pour obtenir un vecteur probabilité normalisée t effectivement sortie. La sélection d'une fonction d'activation de sortie dépend généralement du type de sortie souhaité (pour les sorties binaires du sigmoïde, Softmax pour la sortie multi-classe).
Forward-propagation algorithme
Avant, et non seulement exécuter en une seule étape de l'algorithme de propagation cellulaire RNN est exécuté sur l'ensemble du réseau RNN. A partir de la couche cachée état d'initialisation de a0, la totalité de la séquence de temps t = 1 à T, et des poids partagés décalage vecteur W_xh, W_ah, W_ao, B_h, b_o, répété dans chaque série de temps dans chacune des étapes ci-dessus .
Par exemple, si nous avons une séquence d'entrée de 8 x1, x2, ...... x8, ce réseau avant de calculer le processus de propagation dans les étapes 1-6 du cycle est répété 8 fois.
Ce qui précède est la première étape de formation RNN, dans la seconde partie de cet article présentera à l'algorithme de propagation (BPTT), et la façon de calculer le gradient.
Merci pour votre temps, recevoir des commentaires ou des commentaires.
site Blog https://medium.com/learn-love-ai/step-by-step-walkthrough-of-rnn-training-part-i-7aee5672dea3
Lei Feng Lei Feng net net