Cet article est une compilation de technologie blog AI Yanxishe, le titre original:
La base de l'apprentissage Conjugué gradient de renforcement profond
Auteur | Jonathan Hui
Traduction | Stephen deux Gouzi
Relecture | Stephen deux avis Gouzi | sauce poire finale Fan | soeur d'ananas
Lien original:
https://medium.com/@jonathan_hui/rl-conjugate-gradient-5a644459137a
Nous pouvons utiliser la solution d'équations linéaires ou optimisation quadratique méthode du gradient conjugué (gradient conjugué). Et, pour ces deux problèmes, la méthode de gradient d'effet descente de gradient conjugué Bibi mieux.
Où la matrice A est une matrice symétrique définie positive
méthode de recherche en ligne, nous déterminons la direction de la plus raide montée, puis sélectionnez la taille de l'étape. Par exemple, le gradient dans le processus en hausse, par exemple, nous utilisons un pas égal à un gradient multiplié par le taux d'apprentissage. Voir ci-dessous à gauche, le gradient de contour (cercle en pointillé, une partie ellipse sur la figure.), La direction du point de gradient maximum est droit. le point le plus raide correspondant à la direction du courant, (itération) dans la direction du point le plus raide peut être vers le haut et légèrement vers la gauche. Peu de temps que nous avons gradient légèrement vers la gauche, le rôle n'est pas à la première étape (au gradient droit) processus annulé encore?
Effectuée avant le procédé de gradient conjugué est une méthode de recherche linéaire, pour chaque mouvement, il ne sera pas révoquer fragment (affecter). En optimisant équation du second degré, le nombre de procédé de gradient de l'étape de descente de gradient itératif nécessite moins de conjugué. Si x est un (paramètres N) N dimensions, nous pouvons trouver la valeur optimale dans un délai maximum de N itération. Parce que pour chaque mouvement pas, je veux sauver toute la relation conjuguée avec la direction de déplacement de la direction du mouvement précédent. Cela garantit que nous n'annuler tout mouvement. Autrement dit, si x est un vecteur 4 dimensions, vous devez déplacer jusqu'à quatre fois pour obtenir le meilleur avantage.
Modifié à partir de la source
Dans une direction spécifiée faire ascension gradient
Au point optimal nous dans cette direction pour arrêter.
Nous avons trouvé une nouvelle direction dj, di-conjuguée avec une direction précédente de mouvement.
De Mathématiquement, cela signifie que toutes les nouvelles directions dj ^ TA doit tout conjugué d (i), à savoir,
Où A est une matrice de coefficient quadratique. Ce qui suit sont des exemples du conjugué A (A-conjugué) d'une matrice en deux dimensions.
Un conjugué entre ces vecteurs sont indépendants l'un de l'autre. En conséquence, un nombre N Un vecteur conjugué peut couvrir un espace à N dimensions.
se trouve la clé de l'algorithme du gradient conjugué (CG) et d.
gradient conjugué algorithme
Permettez-moi tout d'abord aperçu de l'algorithme. Solution au problème que nous partons d'un nombre aléatoire X (X0) spéculé, et calcule la prochaine X1 (y compris et d).
d est la prochaine direction de déplacement (vecteur conjugué). Voyons voir comment cela fonctionne. Tout d'abord, nous définissons deux:
-
e représente l'erreur entre le point courant et les meilleurs points de deviner.
-
r est notre valeur de mesure actuelle et la valeur correcte de la distance b (Ax = b). On peut le voir r (distance Ax distance b) Une projection dans l'espace où b et b après l'erreur e.
r, e sont définis comme suit:
fonction
Pour la fonction de dérivation
Le point suivant est calculé comme (où est un scalaire, d est la direction, un vecteur):
Afin d'assurer la direction future du mouvement du travail avant de ne pas couper, je vais essayer de faire en sorte que e et d sont perpendiculaires entre eux. Autrement dit, prendre les résidus après la relation d'itération doit être maintenue perpendiculaire à la direction actuelle du mouvement. Afin d'assurer l'action itérative après nous ne réduisons pas le travail, donc gardez cette relation orthogonale est justifiée.
Par conséquent, dépend de e, mais nous ne savons pas la valeur réelle de e est. Ainsi, au lieu d'utiliser d'autres méthodes orthogonales, nous allons essayer une autre estimation (estimation). C'est, une nouvelle direction de recherche doit être perpendiculaire à la direction précédente. est définie A-orthogonal:
Pour satisfaire à ces conditions, la prochaine itération est le meilleur point xi être un point sur la direction de la recherche d.
Modifié à partir de la source
Une quadrature Selon les besoins, est calculé comme suit:
Modifié à partir de la source
Preuve sur wikipedia:
Il n'y aura pas la preuve complète. Mais ceux qui sont intéressés peuvent regarder:
en.wikipedia.org/wiki/Derivation_of_the_conjugate_gradient_method
Je veux continuer à voir les articles liens et références connexes?
Cliquez sur le lien pour ouvrir la presse ou cliquez sur [l'apprentissage de renforcement de base: gradient conjugué]:
https://ai.yanxishe.com/page/TextTranslation/1428
[Cliquez pour sauter] base d'apprentissage par renforcement - rose gradient double
AI Yanxishe contenu passionnant mis à jour quotidiennement, la visualisation de contenu plus excitant: Lei Feng Lei Feng Lei réseau de réseau de réseau Feng
Classification des images Conseils d'inventaire
Programmation Dynamique: séquence binomiale
Comment construire un modèle LSTM Keras, et le réglage des paramètres
Comment voulez-vous construire un RCNN plus rapide culturel et éducatif avec PyTorch
En attendant vous interprétez: