base d'apprentissage par renforcement - Gradient Conjugué

Cet article est une compilation de technologie blog AI Yanxishe, le titre original:

La base de l'apprentissage Conjugué gradient de renforcement profond

Auteur | Jonathan Hui

Traduction | Stephen deux Gouzi

Relecture | Stephen deux avis Gouzi | sauce poire finale Fan | soeur d'ananas

Lien original:

https://medium.com/@jonathan_hui/rl-conjugate-gradient-5a644459137a

Nous pouvons utiliser la solution d'équations linéaires ou optimisation quadratique méthode du gradient conjugué (gradient conjugué). Et, pour ces deux problèmes, la méthode de gradient d'effet descente de gradient conjugué Bibi mieux.

Où la matrice A est une matrice symétrique définie positive

méthode de recherche en ligne, nous déterminons la direction de la plus raide montée, puis sélectionnez la taille de l'étape. Par exemple, le gradient dans le processus en hausse, par exemple, nous utilisons un pas égal à un gradient multiplié par le taux d'apprentissage. Voir ci-dessous à gauche, le gradient de contour (cercle en pointillé, une partie ellipse sur la figure.), La direction du point de gradient maximum est droit. le point le plus raide correspondant à la direction du courant, (itération) dans la direction du point le plus raide peut être vers le haut et légèrement vers la gauche. Peu de temps que nous avons gradient légèrement vers la gauche, le rôle n'est pas à la première étape (au gradient droit) processus annulé encore?

Effectuée avant le procédé de gradient conjugué est une méthode de recherche linéaire, pour chaque mouvement, il ne sera pas révoquer fragment (affecter). En optimisant équation du second degré, le nombre de procédé de gradient de l'étape de descente de gradient itératif nécessite moins de conjugué. Si x est un (paramètres N) N dimensions, nous pouvons trouver la valeur optimale dans un délai maximum de N itération. Parce que pour chaque mouvement pas, je veux sauver toute la relation conjuguée avec la direction de déplacement de la direction du mouvement précédent. Cela garantit que nous n'annuler tout mouvement. Autrement dit, si x est un vecteur 4 dimensions, vous devez déplacer jusqu'à quatre fois pour obtenir le meilleur avantage.

Modifié à partir de la source

  • Dans une direction spécifiée faire ascension gradient

  • Au point optimal nous dans cette direction pour arrêter.

  • Nous avons trouvé une nouvelle direction dj, di-conjuguée avec une direction précédente de mouvement.

  • De Mathématiquement, cela signifie que toutes les nouvelles directions dj ^ TA doit tout conjugué d (i), à savoir,

    Où A est une matrice de coefficient quadratique. Ce qui suit sont des exemples du conjugué A (A-conjugué) d'une matrice en deux dimensions.

    Un conjugué entre ces vecteurs sont indépendants l'un de l'autre. En conséquence, un nombre N Un vecteur conjugué peut couvrir un espace à N dimensions.

    se trouve la clé de l'algorithme du gradient conjugué (CG) et d.

    gradient conjugué algorithme

    Permettez-moi tout d'abord aperçu de l'algorithme. Solution au problème que nous partons d'un nombre aléatoire X (X0) spéculé, et calcule la prochaine X1 (y compris et d).

    d est la prochaine direction de déplacement (vecteur conjugué). Voyons voir comment cela fonctionne. Tout d'abord, nous définissons deux:

    • e représente l'erreur entre le point courant et les meilleurs points de deviner.

    • r est notre valeur de mesure actuelle et la valeur correcte de la distance b (Ax = b). On peut le voir r (distance Ax distance b) Une projection dans l'espace où b et b après l'erreur e.

    r, e sont définis comme suit:

    fonction

    Pour la fonction de dérivation

    Le point suivant est calculé comme (où est un scalaire, d est la direction, un vecteur):

    Afin d'assurer la direction future du mouvement du travail avant de ne pas couper, je vais essayer de faire en sorte que e et d sont perpendiculaires entre eux. Autrement dit, prendre les résidus après la relation d'itération doit être maintenue perpendiculaire à la direction actuelle du mouvement. Afin d'assurer l'action itérative après nous ne réduisons pas le travail, donc gardez cette relation orthogonale est justifiée.

    Par conséquent, dépend de e, mais nous ne savons pas la valeur réelle de e est. Ainsi, au lieu d'utiliser d'autres méthodes orthogonales, nous allons essayer une autre estimation (estimation). C'est, une nouvelle direction de recherche doit être perpendiculaire à la direction précédente. est définie A-orthogonal:

    Pour satisfaire à ces conditions, la prochaine itération est le meilleur point xi être un point sur la direction de la recherche d.

    Modifié à partir de la source

    Une quadrature Selon les besoins, est calculé comme suit:

    Modifié à partir de la source

    Preuve sur wikipedia:

    Il n'y aura pas la preuve complète. Mais ceux qui sont intéressés peuvent regarder:

    en.wikipedia.org/wiki/Derivation_of_the_conjugate_gradient_method

    Je veux continuer à voir les articles liens et références connexes?

    Cliquez sur le lien pour ouvrir la presse ou cliquez sur [l'apprentissage de renforcement de base: gradient conjugué]:

    https://ai.yanxishe.com/page/TextTranslation/1428

    [Cliquez pour sauter] base d'apprentissage par renforcement - rose gradient double

    AI Yanxishe contenu passionnant mis à jour quotidiennement, la visualisation de contenu plus excitant: Lei Feng Lei Feng Lei réseau de réseau de réseau Feng

    Classification des images Conseils d'inventaire

    Programmation Dynamique: séquence binomiale

    Comment construire un modèle LSTM Keras, et le réglage des paramètres

    Comment voulez-vous construire un RCNN plus rapide culturel et éducatif avec PyTorch

    En attendant vous interprétez:

    Comment la structure sémantique référencé dans le traitement PNL nerveux

    Tu dors encore? Pas aussi bon que cela vous donne une sorte de sommeil il!

    DQNs Senior: Tirer profit de la profondeur de l'apprentissage de renforcement pour jouer au jeu Pac-Man

    La profondeur des nouvelles tendances d'apprentissage de renforcement: Google curiosité comment l'introduction de l'agent d'apprentissage par renforcement

    Bugatti Chiron système hybride de génération ou à l'aide
    Précédent
    Une université de sexe masculin viennent, comment ça se fait? 6 mots
    Prochain
    Après le festival du ventilateur, trésor Kota petit visage bon argent, le nombre de poudre en direct est-il classé premier 13 fois
    Tu me prends, je mets X Trouver, puis aller dans la rue pour prendre des photos
    Chine 549 universités du « noyau dur » qui ont? 2019 meilleures universités de Chine classement! Version officielle
    Si vous êtes Fernando Alonso, maintenant la façon de traiter avec l'équipe McLaren Honda?
    Apple manger un médicament des armes à feu? Relâchez tant de bonnes choses aujourd'hui
    demi-finales « Angel route » Supermodel avec un secret, la marque fait tout rencontrer!
    XC60, CX-5, GS7, etc. fera ses débuts cette année Chengdu Motor Show est d'être sur Dieu
    contestait la Coupe du monde All-Star open, attraper votre superstar préférée!
    READYMADE United prendre BAPE a annoncé sur toute la ligne, INVAINCUS Shanghai limitée Pop-Up Shop | marée odeur fast food
    Dernières! Janvier 2019 ESI Classement continent universités chinoises cent cuits au four!
    Enfer et hautes eaux ne peuvent tout simplement pas arrêter l'expérience hors route Hafer nouvelle H8
    Dinosaur vraiment très excitant de regarder l'expérience de visualisation de film « Jurassic World 2 » it!