base d'apprentissage par renforcement

Cet article est une compilation de technologie blog AI Yanxishe, le titre original:

La base de l'apprentissage Conjugu� gradient de renforcement profond

Auteur | Jonathan Hui

Traduction | Stephen deux Gouzi

Relecture | Stephen deux avis Gouzi | sauce poire finale Fan | soeur d'ananas

Lien original:

https://medium.com/@jonathan_hui/rl-conjugate-gradient-5a644459137a

Nous pouvons utiliser la solution d'�quations lin�aires ou optimisation quadratique m�thode du gradient conjugu� (gradient conjugu�). Et, pour ces deux probl�mes, la m�thode de gradient d'effet descente de gradient conjugu� Bibi mieux.

O� la matrice A est une matrice sym�trique d�finie positive

m�thode de recherche en ligne, nous d�terminons la direction de la plus raide mont�e, puis s�lectionnez la taille de l'�tape. Par exemple, le gradient dans le processus en hausse, par exemple, nous utilisons un pas �gal � un gradient multipli� par le taux d'apprentissage. Voir ci-dessous � gauche, le gradient de contour (cercle en pointill�, une partie ellipse sur la figure.), La direction du point de gradient maximum est droit. le point le plus raide correspondant � la direction du courant, (it�ration) dans la direction du point le plus raide peut �tre vers le haut et l�g�rement vers la gauche. Peu de temps que nous avons gradient l�g�rement vers la gauche, le r�le n'est pas � la premi�re �tape (au gradient droit) processus annul� encore?

Effectu�e avant le proc�d� de gradient conjugu� est une m�thode de recherche lin�aire, pour chaque mouvement, il ne sera pas r�voquer fragment (affecter). En optimisant �quation du second degr�, le nombre de proc�d� de gradient de l'�tape de descente de gradient it�ratif n�cessite moins de conjugu�. Si x est un (param�tres N) N dimensions, nous pouvons trouver la valeur optimale dans un d�lai maximum de N it�ration. Parce que pour chaque mouvement pas, je veux sauver toute la relation conjugu�e avec la direction de d�placement de la direction du mouvement pr�c�dent. Cela garantit que nous n'annuler tout mouvement. Autrement dit, si x est un vecteur 4 dimensions, vous devez d�placer jusqu'� quatre fois pour obtenir le meilleur avantage.

Modifi� � partir de la source

Dans une direction sp�cifi�e faire ascension gradient

Au point optimal nous dans cette direction pour arr�ter.

Nous avons trouv� une nouvelle direction dj, di-conjugu�e avec une direction pr�c�dente de mouvement.

De Math�matiquement, cela signifie que toutes les nouvelles directions dj ^ TA doit tout conjugu� d (i), � savoir,

O� A est une matrice de coefficient quadratique. Ce qui suit sont des exemples du conjugu� A (A-conjugu�) d'une matrice en deux dimensions.

Un conjugu� entre ces vecteurs sont ind�pendants l'un de l'autre. En cons�quence, un nombre N Un vecteur conjugu� peut couvrir un espace � N dimensions.

se trouve la cl� de l'algorithme du gradient conjugu� (CG) et d.

gradient conjugu� algorithme

Permettez-moi tout d'abord aper�u de l'algorithme. Solution au probl�me que nous partons d'un nombre al�atoire X (X0) sp�cul�, et calcule la prochaine X1 (y compris et d).

d est la prochaine direction de d�placement (vecteur conjugu�). Voyons voir comment cela fonctionne. Tout d'abord, nous d�finissons deux:

e repr�sente l'erreur entre le point courant et les meilleurs points de deviner.

r est notre valeur de mesure actuelle et la valeur correcte de la distance b (Ax = b). On peut le voir r (distance Ax distance b) Une projection dans l'espace o� b et b apr�s l'erreur e.

r, e sont d�finis comme suit:

fonction

Pour la fonction de d�rivation

Le point suivant est calcul� comme (o� est un scalaire, d est la direction, un vecteur):

Afin d'assurer la direction future du mouvement du travail avant de ne pas couper, je vais essayer de faire en sorte que e et d sont perpendiculaires entre eux. Autrement dit, prendre les r�sidus apr�s la relation d'it�ration doit �tre maintenue perpendiculaire � la direction actuelle du mouvement. Afin d'assurer l'action it�rative apr�s nous ne r�duisons pas le travail, donc gardez cette relation orthogonale est justifi�e.

Par cons�quent, d�pend de e, mais nous ne savons pas la valeur r�elle de e est. Ainsi, au lieu d'utiliser d'autres m�thodes orthogonales, nous allons essayer une autre estimation (estimation). C'est, une nouvelle direction de recherche doit �tre perpendiculaire � la direction pr�c�dente. est d�finie A-orthogonal:

Pour satisfaire � ces conditions, la prochaine it�ration est le meilleur point xi �tre un point sur la direction de la recherche d.

Modifi� � partir de la source

Une quadrature Selon les besoins, est calcul� comme suit:

Modifi� � partir de la source

Preuve sur wikipedia:

Il n'y aura pas la preuve compl�te. Mais ceux qui sont int�ress�s peuvent regarder:

en.wikipedia.org/wiki/Derivation_of_the_conjugate_gradient_method

Je veux continuer � voir les articles liens et r�f�rences connexes?

Cliquez sur le lien pour ouvrir la presse ou cliquez sur [l'apprentissage de renforcement de base: gradient conjugu�]:

https://ai.yanxishe.com/page/TextTranslation/1428

[Cliquez pour sauter] base d'apprentissage par renforcement - rose gradient double

AI Yanxishe contenu passionnant mis � jour quotidiennement, la visualisation de contenu plus excitant: Lei Feng Lei Feng Lei r�seau de r�seau de r�seau Feng

Classification des images Conseils d'inventaire

Programmation Dynamique: s�quence binomiale

Comment construire un mod�le LSTM Keras, et le r�glage des param�tres

Comment voulez-vous construire un RCNN plus rapide culturel et �ducatif avec PyTorch

En attendant vous interpr�tez:

Comment la structure s�mantique r�f�renc� dans le traitement PNL nerveux

Tu dors encore? Pas aussi bon que cela vous donne une sorte de sommeil il!

DQNs Senior: Tirer profit de la profondeur de l'apprentissage de renforcement pour jouer au jeu Pac-Man

La profondeur des nouvelles tendances d'apprentissage de renforcement: Google curiosit� comment l'introduction de l'agent d'apprentissage par renforcement

Route de la soie

Apprenez � conna�tre la Chine

base d'apprentissage par renforcement - Gradient Conjugu�

gradient conjugu� algorithme

Classification des images Conseils d'inventaire

Programmation Dynamique: s�quence binomiale

Comment construire un mod�le LSTM Keras, et le r�glage des param�tres

Comment voulez-vous construire un RCNN plus rapide culturel et �ducatif avec PyTorch

Comment la structure s�mantique r�f�renc� dans le traitement PNL nerveux

Tu dors encore? Pas aussi bon que cela vous donne une sorte de sommeil il!

DQNs Senior: Tirer profit de la profondeur de l'apprentissage de renforcement pour jouer au jeu Pac-Man

La profondeur des nouvelles tendances d'apprentissage de renforcement: Google curiosit� comment l'introduction de l'agent d'apprentissage par renforcement