didacticiels d'apprentissage par renforcement de libération OpenAI, le novice convivial, simple et facile à comprendre le code

châtaigne du fond de la cavité produit qubit non Temple | public n ° QbitAI

OpenAI dire, il n'y a aucune base pour l'apprentissage de la machine humaine, l'apprentissage de renforcement peut être démarré rapidement.

Ils viennent de lancer un tutoriel d'introduction appelé l'apprentissage de renforcement (RL) Préchauffage . amitié sincere, dans toutes les manières possibles.

A partir d'un ensemble Concepts clés , À une série de clés algorithme Code, exercices d'échauffement Chaque étape avec une vision claire et concise, les débutants debout pleine perspective.

aura novice

L'équipe a dit que à l'heure actuelle ne dispose pas d'un matériel d'apprentissage de renforcement plus général, le champ RL seulement une poignée de gens dans. Pour changer cet état, ah, parce que le renforcement apprentissage vraiment utile.

Peut-être vous avez besoin. Ainsi, en regardant attentivement le kit de démarrage pour voir à la fin combien les soins:

cinq noyau

Préchauffage comprend cinq parties importantes.

La première partie, savoir sur l'apprentissage de renforcement

Ici, est divisé en trois petites étapes:

Tout d'abord, comprendre concepts de base Ce RL peut savoir quoi faire, comprendre les concepts et la terminologie.

En second lieu, comprendre algorithme Ce qui est divisé en catégories.

Troisièmement, comprendre Optimisation stratégie .

https://spinningup.openai.com/en/latest/spinningup/rl_intro.html

La deuxième partie, les chercheurs sont devenus RL

(Cette section peut être ignorée de manière sélective)

Comment vous faire utiliser les nouveaux chercheurs ont RL?

Tout d'abord, nous savons ce que la profondeur de l'apprentissage des connaissances en mathématiques, est la nécessité de comprendre le mémoire.

En second lieu, dans la pratique, d'apprendre, d'écrire la façon la plus facile à mettre en uvre ( Suivi par le code ), Faites attention à comprendre.

En troisième lieu, après un peu d'expérience avec, essayer de développer leurs propres projets de recherche. Ceci est une question de suivre le début.

Après la quatrième, un peu éloigné, pas encore détaillé.

La troisième partie, la liste de lecture du papier

Ce document est très liste détaillée, divisée 12 petite catégorie Sous chaque catégorie a 2-8 chapitre Thèse.

Équipe, a déclaré la liste aussi complète que suffisamment complète de vouloir faire une étude humaine ouvrant la RL.

https://spinningup.openai.com/en/latest/spinningup/keypapers.html

La quatrième partie, pour les débutants code personnalisé

Un homme du nom spinningup projet GitHub ci-dessus, contient une variété d'algorithme à clé d'apprentissage de renforcement peut être utilisé pour:

VPG, TRPO, PPO, GPDD, TD3 et SAC et ainsi de suite.

L'équipe a dit, voici le code Sur mesure pour les débutants Très courte très bonne école. Par rapport à modulaire, Spinning Jusqu'à lourd clair, Code annotés Et nous pouvons voir clairement que chaque étape a été fait, et le matériel de base peut aider à la compréhension.

L'objectif est d'utiliser le plus simple à réaliser, pour montrer comment la théorie est transformée en un code, alors que ces choses sont omis la couche d'abstraction et de couches (confusion couches d'abstraction et obfuscation).

https://github.com/openai/spinningup

La cinquième partie, des exercices d'échauffement

Il y a deux séries de problèmes.

Tout d'abord, sur la base de la mise en uvre, le second est sur les modes de défaillance de l'algorithme.

Et il y a des questions supplémentaires, il est de recommencer à zéro pour écrire leur propre code pour obtenir, relativement dur.

https://spinningup.openai.com/en/latest/spinningup/exercises.html

Bonjour tout le monde

L'équipe a déclaré que, pour renforcer l'expérience d'apprentissage est de savoir comment cela fonctionne, la meilleure façon est de faire une course.

Préchauffage où il est facile, tant que le code:

1python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world

Fin de la formation, vous verrez une description et peut être observée en fonction des données qui était sur la méthode, a également formé d'observer l'agent vidéo.

De plus, à l'intérieur Spinning atteindre, et sont compatibles avec une gamme de l'environnement Gym: classique de contrôle, Box2D, MUJOCO et ainsi de suite.

Allez, Pikachu

Il semble que pas vraiment difficile.

OpenAI espère que les chercheurs dans d'autres domaines, mais aussi pour aider à la recherche d'apprentissage par renforcement facilement.

Alors, essayez-le.

Entrée tutoriel:

https://spinningup.openai.com/en/latest/index.html

GitHub Portal:

https://github.com/openai/spinningup

- complet  -

emplois de planification de l'événement

Dans le cadre qubit recrute la planification d'événements, sera responsable de différents domaines de dimensions des activités en ligne et hors ligne de planification, la mise en uvre. Bienvenue mouche astucieuses petits partenaires à se joindre, et nous espérons que vous avez une certaine expérience dans la planification d'événements ou d'opérations. Détails, s'il vous plaît interface de dialogue qubit numéro public (QbitAI), réponse mot "recrutement".

qubit QbitAI · manchettes sur la signature de

' « suivre les nouvelles technologies AI dynamiques et de produits

Ligue de la vieille obsession des joueurs, attendu cinq ans après la deuxième place à défendre, pleurant comme un fou!
Précédent
Ceci est une grande copie de l'industrie du jeu de Dieu? Feu tranquillement pendant 12 ans, il copie des objets viennent panne!
Prochain
Open de Chine: « Heureusement, haute » combinaison, Aujourd'hui, je suis heureux
7 affolante 19 points! Primera Liga record d'équipe sur Barcelone, avec de nombreux actionnaires chinois
il y a 20 ans, Andrew Ng, caché dans un ensemble de données
Il y a aussi des joueurs de clavier méprisent la chaîne? League of Legends est pas R, World of Warcraft joueurs à la agenouillée du clavier!
Zai Yu Kim Taek-soo, Liu Guozheng gagner facilement
Barcelone meilleur « acheter outre-mer »! Real Man Madrid a marqué un total de deux super-grévistes
LOL négligé les ufs toucher: le cheval du héros a tué le petit garçon pleurait dans l'autre!
cuir PDG de Google guess: Nous voulons servir les utilisateurs chinois, mais ce que pensait un bon service fourni
adolescent Liuyang arène sanglante, qui a marqué deux buts a fait la première victoire de l'an
« Guangzhou a fait » table de tournoi dons publics, cinq écoles bénéficient, les parents de l'école primaire Lin colonne haute
Après la re-retour de millions de joueurs, les Jedi survivre honnête! Mettre à jour le recours en attente de joueur pour un an
L'équipe étonnamment horrible! 990 minutes seulement perdu 1 balle, 10 fois zéro adversaires de fermeture