OpenAI dire, il n'y a aucune base pour l'apprentissage de la machine humaine, l'apprentissage de renforcement peut être démarré rapidement.
Ils viennent de lancer un tutoriel d'introduction appelé l'apprentissage de renforcement (RL) Préchauffage . amitié sincere, dans toutes les manières possibles.
A partir d'un ensemble Concepts clés , À une série de clés algorithme Code, exercices d'échauffement Chaque étape avec une vision claire et concise, les débutants debout pleine perspective.
aura novice
L'équipe a dit que à l'heure actuelle ne dispose pas d'un matériel d'apprentissage de renforcement plus général, le champ RL seulement une poignée de gens dans. Pour changer cet état, ah, parce que le renforcement apprentissage vraiment utile.Peut-être vous avez besoin. Ainsi, en regardant attentivement le kit de démarrage pour voir à la fin combien les soins:
cinq noyau
Préchauffage comprend cinq parties importantes.
La première partie, savoir sur l'apprentissage de renforcement
Ici, est divisé en trois petites étapes:
Tout d'abord, comprendre concepts de base Ce RL peut savoir quoi faire, comprendre les concepts et la terminologie.
En second lieu, comprendre algorithme Ce qui est divisé en catégories.
Troisièmement, comprendre Optimisation stratégie .
https://spinningup.openai.com/en/latest/spinningup/rl_intro.html
La deuxième partie, les chercheurs sont devenus RL
(Cette section peut être ignorée de manière sélective)
Comment vous faire utiliser les nouveaux chercheurs ont RL?
Tout d'abord, nous savons ce que la profondeur de l'apprentissage des connaissances en mathématiques, est la nécessité de comprendre le mémoire.
En second lieu, dans la pratique, d'apprendre, d'écrire la façon la plus facile à mettre en uvre ( Suivi par le code ), Faites attention à comprendre.
En troisième lieu, après un peu d'expérience avec, essayer de développer leurs propres projets de recherche. Ceci est une question de suivre le début.
Après la quatrième, un peu éloigné, pas encore détaillé.
La troisième partie, la liste de lecture du papier
Ce document est très liste détaillée, divisée 12 petite catégorie Sous chaque catégorie a 2-8 chapitre Thèse.
Équipe, a déclaré la liste aussi complète que suffisamment complète de vouloir faire une étude humaine ouvrant la RL.
https://spinningup.openai.com/en/latest/spinningup/keypapers.html
La quatrième partie, pour les débutants code personnalisé
Un homme du nom spinningup projet GitHub ci-dessus, contient une variété d'algorithme à clé d'apprentissage de renforcement peut être utilisé pour:
VPG, TRPO, PPO, GPDD, TD3 et SAC et ainsi de suite.
L'équipe a dit, voici le code Sur mesure pour les débutants Très courte très bonne école. Par rapport à modulaire, Spinning Jusqu'à lourd clair, Code annotés Et nous pouvons voir clairement que chaque étape a été fait, et le matériel de base peut aider à la compréhension.
L'objectif est d'utiliser le plus simple à réaliser, pour montrer comment la théorie est transformée en un code, alors que ces choses sont omis la couche d'abstraction et de couches (confusion couches d'abstraction et obfuscation).
https://github.com/openai/spinningup
La cinquième partie, des exercices d'échauffement
Il y a deux séries de problèmes.
Tout d'abord, sur la base de la mise en uvre, le second est sur les modes de défaillance de l'algorithme.
Et il y a des questions supplémentaires, il est de recommencer à zéro pour écrire leur propre code pour obtenir, relativement dur.
https://spinningup.openai.com/en/latest/spinningup/exercises.html
Bonjour tout le monde
L'équipe a déclaré que, pour renforcer l'expérience d'apprentissage est de savoir comment cela fonctionne, la meilleure façon est de faire une course.
Préchauffage où il est facile, tant que le code:
1python -m spinup.run ppo --env CartPole-v1 --exp_name hello_worldFin de la formation, vous verrez une description et peut être observée en fonction des données qui était sur la méthode, a également formé d'observer l'agent vidéo.
De plus, à l'intérieur Spinning atteindre, et sont compatibles avec une gamme de l'environnement Gym: classique de contrôle, Box2D, MUJOCO et ainsi de suite.
Allez, Pikachu
Il semble que pas vraiment difficile.
OpenAI espère que les chercheurs dans d'autres domaines, mais aussi pour aider à la recherche d'apprentissage par renforcement facilement.
Alors, essayez-le.
Entrée tutoriel:
https://spinningup.openai.com/en/latest/index.html
GitHub Portal:
https://github.com/openai/spinningup
- complet -
emplois de planification de l'événement
Dans le cadre qubit recrute la planification d'événements, sera responsable de différents domaines de dimensions des activités en ligne et hors ligne de planification, la mise en uvre. Bienvenue mouche astucieuses petits partenaires à se joindre, et nous espérons que vous avez une certaine expérience dans la planification d'événements ou d'opérations. Détails, s'il vous plaît interface de dialogue qubit numéro public (QbitAI), réponse mot "recrutement".
qubit QbitAI · manchettes sur la signature de
' « suivre les nouvelles technologies AI dynamiques et de produits