Par algorithme évolutionnaire enseigner modèle biomécaniques apprendre à marcher

Cet article est une compilation de technologie blog AI Yanxishe, le titre original:

Apprendre à marcher avec des algorithmes évolutifs appliqués à un modèle bio-mécanique

Auteur | Norman Di Palo

Traduction | Relecture Hu Yinghao | sauce poire Fan

Finition | soeur ananas

Lien original:

https://towardsdatascience.com/learning-to-walk-with-evolutionary-algorithms-applied-to-a-bio-mechanical-model-1ccc094537ce

modèle utilise Shaped vraies personnes pour marcher sur le chemin du muscle

Le code source de cet article se trouve dans la bibliothèque GitHub

(Https://github.com/normandipalo/learn-to-walk-with-genetic-algs)

2017 NIPS a un défi est « l'apprentissage run »: Comme le titre le montre, cette tâche a besoin de concevoir et de développer un algorithme d'apprentissage pour contrôler le modèle biomécanique de la marche humaine. actionneur algorithme (la plupart des robots et des problèmes de différents) est un groupe de muscles, les muscles des jambes de chaque patte 9 par la composition. Sur la libération des défis environnementaux OpenSim révisés, afin de les adapter afin d'améliorer l'ensemble d'apprentissage, augmentant ainsi un signal de récompense.

Certaines choses ont vraiment mal (ou très correct).

De nombreux participants à concevoir la fin de la profondeur des algorithmes d'apprentissage de renforcement, qui, ces dernières années dans l'exécution des tâches de contrôle continu est tout à fait bonne. Mais ces modèles sont également nécessite généralement beaucoup de calcul opérateurs de temps et de force d'apprendre des stratégies efficaces généralement mieux en parallèle sur plusieurs machines.

J'ai décidé d'utiliser ma méthode pour essayer ce défi. Je me rends compte et de développer une méthode assez légère, que j'ai récemment mis au point un contrôle du robot, en particulier les algorithmes évolutifs et contrôleur de réseau de neurones. Les avantages de l'utilisation de ces algorithmes sont nécessaires sans guide, hautement disponible simultanément en parallèle avec les résultats similaires algorithme profondeur RL, voir l'article sur OpenAI. Le problème est que le mouvement est complètement aléatoire, et donc plus difficile d'estimer le contenu et les modalités de l'apprentissage, mais je veux encore essayer cette approche.

Premiers pas, pas de bébé.

... Il est important de conserver non seulement le modèle le plus performant, parce que le modèle sera coincé dans certains endroits minimum local (difficile de quitter ces points).

algorithme évolutionnaire est utilisé pour l'algorithme d'optimisation numérique pour optimiser les paramètres liés à la fonction objective. Que, dans cette question, ces paramètres et fonctions objectifs et ce qui devrait être? A partir de l'expérience: la jambe d'une manière périodique. Sous réserve de mouvement musculaire périodique, la loi sine temps, mais la loi est difficile à réaliser à la main. Comment construire une fonction périodique? Voici l'introduction des séries de Fourier. Nous savons que les séries de Fourier (en utilisant le cosinus sinus accumulé) de toute fonction périodique peuvent être estimés. Mais en théorie, ils peuvent avoir une durée illimitée. Je conçu une série de Fourier partie (interception) de l'élément utilisé pour construire le mouvement des muscles. Ici, seule la série de cosinus avant quatre, et donc un paramètre 8: 4 La valeur de poids est multipliée par le cosinus des quatre phases de fréquences différentes. Cette position chaque muscle construire une fonction périodique. 9 chacun des muscles de la jambe, j'ai utilisé un ensemble de fonctions périodiques 9, l'autre jambe est supposé ici qu'un modèle de mouvement similaire, la même fonction peut être configuration utilisée, mais le retard 180º. algorithme génétique, en modifiant le réglage de ces paramètres (par rapport aux paramètres du réseau de neurones, le nombre a été très moins), afin d'optimiser les résultats de la fonction objective, il est évident que ce sont les ultimes fonctions intenses, comme combien la distance de marche du robot de tomber.

Après motif de marche après une journée de formation

Les paramètres obtenus à partir du bruit blanc échantillonné, la modification aléatoire. Mais si une direction d'échantillonnage de la main avec des paramètres de performance va encore aller dans ce sens, sachant qu'il n'y a pas d'amélioration de la performance. J'ai couru trois modèle parallèle, parce que pour un ordinateur portable pour le calcul du montant a été grande. La meilleure performance des poids lourds sont enregistrés dans un fichier de paramètres. Lorsqu'il est exécuté plusieurs lots, la meilleure performance de la formation et des trois premiers paramètres reprend les calculs. Cela permet à l'algorithme de mieux explorer le comportement différent: Il est important non seulement d'explorer le meilleur modèle actuel, parce que ce modèle pourrait être coincé dans un optimum local est difficile d'échapper, et la mauvaise performance du modèle sur une période de temps mais vous pouvez affiner la formation par d'autres actes au-delà du meilleur modèle actuel. En effet, après la marche à travers une série de simulations pour redémarrer le meilleur des trois modèles est la clé du succès est d'apprendre à marcher en mode. En l'absence de connaissance préalable, vous pouvez apprendre comme un modèle humain de comportement moteur, il est tout à fait simple.

Dans un temps de formation relativement courte et le mauvais état du matériel (Intel Core 2 Duo CPU), le modèle peut être avec succès plusieurs étapes. D'autres améliorations modèle d'apprentissage profondeur est évidemment d'obtenir de meilleurs résultats, mais il faut une longue formation à temps et matériel puissant. Mon but est pas vraiment de rivaliser avec ces modèles, mais pour montrer comment utiliser des algorithmes génétiques et paramètres de moins de 100 modèles, un accès rapide au mode de marche sur le bas avec le portable. Lei Feng Lei Feng Lei réseau de réseau de réseau Feng

Je veux continuer à voir les articles liens et références connexes?

Appuyez sur et cliquez pour ouvrir un lien ou en cliquant sur [algorithme évolutionnaire biologie d'apprentissage pour apprendre à marcher] modèle mécanique:

AI Yanxishe contenu passionnant mis à jour tous les jours, pour voir plus de contenu:

CVPR 2018 Résumé: Partie V

Vous avez lu un texte avec des uvres de traitement d'image

Comment améliorer considérablement la vitesse de votre modèle d'efficacité de la formation?

Conscience recommande: 20 semaines à étudier des autocollants d'expérience en sciences informatiques (ressources ci-joints)

En attendant vous interprétez:

OpenCV / masque de segmentation de l'objet R-CNN

GANGogh: créer de l'art en utilisant Gans

Donnez votre ordinateur d'être un simple « authentification de reconnaissance faciale »

Xinshoubikan: Qu'est-ce que l'apprentissage profondeur? Qu'est-ce que cela fonctionne?

Le tant attendu! frère marteau Valkyrie réembauche des Noirs d'organiser partenaire médaille d'or!
Précédent
BMW M240i M Performance 750 édition limitée chiffre officiel
Prochain
Je regardais les finalistes du monde Interior Design Awards de cette année, 28 en Chine
KIA déclaration Chi-hwan ou des informations seront disponibles en Août
Avec la saison scolaire TA, l'afflux de « mixte » et le campus n'est pas illégal, la réponse est ......
la beauté de la crème Wang Yu licence locateurs en direct, a réussi à prendre à emporter, est revenu à regarder anneau ignorant
Et DeepMind examiner ensemble comment reproduire les valeurs humaines dans l'AI
Pourquoi la Chine spéciale pour la voiture était si mal Tucao, les ventes sont encore si bon?
Les meilleures chaussures Nike liste 2017! Quelle double avez-vous?
Méchant explosion Day Film | "Dumbo" de la box-office de Disney au cours des dernières années comme le "plus misérable", box-office "Bohemian Rhapsody" enregistrement
Cette valeur et plusieurs configuration des couleurs de SUV, simplement pour les jeunes et les étudiants!
55000 mosaïque de cristal Swarovski, cette paire de Nike Air Max 97 pieds pic « balle d'argent »!
Merci pour ce garçon! Li Yi Feng émis émotion et sociétés de courtage présumé contrat arrive à échéance
logiciel publicitaire intégré a été installé sur une attaque informatique Wan hommes jeu Steam trojans