Outils | Facebook libérés sans gradient optimisé outils open source Nevergrad, peut être appliquée à différents types de problèmes d'apprentissage machine

AI Technology Review par: La plupart des tâches d'apprentissage de la machine - de traitement du langage naturel, la classification de l'image et la traduction dans un grand nombre d'autres tâches, reposent sur l'optimisation non-gradient pour régler les paramètres du modèle et / ou ultra-paramètres. Pour le paramètre / super-réglage des paramètres plus rapide, plus facile, Facebook a créé un Nevergrad nommé (https://github.com/facebookresearch/nevergrad) de la bibliothèque Python 3 et sa sortie open source. Nevergrad fournit de nombreux algorithme d'optimisation ne dépend pas du gradient calculé et présenté dans un cadre standard Q Python. En outre, Nevergrad comprend également des outils de test et d'évaluation.

Nevergrad maintenant nous ouvrons, les chercheurs en intelligence artificielle et les autres travailleurs de l'optimisation non-gradient peuvent utiliser immédiatement pour aider dans leur travail. Cette plate-forme non seulement leur permet d'atteindre les plus algorithmes et des méthodes avancées, de comparer leurs performances dans différents contextes, la machine sera également aider les scientifiques à apprendre à utiliser des exemples spécifiques de trouver le meilleur optimiseur. Institut de recherche sur l'intelligence artificielle dans Facebook (FAIR), les chercheurs sont appliqués à l'apprentissage de renforcement Nevergrad, génération d'images, et toutes sortes de projets dans d'autres domaines, par exemple, il peut remplacer les paramètres d'analyse afin de mieux les modèles d'apprentissage de la machine tune.

Cette bibliothèque contient une variété d'optimisation, par exemple:

  • algorithme différentiel d'évolution (évolution différentielle)

  • SQP (programmation quadratique séquentielle)

  • FastGA

  • matrice de covariance adaptative (adaptation de la matrice de covariance)

  • La méthode globale de contrôle de gestion du bruit (méthodes de contrôle de la population pour la gestion du bruit)

  • PSO (optimisation de la particule de)

Avant cela, les chercheurs utilisent ces algorithmes ont souvent besoin d'écrire votre propre algorithme, ce qui les rend difficiles à comparer entre les différentes méthodes de ce jour, parfois même impossible de comparer. Maintenant, les développeurs AI, peuvent facilement être fait en utilisant Nevergrad sur un problème d'apprentissage machine particulière de différentes méthodes d'essai, puis comparer les résultats. Ou alors, ils peuvent également utiliser l'indice de référence bien connu pour évaluer - en comparaison avec les méthodes les plus avancées, la façon dont les nouvelles méthodes d'optimisation sans gradient.

Isocratique méthode d'optimisation Nevergrad peut être inclus dans différents types de machines d'apprentissage utilisées, par exemple:

  • problèmes multimodaux, ces problèmes ont plusieurs minima locaux. (Comme l'apprentissage profond pour hyperparametric de modélisation linguistique.)

  • Lorsque problème mal posé, habituellement une pluralité de variables d'optimisation ont des caractéristiques dynamiques de complètement différentes, ce qui sera un problème (par exemple, aucun ajustement à un problème particulier et jeter le taux d'apprentissage).

  • Détachables ou des questions en rotation, y compris les problèmes de rotation partielle.

  • une partie du problème dissociables peut être considéré pour résoudre ces problèmes par plusieurs blocs variables. Les exemples incluent l'apprentissage en profondeur ou d'autres formes de recherches de conception d'architecture et réseau multi-tâches paramétrique.

  • Discrète, des problèmes continus ou mixtes. Ceux-ci peuvent inclure un système d'alimentation (parce que certaines centrales ayant continuellement sortie réglable, tandis que l'autre plante ayant une sortie continue ou semi-continue puissance) Taux de chaque couche ou nécessite un apprentissage sélection simultanée, et les masses d'atténuation non linéaires du type de tâche de réseau neuronal .

  • problème de bruit qui permettent de résoudre ce problème, peut renvoyer un résultat différent lorsque la fonction est exactement les mêmes arguments tels que l'apprentissage de renforcement dans les différents niveaux.

Dans l'apprentissage de la machine, Nevergrad être utilisé pour régler des paramètres tels que la vitesse d'apprentissage, l'élan, les poids d'amortissement (peut-être chaque couche), les paramètres de la couche chute de tension (rejeté) algorithme, la profondeur de chaque partie du réseau et d'autres. De manière plus générale, la méthode non-gradient peut également être utilisé pour la gestion du réseau (https://www.sciencedirect.com/science/article/pii/S0142061597000409), l'aviation (https://www.sciencedirect.com/science/article/ PII / S0142061597000409), la conception de lentilles (https://www.researchgate.net/publication/222434804_Human-competitive_lens_system_design_with_evolution_strategies) et bien d'autres applications scientifiques et d'ingénierie.

Pourquoi est de savoir si les besoins d'optimisation de gradient

Dans certains scénarios, tels que l'optimisation des poids de réseau de neurones en poids à l'analyse pour calculer la fonction de gradient est simple. Cependant, dans d'autres scénarios, par exemple lorsque la fonction de calcul f lent, ou lorsqu'un domaine discontinue, la fonction de gradient ne peut pas estimer out. Dans ces exemples d'application, la méthode isocratique offre une solution. Une solution simple est isocratique recherche aléatoire, qui recherche un grand nombre de points d'échantillonnage par un aléatoire, évaluer chaque point de recherche, pour sélectionner la meilleure recherche de point de trois étapes. Recherche aléatoire dans de nombreux scénarios de simples bien performé, mais en scène de grande dimension, mais de mauvaises performances. recherche Grille est couramment utilisé le réglage des paramètres d'apprentissage machine sont également confrontés à des restrictions similaires. Cependant, il existe de nombreuses alternatives: certains de l'application des mathématiques, telles que la programmation quadratique séquentielle, approximation quadratique mis à jour son simulateur, également modèle de fonction objectif d'optimisation bayésienne, y compris l'incertitude du modèle; évolution calcul contient beaucoup de travail sur la variante choisie, ainsi que la variation du mélange prometteur.

Cet exemple montre comment l'évolution des algorithmes de fonctionner. Dans le point d'échantillonnage de l'espace de la fonction de recherche et sélectionnez le meilleur point de la communauté, et recommande ensuite un nouveau point a été un peu pour essayer d'optimiser le point actuel de la communauté.

Utilisation standard algorithme de génération Nevergrad

équipe de recherche Facebook utilisé Nevergrad mettre en uvre plusieurs tests de référence pour démontrer les performances d'un algorithme particulier dans une situation donnée mieux. Ces correspond par exemple bien connu à une variété de paramètres différents (multimodal ou multimodal, du bruit ou non-bruit, discrètes ou non discrètes, morbides ou malades), et montre comment utiliser le meilleur algorithme d'optimisation pour déterminer Nevergrad.

Dans chaque référence, l'équipe Facebook pour différentes valeurs de X sont des expériences indépendantes. Cela garantit la cohérence entre les différentes méthodes de tri sur plusieurs valeurs de X sont statistiquement significatives. Outre les deux exemples de référence ici (https://github.com/facebookresearch/nevergrad/blob/master/docs/benchmarks.md) ainsi qu'une liste plus complète, ainsi que la façon d'utiliser une ligne de commande simple, Réexécutez ces directives de repères.

Cette figure montre un exemple d'optimisation du bruit

Cet exemple illustre l'utilisation du principe de bruit TBPSA gestion pcCMSA-ES (https://homepages.fhv.at/hgb/New-Papers/PPSN16_HB16.pdf) comment surmonter plusieurs alternatives sur les performances. équipe Facebook où seul un TBPSA exemple limité et les algorithmes ont été comparés, cependant, par rapport à d'autres méthodes, sa performance est meilleure.

plate-forme Nevergrad peut également effectuer une fonction objectif discret dans de nombreux scénarios d'apprentissage machine surgiront. Ces scénarios comprennent, par exemple, être sélectionné (par exemple, la fonction d'activation du réseau de neurones) et sélectionnez le type des couches respectives dans un ensemble limité d'options (par exemple, décider si leur emplacement dans les besoins du réseau à sauter connexion).

des plates-formes alternatives existantes (Bbob et Cutest) ne contient pas de référence logique. Nevergrad peut être effectuée après la fonction softmax (le problème discret dans problème continu dans bruyant) ou des variables continues discrétisées pour traiter le domaine discret.

équipe de recherche Facebook a noté que, dans ce scénario, FastGA (https://arxiv.org/abs/1703.03334) réalisé le meilleur. DoubleFastGA taux de mutation correspondant est compris entre 1 / dim et (dim-1) / dim, sans correspondant à 1 / dim et 1/2. En effet, les correspond gamme d'origine au champ binaire, mais ici, ils considèrent que tout domaine. Dans certains cas, un simple taux de mutation mélange uniforme (https://arxiv.org/abs/1606.05551) bonne performance.

boîte à outils d'apprentissage automatique étendu pour les chercheurs et les scientifiques

Faacebook Nevergrad continuera d'ajouter des fonctionnalités pour aider les chercheurs à créer et à évaluer de nouveaux algorithmes. La version originale a des fonctions de test manuel de base, mais Facebook prévoit d'ajouter plus de ses caractéristiques, y compris un modèle physique fonctionnel. Dans l'application, ils continueront à faire Nevergrad devenir plus facile à utiliser, et essayer de l'utiliser pour ne pas être bien défini PyTorch gradient amélioré les paramètres du modèle d'apprentissage sont optimisés. Nevergrad peut aussi aider d'autres tâches test A / B et les paramètres d'analyse planification des tâches.

via: https: //code.fb.com/ai-research/nevergrad/, AI Technology Review compilé.

Cliquez pour lire l'original, des réalisations importantes au cours des années pour voir Facebook Intelligence artificielle Institut de recherche

Hong Kong Film Awards base de données publiée, l'actrice toujours l'obtenir était elle
Précédent
Ce n'est pas un scénario de film de gangster, c'est la réalité à Hong Kong effroyable assassiner -
Prochain
Site | Difficile vrai visage des problèmes techniques, la marque de la technologie d'édition Geely « Intec » combler une vacance
LeetCode de base algorithme premier 102 titre: nuds feuilles d'arbres binaires et tout à gauche
KITH x communiqué de série joint Daniel Arsham! Assurez-vous un seconde division tourné la chimie?
Epic fils de trois chambres admet un père, se sont mariés en Février peut maintenant se promener bébé?
robot de nettoyage de pierre conduit, deux à onze inventaire des bonnes choses technologiques vaut d'achat
Photos d'attaque Blue Harbor: « épée du ciel » glaner « Shadow Odyssey » lien, Qi Wei, Wong projet d'art dramatique de réseau entrant Cho Lam
Ces premier intelligence artificielle rencontre l'année prochaine a déménagé en Chine! Aucun pays ne peut « Montagne Huashan »
« Forensic Heroes 4 » vient d'annoncer qu'elle allait monter le nid, ses débuts de 16 ans ont appris à voir plus tard agir ~
Po Chun 730 automatique Intérieur a annoncé! Le nouveau marché de l'automobile, ou 18 Novembre
Heineken et la famille conjointe BAPE? ! Avec pour voir Coca-Cola qui est mieux que vous pensez?
Un plus premier domestique 6T Liuzuo Hu a déclaré l'ajout d'un marché de base de la marque phare mondiale
Le long article du New York Times: Silicon Valley Yoda - algorithme maître Donald Knuth