Outils | Facebook lib�r�s sans gradient optimis� outils open source Nevergrad, peut �tre appliqu�e � diff�rents types de probl�mes d'apprentissage machine

AI Technology Review par: La plupart des t�ches d'apprentissage de la machine - de traitement du langage naturel, la classification de l'image et la traduction dans un grand nombre d'autres t�ches, reposent sur l'optimisation non-gradient pour r�gler les param�tres du mod�le et / ou ultra-param�tres. Pour le param�tre / super-r�glage des param�tres plus rapide, plus facile, Facebook a cr�� un Nevergrad nomm� (https://github.com/facebookresearch/nevergrad) de la biblioth�que Python 3 et sa sortie open source. Nevergrad fournit de nombreux algorithme d'optimisation ne d�pend pas du gradient calcul� et pr�sent� dans un cadre standard Q Python. En outre, Nevergrad comprend �galement des outils de test et d'�valuation.

Nevergrad maintenant nous ouvrons, les chercheurs en intelligence artificielle et les autres travailleurs de l'optimisation non-gradient peuvent utiliser imm�diatement pour aider dans leur travail. Cette plate-forme non seulement leur permet d'atteindre les plus algorithmes et des m�thodes avanc�es, de comparer leurs performances dans diff�rents contextes, la machine sera �galement aider les scientifiques � apprendre � utiliser des exemples sp�cifiques de trouver le meilleur optimiseur. Institut de recherche sur l'intelligence artificielle dans Facebook (FAIR), les chercheurs sont appliqu�s � l'apprentissage de renforcement Nevergrad, g�n�ration d'images, et toutes sortes de projets dans d'autres domaines, par exemple, il peut remplacer les param�tres d'analyse afin de mieux les mod�les d'apprentissage de la machine tune.

Cette biblioth�que contient une vari�t� d'optimisation, par exemple:

algorithme diff�rentiel d'�volution (�volution diff�rentielle)
SQP (programmation quadratique s�quentielle)
FastGA
matrice de covariance adaptative (adaptation de la matrice de covariance)
La m�thode globale de contr�le de gestion du bruit (m�thodes de contr�le de la population pour la gestion du bruit)
PSO (optimisation de la particule de)

Avant cela, les chercheurs utilisent ces algorithmes ont souvent besoin d'�crire votre propre algorithme, ce qui les rend difficiles � comparer entre les diff�rentes m�thodes de ce jour, parfois m�me impossible de comparer. Maintenant, les d�veloppeurs AI, peuvent facilement �tre fait en utilisant Nevergrad sur un probl�me d'apprentissage machine particuli�re de diff�rentes m�thodes d'essai, puis comparer les r�sultats. Ou alors, ils peuvent �galement utiliser l'indice de r�f�rence bien connu pour �valuer - en comparaison avec les m�thodes les plus avanc�es, la fa�on dont les nouvelles m�thodes d'optimisation sans gradient.

Isocratique m�thode d'optimisation Nevergrad peut �tre inclus dans diff�rents types de machines d'apprentissage utilis�es, par exemple:

probl�mes multimodaux, ces probl�mes ont plusieurs minima locaux. (Comme l'apprentissage profond pour hyperparametric de mod�lisation linguistique.)
Lorsque probl�me mal pos�, habituellement une pluralit� de variables d'optimisation ont des caract�ristiques dynamiques de compl�tement diff�rentes, ce qui sera un probl�me (par exemple, aucun ajustement � un probl�me particulier et jeter le taux d'apprentissage).
D�tachables ou des questions en rotation, y compris les probl�mes de rotation partielle.
une partie du probl�me dissociables peut �tre consid�r� pour r�soudre ces probl�mes par plusieurs blocs variables. Les exemples incluent l'apprentissage en profondeur ou d'autres formes de recherches de conception d'architecture et r�seau multi-t�ches param�trique.
Discr�te, des probl�mes continus ou mixtes. Ceux-ci peuvent inclure un syst�me d'alimentation (parce que certaines centrales ayant continuellement sortie r�glable, tandis que l'autre plante ayant une sortie continue ou semi-continue puissance) Taux de chaque couche ou n�cessite un apprentissage s�lection simultan�e, et les masses d'att�nuation non lin�aires du type de t�che de r�seau neuronal .
probl�me de bruit qui permettent de r�soudre ce probl�me, peut renvoyer un r�sultat diff�rent lorsque la fonction est exactement les m�mes arguments tels que l'apprentissage de renforcement dans les diff�rents niveaux.

Dans l'apprentissage de la machine, Nevergrad �tre utilis� pour r�gler des param�tres tels que la vitesse d'apprentissage, l'�lan, les poids d'amortissement (peut-�tre chaque couche), les param�tres de la couche chute de tension (rejet�) algorithme, la profondeur de chaque partie du r�seau et d'autres. De mani�re plus g�n�rale, la m�thode non-gradient peut �galement �tre utilis� pour la gestion du r�seau (https://www.sciencedirect.com/science/article/pii/S0142061597000409), l'aviation (https://www.sciencedirect.com/science/article/ PII / S0142061597000409), la conception de lentilles (https://www.researchgate.net/publication/222434804_Human-competitive_lens_system_design_with_evolution_strategies) et bien d'autres applications scientifiques et d'ing�nierie.

Pourquoi est de savoir si les besoins d'optimisation de gradient

Dans certains sc�narios, tels que l'optimisation des poids de r�seau de neurones en poids � l'analyse pour calculer la fonction de gradient est simple. Cependant, dans d'autres sc�narios, par exemple lorsque la fonction de calcul f lent, ou lorsqu'un domaine discontinue, la fonction de gradient ne peut pas estimer out. Dans ces exemples d'application, la m�thode isocratique offre une solution. Une solution simple est isocratique recherche al�atoire, qui recherche un grand nombre de points d'�chantillonnage par un al�atoire, �valuer chaque point de recherche, pour s�lectionner la meilleure recherche de point de trois �tapes. Recherche al�atoire dans de nombreux sc�narios de simples bien perform�, mais en sc�ne de grande dimension, mais de mauvaises performances. recherche Grille est couramment utilis� le r�glage des param�tres d'apprentissage machine sont �galement confront�s � des restrictions similaires. Cependant, il existe de nombreuses alternatives: certains de l'application des math�matiques, telles que la programmation quadratique s�quentielle, approximation quadratique mis � jour son simulateur, �galement mod�le de fonction objectif d'optimisation bay�sienne, y compris l'incertitude du mod�le; �volution calcul contient beaucoup de travail sur la variante choisie, ainsi que la variation du m�lange prometteur.

Cet exemple montre comment l'�volution des algorithmes de fonctionner. Dans le point d'�chantillonnage de l'espace de la fonction de recherche et s�lectionnez le meilleur point de la communaut�, et recommande ensuite un nouveau point a �t� un peu pour essayer d'optimiser le point actuel de la communaut�.

Utilisation standard algorithme de g�n�ration Nevergrad

�quipe de recherche Facebook utilis� Nevergrad mettre en uvre plusieurs tests de r�f�rence pour d�montrer les performances d'un algorithme particulier dans une situation donn�e mieux. Ces correspond par exemple bien connu � une vari�t� de param�tres diff�rents (multimodal ou multimodal, du bruit ou non-bruit, discr�tes ou non discr�tes, morbides ou malades), et montre comment utiliser le meilleur algorithme d'optimisation pour d�terminer Nevergrad.

Dans chaque r�f�rence, l'�quipe Facebook pour diff�rentes valeurs de X sont des exp�riences ind�pendantes. Cela garantit la coh�rence entre les diff�rentes m�thodes de tri sur plusieurs valeurs de X sont statistiquement significatives. Outre les deux exemples de r�f�rence ici (https://github.com/facebookresearch/nevergrad/blob/master/docs/benchmarks.md) ainsi qu'une liste plus compl�te, ainsi que la fa�on d'utiliser une ligne de commande simple, R�ex�cutez ces directives de rep�res.

Cette figure montre un exemple d'optimisation du bruit

Cet exemple illustre l'utilisation du principe de bruit TBPSA gestion pcCMSA-ES (https://homepages.fhv.at/hgb/New-Papers/PPSN16_HB16.pdf) comment surmonter plusieurs alternatives sur les performances. �quipe Facebook o� seul un TBPSA exemple limit� et les algorithmes ont �t� compar�s, cependant, par rapport � d'autres m�thodes, sa performance est meilleure.

plate-forme Nevergrad peut �galement effectuer une fonction objectif discret dans de nombreux sc�narios d'apprentissage machine surgiront. Ces sc�narios comprennent, par exemple, �tre s�lectionn� (par exemple, la fonction d'activation du r�seau de neurones) et s�lectionnez le type des couches respectives dans un ensemble limit� d'options (par exemple, d�cider si leur emplacement dans les besoins du r�seau � sauter connexion).

des plates-formes alternatives existantes (Bbob et Cutest) ne contient pas de r�f�rence logique. Nevergrad peut �tre effectu�e apr�s la fonction softmax (le probl�me discret dans probl�me continu dans bruyant) ou des variables continues discr�tis�es pour traiter le domaine discret.

�quipe de recherche Facebook a not� que, dans ce sc�nario, FastGA (https://arxiv.org/abs/1703.03334) r�alis� le meilleur. DoubleFastGA taux de mutation correspondant est compris entre 1 / dim et (dim-1) / dim, sans correspondant � 1 / dim et 1/2. En effet, les correspond gamme d'origine au champ binaire, mais ici, ils consid�rent que tout domaine. Dans certains cas, un simple taux de mutation m�lange uniforme (https://arxiv.org/abs/1606.05551) bonne performance.

bo�te � outils d'apprentissage automatique �tendu pour les chercheurs et les scientifiques

Faacebook Nevergrad continuera d'ajouter des fonctionnalit�s pour aider les chercheurs � cr�er et � �valuer de nouveaux algorithmes. La version originale a des fonctions de test manuel de base, mais Facebook pr�voit d'ajouter plus de ses caract�ristiques, y compris un mod�le physique fonctionnel. Dans l'application, ils continueront � faire Nevergrad devenir plus facile � utiliser, et essayer de l'utiliser pour ne pas �tre bien d�fini PyTorch gradient am�lior� les param�tres du mod�le d'apprentissage sont optimis�s. Nevergrad peut aussi aider d'autres t�ches test A / B et les param�tres d'analyse planification des t�ches.

via: https: //code.fb.com/ai-research/nevergrad/, AI Technology Review compil�.

Cliquez pour lire l'original, des r�alisations importantes au cours des ann�es pour voir Facebook Intelligence artificielle Institut de recherche

Route de la soie

Apprenez � conna�tre la Chine

Outils | Facebook lib�r�s sans gradient optimis� outils open source Nevergrad, peut �tre appliqu�e � diff�rents types de probl�mes d'apprentissage machine

Pourquoi est de savoir si les besoins d'optimisation de gradient

Utilisation standard algorithme de g�n�ration Nevergrad

bo�te � outils d'apprentissage automatique �tendu pour les chercheurs et les scientifiques