� Dry � 2018 pas la peine d'essayer nouvel algorithme d'optimisation globale

New Ji-won a rapport� nombre public micro-canal: New Ji-won (AI_era)

[New Ji-won EXAMEN Cet article d�crit une m�thode d'optimisation globale appel�e Lipo, cette m�thode n'a pas de param�tres, et mieux que la m�thode �prouv�e de recherche al�atoire. Sur cette base, les auteurs proposent une m�thode r�gions de confiance MaxLIPO et m�thode d'optimisation hybride utilis� dans tous les tests, ont obtenu les meilleurs r�sultats, et ne n�cessite pas de param�tres. Est-ce que vous ajustez toujours manuellement les param�tres? Mieux vaut essayer une meilleure fa�on.

Il y a un probl�me commun: vous voulez utiliser un algorithme d'apprentissage automatique, mais il y a toujours des param�tres super de carr�ment. Taille de d�croissance par exemple de poids, la largeur du noyau gaussien et autres. L'algorithme ne d�finit pas ces param�tres, mais vous devez d�terminer leur valeur. Si vous ne d�finissez pas ces param�tres comme valeur de � bien �, l'algorithme ne fonctionnera pas. Alors, comment le feriez-vous? Ci-dessous j'ai �num�r� les gens de la pratique que j'ai jamais vu, du plus commun au moins commun genre:

Devinez et v�rifier: �coutez votre intuition, se sentir bien la s�lection des chiffres pour voir si elles fonctionnent. Il a continu� � le faire jusqu'� ce que fatigu�.
Recherche Grille: Laissez les essais informatiques pour d�finir une valeur dans une certaine plage uniform�ment r�partie.
Recherche au hasard: Laissez l'ordinateur ensemble de valeurs s�lectionn�es au hasard.
optimisation bay�sienne: Utilisez bayesopt de classe d'outils tels que Matlab s�lectionne automatiquement les meilleurs param�tres, vous trouverez qu'il ya plus de super param�tres d'optimisation bay�sienne que vos algorithmes d'apprentissage machine, vous devenez frustr�, puis revenir en arri�re et v�rifier l'utilisation de la sp�culation ou d'un r�seau la recherche de la grille.
Optimisation locale en pr�sence d'une bonne estimation initiale, la pr�misse: Ceci est la m�thode MITIE, qui utilise l'algorithme BOBYQA, et un point de d�part bien choisi. Depuis BOBYQA seulement pour trouver la solution la plus proche de optimale locale, de sorte que le succ�s de cette m�thode d�pend en grande partie s'il y a un bon point de d�part. Dans le cas de MITIE, nous savons qu'un bon point de d�part, mais ce n'est pas une solution universelle, parce que g�n�ralement vous ne savez pas o� un bon point de d�part. Du c�t� positif, cette m�thode est bien adapt�e pour trouver des optima locaux. Plus tard, je vais en discuter.

La plupart des gens utilisent uniquement deviner et m�thode de v�rification. Mais il devrait y avoir une meilleure fa�on. Nous voulons tous �tre comme cette strat�gie d'optimisation bay�sien d'optimisation de la bo�te noire est utile, mais dans mon exp�rience, si vous ne devez pas �tre ensemble ultra-param�tre � la valeur correcte, alors il est pr�f�rable de deviner et de l'examen professionnel. Tout le monde a la m�me exp�rience de l'utilisation d'une optimisation bay�sienne je sais. En fin de compte, si je pense r�gler manuellement les param�tres peuvent faire mieux, puis le chant manuellement, mais la plupart de mes coll�gues pensent. Le r�sultat final est que la plupart du temps, je ne pas utiliser un outil de s�lection ultra-automatis� param�tre. J'aimerais avoir une optimisation globale non-param�trique, vous pouvez faire confiance pour faire avec elle les pr�f�rences ultra.

Alors, quand je lis C�dric et Nicolas Malherbe Vayatis �tude mondiale d'optimisation publi�e l'an dernier � la Conf�rence internationale sur la machine lorsque les fonctions Lipschitz du papier, j'�tais tr�s excit�. Dans cet article, ils font un pas de param�tres tr�s simples et �prouv�es m�thode efficace pour trouver la fonction f (x) pour maximiser la

M�me f (x) avec une pluralit� de maxima locaux. L'id�e principale est li�e sur le papier de maintien lin�aire par morceaux f (x), et l'utiliser pour d�terminer les x �valu�es dans chaque �tape d'optimisation. Donc, si vous avez �valu� le point x, X, ..., xt, vous pouvez d�finir une limite sup�rieure simple, sur f (x), comme suit:

O� k est f (x) est constante de Lipschitz. Ainsi, selon la d�finition des constantes de Lipschitz, U (x) F (x), Ux, il est correct. Ensuite, les auteurs proposent un algorithme simple, appel� Lipo, limite sup�rieure de l'algorithme al�atoire point s�lectionn�, v�rifier si le nouveau point mieux que les meilleurs points vu jusqu'� pr�sent, et si oui, pour le s�lectionner comme les points suivants pour �valuer. Par exemple, la figure le montre une simple fonction f (x) (ligne rouge), son U (x) associ� limite sup�rieure appara�t en vert. Dans ce cas, U (x) est d�finie par quatre points, repr�sent�e par les petits carr�s noirs.

Il est facile de voir comment l'aide que vous borne sup�rieure de choisir un bon point pour �valuer. Par exemple, si vous s�lectionnez la limite sup�rieure maximale que la prochaine it�ration, vous avez �t� tr�s proche de la maximis�e mondiale. Auteur continue de d�montrer quelques-unes des fonctionnalit�s int�ressantes de cette m�thode. En particulier, ils sont math�matiquement prouv�s, et l'exp�rience a prouv� que dans de nombreux cas non trivial, cette m�thode est meilleure que la recherche al�atoire. Ils seront �galement optimiser la m�thode bay�sienne et d'autres algorithmes sont compar�s et ont montr� leur comp�titivit�.

Mais vous pourriez penser: � Attendez une minute, nous ne savons pas la valeur Lipschitz k constante! � Ce n'est pas un gros probl�me, car il est facile d'estimer, par exemple, avant chaque k it�ration est r�gl�e sur f (x) de la pente maximale observ�e . Cela �quivaut � r�soudre la question simple suivante:

Malherbe, qui a test� une variante de cette m�thode d'estimation k, et montrer que cela fonctionne.

Cette m�thode est grande. J'adore cet article. En r�sum�, il pr�sente une m�thode d'optimisation globale appel�e Lipo, cette m�thode n'a pas de param�tres, et mieux que la m�thode �prouv�e de recherche al�atoire. Et il est aussi tr�s simple. Je vais donc ajouter un algorithme de lipo Dlib, je pratiquais dans la derni�re version de Dlib V19.8.

Toutefois, si vous souhaitez utiliser Lipo dans la pratique, nous devons aussi aborder certains des probl�mes. La prochaine partie de cet article traite de ces questions et comment les r�soudre � atteindre Dlib. Tout d'abord, si f (x) ont un bruit continu ou non, m�me si seulement un peu, il ne, parce que k devient pas fonctionner de mani�re fiable infinie. Dans les probl�mes du monde r�el se produisent toujours dans ce cas. Deuxi�mement, tous les super-param�tres sont tout aussi importants, certains param�tres sont presque pas de relation, un peu de changement aura une incidence sur la sortie d'autres param�tres de f (x) est. Donc, si chacun a son propre k ultra-param�tre, il sera bon. Vous pouvez r�soudre ces probl�mes par d�finition U li�s (x), comme suit:

Maintenant, chaque �chantillon de f (x) a son propre terme de bruit

La plupart du temps sa valeur doit �tre �gale � z�ro, � moins que

Tr�s proche d'une discontinuit� ou d'un caract�re al�atoire. Ici, K est une matrice diagonale contenant les � hyper-param�tres d'un k Lipschitz pour chaque �l�ment. � Par cette formule, chaque est d�finie sur 0,

M�me U (x) est donn�e et Malherbe et al propos�, mais si la valeur prise de fa�on plus g�n�rale, peut traiter le probl�me mentionn� ci-dessus.

Comme pr�c�demment, nous pouvons en r�solvant un probl�me d'optimisation pour trouver les param�tres U (x) de:

sur s�

La peine fait le plus du terme est exactement z�ro. La performance de l'algorithme pour une valeur de p�nalit� de sp�cifiques utilis�es ici ne sont pas sensibles, tant qu'il �tait assez grande, donc la plupart du temps la valeur est 0, tout en emp�chant k devient infinie, ce que nous voulons. Il peut �galement �tre r��crite comme un grand probl�me de programmation quadratique, et tomba m�thode � deux coordonn�es pour r�soudre ce probl�me. Nous ne serons pas discut� en d�tail ici.

Le dernier probl�me � r�soudre est de maximiser la convergence LIPO dans la r�gion. Ainsi, alors que LIPO bonne port�e f (x) est le plus haut sommet, mais une fois qu'il atteint, il ne sera pas la position optimale (c.-�-cr�te) progresser tr�s rapidement. Ceci est des algorithmes d'optimisation d�riv�s ont de nombreux probl�mes, y compris les outils d'optimisation bay�sienne MATLAB. Heureusement, toutes les m�thodes sont soumis � cette limitation. En particulier, Michael J.D.Powell a �crit une s�rie d'articles sur la fa�on dont la m�thode est appliqu�e � l'optimisation de gradient de champ de confiance non classique. Ces m�thodes sont maintenant consid�r�es dans le voisinage du point optimal montage d'une surface quadratique, puis suivant une it�ration � une certaine distance du point optimal de courant, une valeur maximale de la surface quadrique. Nous avons donc � confiance � le mod�le quadratique locale dans une petite zone pr�s du point optimal est pr�cis, on l'appelle � r�gions de confiance. � m�thode BOBYQA mentionn� ci-dessus est l'un d'entre eux, son plus proche convergence optimale locale est tr�s bonne, tr�s facile � trouver � quelques pas de optima locaux.

Nous pouvons combiner ces deux approches pour r�soudre le probl�me de la convergence de la lipodystrophie, LIPO explorera f (x) et de trouver rapidement le point de pic maximum. Ensuite, une r�gion de confiance de la m�thode Powell peut trouver la maximisation de la valeur exacte de pointe. Mettez les deux ensemble plus simple est d'alterner entre eux, ce qui est Dlib a fait. Dans un nombre pair d'it�rations, nous choisissons la borne suivante sup�rieure en fonction de x, alors que dans les it�rations impaires, nous avons une confiance plus faible en fonction de s�lection x mod�le de domaine. J'ai aussi utilis� une version l�g�rement diff�rente de Lipo appel� MaxLIPO. Rappel, Malherbe, qui a recommand� de choisir un point sup�rieur � la limite sup�rieure de courant mieux la cible. Cependant, je trouve mieux s�lectionner le point de limite maximale sup�rieure � chaque it�ration. Cette alternative versions MaxLIPO est Dlib utilisation.

La ligne rouge est d'optimiser la fonction, nous recherchons des points maximum. Chaque algorithme de temps pour extraire un point d'une fonction, nous allons utiliser une petite bo�te pour enregistrer. �tat solveur mod�le quadratique partielle est d�termin� par la communaut� mondiale U (x) et la m�thode de la r�gion de confiance utilis�e. Par cons�quent, nous tirons le mod�le de la limite sup�rieure et actuel mod�le quadratique local, de sorte que vous pouvez voir que l'optimisation de la conduite, la fa�on dont ils �voluent. Nous avons �galement utilis� une ligne verticale pour marquer l'emplacement des meilleurs points vus jusqu'� pr�sent.

Les intervalles de confiance MaxLIPO processus int�gr� et Powell (MaxLIPO + TR, rouge) et Matlab bay�sienne r�glage par d�faut Optimizer (bleu) par rapport � un arr�t de la pr�cision de l'optimisation bay�sienne de � -310 e et proc�d� de m�lange a �t� rapidement r�duite � � 10 -17 puissance de pr�cision � virgule flottante.

MaxLIPO comparaison + TR avec d'autres m�thodes, dans tous les tests, ont obtenu les meilleurs r�sultats, et ne n�cessite pas de param�tres, tr�s pratique � utiliser.

Le texte est accompagn� par l'utilisation de la fonction d'optimisation de code Python, regardez ici: http: //blog.dlib.net/2017/12/a-global-optimization-algorithm-worth.html

Papier: Optimisation globale des fonctions Lipschitz https://arxiv.org/abs/1703.02628

Route de la soie

Apprenez � conna�tre la Chine

� Dry � 2018 pas la peine d'essayer nouvel algorithme d'optimisation globale