« Dry » 2018 pas la peine d'essayer nouvel algorithme d'optimisation globale

New Ji-won a rapporté nombre public micro-canal: New Ji-won (AI_era)

[New Ji-won EXAMEN Cet article décrit une méthode d'optimisation globale appelée Lipo, cette méthode n'a pas de paramètres, et mieux que la méthode éprouvée de recherche aléatoire. Sur cette base, les auteurs proposent une méthode régions de confiance MaxLIPO et méthode d'optimisation hybride utilisé dans tous les tests, ont obtenu les meilleurs résultats, et ne nécessite pas de paramètres. Est-ce que vous ajustez toujours manuellement les paramètres? Mieux vaut essayer une meilleure façon.

Il y a un problème commun: vous voulez utiliser un algorithme d'apprentissage automatique, mais il y a toujours des paramètres super de carrément. Taille de décroissance par exemple de poids, la largeur du noyau gaussien et autres. L'algorithme ne définit pas ces paramètres, mais vous devez déterminer leur valeur. Si vous ne définissez pas ces paramètres comme valeur de « bien », l'algorithme ne fonctionnera pas. Alors, comment le feriez-vous? Ci-dessous j'ai énuméré les gens de la pratique que j'ai jamais vu, du plus commun au moins commun genre:

  • Devinez et vérifier: Écoutez votre intuition, se sentir bien la sélection des chiffres pour voir si elles fonctionnent. Il a continué à le faire jusqu'à ce que fatigué.

  • Recherche Grille: Laissez les essais informatiques pour définir une valeur dans une certaine plage uniformément répartie.

  • Recherche au hasard: Laissez l'ordinateur ensemble de valeurs sélectionnées au hasard.

  • optimisation bayésienne: Utilisez bayesopt de classe d'outils tels que Matlab sélectionne automatiquement les meilleurs paramètres, vous trouverez qu'il ya plus de super paramètres d'optimisation bayésienne que vos algorithmes d'apprentissage machine, vous devenez frustré, puis revenir en arrière et vérifier l'utilisation de la spéculation ou d'un réseau la recherche de la grille.

  • Optimisation locale en présence d'une bonne estimation initiale, la prémisse: Ceci est la méthode MITIE, qui utilise l'algorithme BOBYQA, et un point de départ bien choisi. Depuis BOBYQA seulement pour trouver la solution la plus proche de optimale locale, de sorte que le succès de cette méthode dépend en grande partie s'il y a un bon point de départ. Dans le cas de MITIE, nous savons qu'un bon point de départ, mais ce n'est pas une solution universelle, parce que généralement vous ne savez pas où un bon point de départ. Du côté positif, cette méthode est bien adaptée pour trouver des optima locaux. Plus tard, je vais en discuter.

La plupart des gens utilisent uniquement deviner et méthode de vérification. Mais il devrait y avoir une meilleure façon. Nous voulons tous être comme cette stratégie d'optimisation bayésien d'optimisation de la boîte noire est utile, mais dans mon expérience, si vous ne devez pas être ensemble ultra-paramètre à la valeur correcte, alors il est préférable de deviner et de l'examen professionnel. Tout le monde a la même expérience de l'utilisation d'une optimisation bayésienne je sais. En fin de compte, si je pense régler manuellement les paramètres peuvent faire mieux, puis le chant manuellement, mais la plupart de mes collègues pensent. Le résultat final est que la plupart du temps, je ne pas utiliser un outil de sélection ultra-automatisé paramètre. J'aimerais avoir une optimisation globale non-paramétrique, vous pouvez faire confiance pour faire avec elle les préférences ultra.

Alors, quand je lis Cédric et Nicolas Malherbe Vayatis étude mondiale d'optimisation publiée l'an dernier à la Conférence internationale sur la machine lorsque les fonctions Lipschitz du papier, j'étais très excité. Dans cet article, ils font un pas de paramètres très simples et éprouvées méthode efficace pour trouver la fonction f (x) pour maximiser la

Même f (x) avec une pluralité de maxima locaux. L'idée principale est liée sur le papier de maintien linéaire par morceaux f (x), et l'utiliser pour déterminer les x évaluées dans chaque étape d'optimisation. Donc, si vous avez évalué le point x, X, ..., xt, vous pouvez définir une limite supérieure simple, sur f (x), comme suit:

Où k est f (x) est constante de Lipschitz. Ainsi, selon la définition des constantes de Lipschitz, U (x) F (x), Ux, il est correct. Ensuite, les auteurs proposent un algorithme simple, appelé Lipo, limite supérieure de l'algorithme aléatoire point sélectionné, vérifier si le nouveau point mieux que les meilleurs points vu jusqu'à présent, et si oui, pour le sélectionner comme les points suivants pour évaluer. Par exemple, la figure le montre une simple fonction f (x) (ligne rouge), son U (x) associé limite supérieure apparaît en vert. Dans ce cas, U (x) est définie par quatre points, représentée par les petits carrés noirs.

Il est facile de voir comment l'aide que vous borne supérieure de choisir un bon point pour évaluer. Par exemple, si vous sélectionnez la limite supérieure maximale que la prochaine itération, vous avez été très proche de la maximisée mondiale. Auteur continue de démontrer quelques-unes des fonctionnalités intéressantes de cette méthode. En particulier, ils sont mathématiquement prouvés, et l'expérience a prouvé que dans de nombreux cas non trivial, cette méthode est meilleure que la recherche aléatoire. Ils seront également optimiser la méthode bayésienne et d'autres algorithmes sont comparés et ont montré leur compétitivité.

Mais vous pourriez penser: « Attendez une minute, nous ne savons pas la valeur Lipschitz k constante! » Ce n'est pas un gros problème, car il est facile d'estimer, par exemple, avant chaque k itération est réglée sur f (x) de la pente maximale observée . Cela équivaut à résoudre la question simple suivante:

Malherbe, qui a testé une variante de cette méthode d'estimation k, et montrer que cela fonctionne.

Cette méthode est grande. J'adore cet article. En résumé, il présente une méthode d'optimisation globale appelée Lipo, cette méthode n'a pas de paramètres, et mieux que la méthode éprouvée de recherche aléatoire. Et il est aussi très simple. Je vais donc ajouter un algorithme de lipo Dlib, je pratiquais dans la dernière version de Dlib V19.8.

Toutefois, si vous souhaitez utiliser Lipo dans la pratique, nous devons aussi aborder certains des problèmes. La prochaine partie de cet article traite de ces questions et comment les résoudre à atteindre Dlib. Tout d'abord, si f (x) ont un bruit continu ou non, même si seulement un peu, il ne, parce que k devient pas fonctionner de manière fiable infinie. Dans les problèmes du monde réel se produisent toujours dans ce cas. Deuxièmement, tous les super-paramètres sont tout aussi importants, certains paramètres sont presque pas de relation, un peu de changement aura une incidence sur la sortie d'autres paramètres de f (x) est. Donc, si chacun a son propre k ultra-paramètre, il sera bon. Vous pouvez résoudre ces problèmes par définition U liés (x), comme suit:

Maintenant, chaque échantillon de f (x) a son propre terme de bruit

La plupart du temps sa valeur doit être égale à zéro, à moins que

Très proche d'une discontinuité ou d'un caractère aléatoire. Ici, K est une matrice diagonale contenant les « hyper-paramètres d'un k Lipschitz pour chaque élément. » Par cette formule, chaque est définie sur 0,

Même U (x) est donnée et Malherbe et al proposé, mais si la valeur prise de façon plus générale, peut traiter le problème mentionné ci-dessus.

Comme précédemment, nous pouvons en résolvant un problème d'optimisation pour trouver les paramètres U (x) de:

sur s²

La peine fait le plus du terme est exactement zéro. La performance de l'algorithme pour une valeur de pénalité de spécifiques utilisées ici ne sont pas sensibles, tant qu'il était assez grande, donc la plupart du temps la valeur est 0, tout en empêchant k devient infinie, ce que nous voulons. Il peut également être réécrite comme un grand problème de programmation quadratique, et tomba méthode à deux coordonnées pour résoudre ce problème. Nous ne serons pas discuté en détail ici.

Le dernier problème à résoudre est de maximiser la convergence LIPO dans la région. Ainsi, alors que LIPO bonne portée f (x) est le plus haut sommet, mais une fois qu'il atteint, il ne sera pas la position optimale (c.-à-crête) progresser très rapidement. Ceci est des algorithmes d'optimisation dérivés ont de nombreux problèmes, y compris les outils d'optimisation bayésienne MATLAB. Heureusement, toutes les méthodes sont soumis à cette limitation. En particulier, Michael J.D.Powell a écrit une série d'articles sur la façon dont la méthode est appliquée à l'optimisation de gradient de champ de confiance non classique. Ces méthodes sont maintenant considérées dans le voisinage du point optimal montage d'une surface quadratique, puis suivant une itération à une certaine distance du point optimal de courant, une valeur maximale de la surface quadrique. Nous avons donc « confiance » le modèle quadratique locale dans une petite zone près du point optimal est précis, on l'appelle « régions de confiance. » méthode BOBYQA mentionné ci-dessus est l'un d'entre eux, son plus proche convergence optimale locale est très bonne, très facile à trouver à quelques pas de optima locaux.

Nous pouvons combiner ces deux approches pour résoudre le problème de la convergence de la lipodystrophie, LIPO explorera f (x) et de trouver rapidement le point de pic maximum. Ensuite, une région de confiance de la méthode Powell peut trouver la maximisation de la valeur exacte de pointe. Mettez les deux ensemble plus simple est d'alterner entre eux, ce qui est Dlib a fait. Dans un nombre pair d'itérations, nous choisissons la borne suivante supérieure en fonction de x, alors que dans les itérations impaires, nous avons une confiance plus faible en fonction de sélection x modèle de domaine. J'ai aussi utilisé une version légèrement différente de Lipo appelé MaxLIPO. Rappel, Malherbe, qui a recommandé de choisir un point supérieur à la limite supérieure de courant mieux la cible. Cependant, je trouve mieux sélectionner le point de limite maximale supérieure à chaque itération. Cette alternative versions MaxLIPO est Dlib utilisation.

La ligne rouge est d'optimiser la fonction, nous recherchons des points maximum. Chaque algorithme de temps pour extraire un point d'une fonction, nous allons utiliser une petite boîte pour enregistrer. État solveur modèle quadratique partielle est déterminé par la communauté mondiale U (x) et la méthode de la région de confiance utilisée. Par conséquent, nous tirons le modèle de la limite supérieure et actuel modèle quadratique local, de sorte que vous pouvez voir que l'optimisation de la conduite, la façon dont ils évoluent. Nous avons également utilisé une ligne verticale pour marquer l'emplacement des meilleurs points vus jusqu'à présent.

Les intervalles de confiance MaxLIPO processus intégré et Powell (MaxLIPO + TR, rouge) et Matlab bayésienne réglage par défaut Optimizer (bleu) par rapport à un arrêt de la précision de l'optimisation bayésienne de ± -310 e et procédé de mélange a été rapidement réduite à ± 10 -17 puissance de précision à virgule flottante.

MaxLIPO comparaison + TR avec d'autres méthodes, dans tous les tests, ont obtenu les meilleurs résultats, et ne nécessite pas de paramètres, très pratique à utiliser.

Le texte est accompagné par l'utilisation de la fonction d'optimisation de code Python, regardez ici: http: //blog.dlib.net/2017/12/a-global-optimization-algorithm-worth.html

Papier: Optimisation globale des fonctions Lipschitz https://arxiv.org/abs/1703.02628

Enfin, un hommage à eux dans son cercle d'amis, et il est devenu leur
Précédent
Février le plus digne! « Snow Festival » est tout simplement une bande dessinée sur la scène!
Prochain
Une formule qui fait la Terre quatre milliards d'années d'évolution
Bonnes nouvelles! Jingdezhen place a été attribuée « comté provincial de la santé du Jiangxi » titre honorifique!
Sri Lanka est vrai des États-Unis à impressionnant!
Ali, Amazon, Facebook, après Tencent, quelle est la prochaine vague?
« Statut AI du marché du travail embarrassant enquête » entrevue avec les chasseurs de têtes, véritable secret AI millions liste de salaire annuel
Avant l'âge de 40 ans passera à 15 paradis sans égal, même si vous avez voyagé jusqu'à huit personnes!
Fan Teng: Au lieu de laisser 10 personnes a dit qu'il était grand, mieux de laisser 100 personnes crier
"AI Global War Doctor" Hinton: 5 - 10 ans pour remplacer l'étude approfondie du radiologue
Chinois, vraiment beau!
Hanchuan ici d'entretien du pipeline, faites attention aux véhicules passant by-pass bouché trop ......
Qui est le plus chinois | « luxure », naturel
2019 guide des restaurants Black Pearl libéré! Voici le vrai paradis gastronomique Macao original!