Sec | refusé lorsque l'ingénieur divisionnaire adjoint: liste algorithme de recherche ultra-paramètre

l'apprentissage de la machine et le processus de formation de réglage des paramètres du modèle en naturel et en fin de compte, beaucoup d'ingénieurs d'apprentissage de la machine se considèrent comme étant « la division assistant », son importance est évidente.

Les paramètres du modèle peuvent être divisés en deux catégories: les paramètres Ultra et paramètres, l'ancien modèle de données de paramètres à travers sa propre formation et d'apprentissage obtenus, ce dernier besoin de mettre en place leur propre expérience, afin d'améliorer l'effet de la formation du modèle. Le nombre de couche cachée sous la zone rouge, le nombre de neurones dans chaque fonction d'activation de la couche cachée et à utiliser ce que l'algorithme d'apprentissage, le taux d'apprentissage et un coefficient positif appartiennent hyperparam'etres.

Un modèle de processus d'atterrissage comme indiqué:

  • La collecte des journaux et des caractéristiques extraites à partir du journal, puis alimenté modèle caractéristique, le modèle d'apprentissage premier type de paramètre dans la première orientation hyperparamètres;
  • paramètres d'évaluation hors ligne des paramètres super performances réglage est approprié;
  • S'il ne convient pas de continuer à ajuster en permanence.

Dans ce processus d'ajustement des paramètres, il y a deux difficultés majeures:

1. grand espace des paramètres, essayez le coût élevé

Souvent, les données est énorme dans l'industrie, complexe modèle, informatiquement coûteux, et chaque type d'ultra-paramètres ont beaucoup de choix.

2. Le modèle cible est une boîte noire

Dans le processus de recherche sur le paramètre ne peut voir l'entrée et la sortie du modèle, ne peut pas obtenir le modèle d'information interne (tels que les gradients, etc.), nous ne pouvons pas établir la fonction objectif directement sur la combinaison optimale d'optimisation ultra-paramètres.

Sélectionnez les hyper-paramètres ont un grand impact sur les résultats du modèle final montrent, les difficultés ci-dessus ci-dessous décrit comment ajuster automatiquement la référence par l'algorithme, les méthodes de recherche les plus populaires de l'industrie comprennent la recherche de grille ultra-paramètre, recherche aléatoire et l'optimisation bayésienne.

grille de recherche n ° 1 Grille Recherche

paramètre recherche Grille des moyens de sélection dans tous les candidats en boucle à travers d'essayer toutes les possibilités, le meilleur paramètre de performance est le résultat final.

Par exemple, il existe deux types de l'hyper-paramètres de figure ci-dessus, chaque paramètre a trois super classe à des valeurs explorées après sont plus de 9 produit cartésien obtenu combinaisons de paramètres, chaque combinaison utilisée pour former le modèle par la grille de recherche et choisir les meilleurs paramètres super sur l'ensemble de validation. Comme on le voit, cette méthode souvent en fonction des espèces répertoriées dans le tableau, et la boucle grâce à la recherche de la table, on appelle la recherche de la grille.

Sous grille des algorithmes de recherche et des idées de mise en uvre sont simples, mais après un portefeuille de produits cartésien élargira l'espace de recherche, et certains sans importance en présence d'hyper-paramètres, la recherche de la grille gaspillent beaucoup de temps et d'espace pour faire un travail utile par conséquent, il s'applique uniquement à un petit nombre de paramètres sur la situation.

# 2 Recherche aléatoire aléatoire Recherche

Adresse originale: http: //www.jmlr.org/papers/volume13/bergstra12a/bergstra12a.pdf

Faute d'une grille de recherche, Bengio, qui a proposé la méthode de recherche aléatoire. Au hasard d'abord pour chaque classe de paramètres définissent une distribution super-bord, une distribution uniforme est généralement prise, et ces échantillons sur les paramètres de recherche.

Bien que des recherches aléatoires de facteurs aléatoires menant aux résultats de la recherche peuvent être particulièrement pauvres, mais peuvent aussi être particulièrement efficace. L'efficacité globale est supérieure à la grille de recherche, mais ne garantit pas qu'il sera préférable de trouver des super paramètres.

# 3 optimisation bayésienne bayésienne Optimisation

Comme un exemple simple, supposons fonction du modèle est la combinaison optimale des paramètres sur un graphique unidimensionnel, car il est pas une fonction de boîte noire jusqu'à ce qu'une forme particulière, mais peut entrer et obtenir les valeurs de certaines sorties.

Nous avons essayé quatre paramètres super aléatoires et l'indice de performance correspondant obtenu, comme indiqué ci-dessous.

La question est donc, Lorsqu'il est possible d'optimiser l'hyper? Au cours du paramètre suivant à explorer est qui? Je suppose que la meilleure valeur possible à 0,4 ici, la vraie forme de la fonction peut être long comme ceci:

* Histogramme enregistre la position du minimum chaque estimation

Et tout le monde conjecture est différent, chaque fonctions générées sont également différentes:

Nous pouvons voir que la plupart d'entre eux pensent que les meilleurs paramètres de super à proximité des trois premiers points depuis le début de l'indicateur en ligne sur le côté droit est le pire moment de l'exploitation minière, il est a priori penser ici la possibilité d'optimiser l'hyper . Ensuite, mettre ce processus dans la limite, vous obtenez un super-paramètres optimaux sur la distribution de probabilité.

Si l'on suppose que chaque distribution est une distribution gaussienne, puis obtenir est un processus gaussien, ce qui signifie la distribution gaussienne de 0 et de variance d'environ 5.

Que l'on suppose que c'est ce que les valeurs des paramètres optimaux pour prendre en charge, toujours obtenir une description des hyper-paramètres est bon ou mauvais, qui est, la moyenne et la variance, alors qu'en fait, nous utilisons un processus gaussien de dimension infinie pour simuler la boîte noire de recherche super-paramétrique la forme de fonction objective.

En conclusion, le problème est en fait la recherche super-paramétrique est une optimisation de la boîte noire, l'optimisation bayésienne est décrite par un processus gaussien boîte noire dimension infinie, dans le processus gaussien peut être obtenu pour chaque ensemble de paramètres d'entrée dépassent la moyenne et la variance.

Vous avez moyenne et la variance sont résolus le premier problème mentionné ci-dessus: « Où est possible d'optimiser l'hyper », les paramètres suivants super à explorer est quoi? Ceci est en fait un problème de E & E (exploration et utilisation), sont en toute sécurité à proximité de la recherche maximale disponible actuellement ou la recherche d'une grande incertitude à la place? Ce dernier effet est peut-être pauvre, mais il peut y avoir des gains inattendus.

Les problèmes d'acquisition fonction équilibrée avec précision E & E le chemin, le tour de laisser décrit trois pratique courante.

1 # supérieur (inférieur) Bande de confiance

E & E Méthode des échantillons d'UCB directement linéaire solde pondéré, le premier terme en cours est les meilleures valeurs de paramètres, fixez les meilleurs résultats à proximité du courant de recherche, d'autre part la variance, montrant l'espace pour explorer plus inconnu , le paramètre bêta pour commander l'intensité, cette méthode est simple et efficace.

2 Nombre maximum Probabilité d'amélioration

méthode objet MPI est une valeur à rechercher peut maximiser la probabilité de la meilleure hypothèse actuellement y_best, puis MPI représente le point suivant à rechercher peut être inférieure à y_best probabilité, cette méthode est facile de tomber dans les locaux proche du minimum.

3 # Amélioration prévue

Cette méthode est décrite dans le point suivant à rechercher peut attendre mieux que la meilleure valeur actuelle, comme un processus gaussien, la probabilité postérieure est une forme gaussienne ici, solidaire d'une solution fermée est simple à mettre en uvre, et par conséquent cette méthode est aussi plus couramment utilisé.

? Par exemple

Comme le montre la figure ligne pointillée supérieure représente la forme fonctionnelle optimale sur le paramètre vrai super (en fait il est une boîte noire, ne savent pas les détails de celui-ci), la ligne continue représente le meilleur emplacement hyperparametric actuel, deux lignes gris clair il indique le point actuel de la variance.

Ci-dessous le montre la figure connue à explorer et paramètres super-amélioration attendue, de nombreux endroits ont cette fois l'espoir d'obtenir la meilleure valeur mieux que les hyper-paramètres actuels, la principale nécessité d'explorer, nous choisissons d'abord le point suivant comme 0,0 à explorer paramètres super.

On peut voir à cet écart de temps 0,0 point devient nulle. Continuez à regarder par-dessus le paramètre suivant à explorer, sélectionnez 1.0.

Comme le montre, la variance de 1,0 point à 0, nous notons que, après deux exploration ne ont pas besoin d'explorer la région à droite, car la différence que nous obtenons à droite que l'effet de hyperparam'etre gauche. Continuez à sélectionner le paramètre suivant un super emplacement, sélectionnez environ 0,25 points.

Selon la méthode d'assurance-emploi, la prochaine à explorer afin de trouver un super-paramètres, cette fois nous choisir l'emplacement hyper-paramètres environ 0,7 points.

Sélectionnez 0,7 point sur les recommandations de ce temps acquision d'amélioration prévue devrait les résultats que mieux les paramètres précédemment sélectionnés, d'intensifier les efforts pour rechercher dans les environs de 0,7.

Après plusieurs séries de paramètres de découverte doivent être à proximité des meilleurs super-0,8 point.

l'optimisation bayésienne peut être vu par le cas ci-dessus est compensée par la fonction d'acquisition moyenne et la variance, effectuez les questions suivante E & E pour explorer un super-paramètres optimaux possibles.

Enfin, la figure résume trois grille de recherche mobile, recherche aléatoire et l'optimisation bayésienne.

Recherche grille

Recherche aléatoire

bayésienne Optimisation

sortie d'origine au nombre de micro-chaîne publique - équipe technique Mito données (gh_feb1d206d92b)

Démontage « Demeter »: l'augmentation des ventes du goût triplement étoilé, et de voir comment les marques locales casser cent milliards sens du marché de l'odorat?
Précédent
Sud + bus tôt | « vieux large » du Sri Lanka sur le retour du parcours aventure à Guangzhou (diffusion audio)
Prochain
A propos de portraits utilisateur de ces choses, il suffit de voir cet article
Dix printemps, il est préférable de vous rencontrer Taobao - invasion Taobao apprentissage recherche intelligente
Ali pratique « sec » renforcer la profondeur de l'apprentissage et l'apprentissage adaptatif en ligne
« Suspension des véhicules commerciaux chinois industrie Rapport sur le développement (2019) » conférence Blue Book a eu lieu
« Sur le chemin, » Forum: cuisine fusion « le long du chemin »
La machine n'apprend pas: Appliquer Ali étude approfondie dans le domaine de la recherche recommandée
prodige David Citée Wu Jun Mei désaccord sur place, « le sommet de la nuit » scène « fumée partout »
Graphique BERT (migration en PNL d'apprentissage)
Hebei-: « L'examen Catcher » à l'augmentation de l'aide
Distribué verrouillage sur le principe de l'apprentissage et de la pensée -redis Périphérie Lock, verrou distribué Zookeeper
la formation des élèves ont organisé un « défilé maritime » Hommage à la Marine populaire
« Comme vous, je suis un » down ambiance cottage au point de congélation des invités mâles quittent colère exactement pourquoi?