Sec | refus� lorsque l'ing�nieur divisionnaire adjoint: liste algorithme de recherche ultra-param�tre

l'apprentissage de la machine et le processus de formation de r�glage des param�tres du mod�le en naturel et en fin de compte, beaucoup d'ing�nieurs d'apprentissage de la machine se consid�rent comme �tant � la division assistant �, son importance est �vidente.

Les param�tres du mod�le peuvent �tre divis�s en deux cat�gories: les param�tres Ultra et param�tres, l'ancien mod�le de donn�es de param�tres � travers sa propre formation et d'apprentissage obtenus, ce dernier besoin de mettre en place leur propre exp�rience, afin d'am�liorer l'effet de la formation du mod�le. Le nombre de couche cach�e sous la zone rouge, le nombre de neurones dans chaque fonction d'activation de la couche cach�e et � utiliser ce que l'algorithme d'apprentissage, le taux d'apprentissage et un coefficient positif appartiennent hyperparam'etres.

Un mod�le de processus d'atterrissage comme indiqu�:

La collecte des journaux et des caract�ristiques extraites � partir du journal, puis aliment� mod�le caract�ristique, le mod�le d'apprentissage premier type de param�tre dans la premi�re orientation hyperparam�tres;
param�tres d'�valuation hors ligne des param�tres super performances r�glage est appropri�;
S'il ne convient pas de continuer � ajuster en permanence.

Dans ce processus d'ajustement des param�tres, il y a deux difficult�s majeures:

1. grand espace des param�tres, essayez le co�t �lev�

Souvent, les donn�es est �norme dans l'industrie, complexe mod�le, informatiquement co�teux, et chaque type d'ultra-param�tres ont beaucoup de choix.

2. Le mod�le cible est une bo�te noire

Dans le processus de recherche sur le param�tre ne peut voir l'entr�e et la sortie du mod�le, ne peut pas obtenir le mod�le d'information interne (tels que les gradients, etc.), nous ne pouvons pas �tablir la fonction objectif directement sur la combinaison optimale d'optimisation ultra-param�tres.

S�lectionnez les hyper-param�tres ont un grand impact sur les r�sultats du mod�le final montrent, les difficult�s ci-dessus ci-dessous d�crit comment ajuster automatiquement la r�f�rence par l'algorithme, les m�thodes de recherche les plus populaires de l'industrie comprennent la recherche de grille ultra-param�tre, recherche al�atoire et l'optimisation bay�sienne.

grille de recherche n � 1 Grille Recherche

param�tre recherche Grille des moyens de s�lection dans tous les candidats en boucle � travers d'essayer toutes les possibilit�s, le meilleur param�tre de performance est le r�sultat final.

Par exemple, il existe deux types de l'hyper-param�tres de figure ci-dessus, chaque param�tre a trois super classe � des valeurs explor�es apr�s sont plus de 9 produit cart�sien obtenu combinaisons de param�tres, chaque combinaison utilis�e pour former le mod�le par la grille de recherche et choisir les meilleurs param�tres super sur l'ensemble de validation. Comme on le voit, cette m�thode souvent en fonction des esp�ces r�pertori�es dans le tableau, et la boucle gr�ce � la recherche de la table, on appelle la recherche de la grille.

Sous grille des algorithmes de recherche et des id�es de mise en uvre sont simples, mais apr�s un portefeuille de produits cart�sien �largira l'espace de recherche, et certains sans importance en pr�sence d'hyper-param�tres, la recherche de la grille gaspillent beaucoup de temps et d'espace pour faire un travail utile par cons�quent, il s'applique uniquement � un petit nombre de param�tres sur la situation.

# 2 Recherche al�atoire al�atoire Recherche

Adresse originale: http: //www.jmlr.org/papers/volume13/bergstra12a/bergstra12a.pdf

Faute d'une grille de recherche, Bengio, qui a propos� la m�thode de recherche al�atoire. Au hasard d'abord pour chaque classe de param�tres d�finissent une distribution super-bord, une distribution uniforme est g�n�ralement prise, et ces �chantillons sur les param�tres de recherche.

Bien que des recherches al�atoires de facteurs al�atoires menant aux r�sultats de la recherche peuvent �tre particuli�rement pauvres, mais peuvent aussi �tre particuli�rement efficace. L'efficacit� globale est sup�rieure � la grille de recherche, mais ne garantit pas qu'il sera pr�f�rable de trouver des super param�tres.

# 3 optimisation bay�sienne bay�sienne Optimisation

Comme un exemple simple, supposons fonction du mod�le est la combinaison optimale des param�tres sur un graphique unidimensionnel, car il est pas une fonction de bo�te noire jusqu'� ce qu'une forme particuli�re, mais peut entrer et obtenir les valeurs de certaines sorties.

Nous avons essay� quatre param�tres super al�atoires et l'indice de performance correspondant obtenu, comme indiqu� ci-dessous.

La question est donc, Lorsqu'il est possible d'optimiser l'hyper? Au cours du param�tre suivant � explorer est qui? Je suppose que la meilleure valeur possible � 0,4 ici, la vraie forme de la fonction peut �tre long comme ceci:

* Histogramme enregistre la position du minimum chaque estimation

Et tout le monde conjecture est diff�rent, chaque fonctions g�n�r�es sont �galement diff�rentes:

Nous pouvons voir que la plupart d'entre eux pensent que les meilleurs param�tres de super � proximit� des trois premiers points depuis le d�but de l'indicateur en ligne sur le c�t� droit est le pire moment de l'exploitation mini�re, il est a priori penser ici la possibilit� d'optimiser l'hyper . Ensuite, mettre ce processus dans la limite, vous obtenez un super-param�tres optimaux sur la distribution de probabilit�.

Si l'on suppose que chaque distribution est une distribution gaussienne, puis obtenir est un processus gaussien, ce qui signifie la distribution gaussienne de 0 et de variance d'environ 5.

Que l'on suppose que c'est ce que les valeurs des param�tres optimaux pour prendre en charge, toujours obtenir une description des hyper-param�tres est bon ou mauvais, qui est, la moyenne et la variance, alors qu'en fait, nous utilisons un processus gaussien de dimension infinie pour simuler la bo�te noire de recherche super-param�trique la forme de fonction objective.

En conclusion, le probl�me est en fait la recherche super-param�trique est une optimisation de la bo�te noire, l'optimisation bay�sienne est d�crite par un processus gaussien bo�te noire dimension infinie, dans le processus gaussien peut �tre obtenu pour chaque ensemble de param�tres d'entr�e d�passent la moyenne et la variance.

Vous avez moyenne et la variance sont r�solus le premier probl�me mentionn� ci-dessus: � O� est possible d'optimiser l'hyper �, les param�tres suivants super � explorer est quoi? Ceci est en fait un probl�me de E & E (exploration et utilisation), sont en toute s�curit� � proximit� de la recherche maximale disponible actuellement ou la recherche d'une grande incertitude � la place? Ce dernier effet est peut-�tre pauvre, mais il peut y avoir des gains inattendus.

Les probl�mes d'acquisition fonction �quilibr�e avec pr�cision E & E le chemin, le tour de laisser d�crit trois pratique courante.

1 # sup�rieur (inf�rieur) Bande de confiance

E & E M�thode des �chantillons d'UCB directement lin�aire solde pond�r�, le premier terme en cours est les meilleures valeurs de param�tres, fixez les meilleurs r�sultats � proximit� du courant de recherche, d'autre part la variance, montrant l'espace pour explorer plus inconnu , le param�tre b�ta pour commander l'intensit�, cette m�thode est simple et efficace.

2 Nombre maximum Probabilit� d'am�lioration

m�thode objet MPI est une valeur � rechercher peut maximiser la probabilit� de la meilleure hypoth�se actuellement y_best, puis MPI repr�sente le point suivant � rechercher peut �tre inf�rieure � y_best probabilit�, cette m�thode est facile de tomber dans les locaux proche du minimum.

3 # Am�lioration pr�vue

Cette m�thode est d�crite dans le point suivant � rechercher peut attendre mieux que la meilleure valeur actuelle, comme un processus gaussien, la probabilit� post�rieure est une forme gaussienne ici, solidaire d'une solution ferm�e est simple � mettre en uvre, et par cons�quent cette m�thode est aussi plus couramment utilis�.

? Par exemple

Comme le montre la figure ligne pointill�e sup�rieure repr�sente la forme fonctionnelle optimale sur le param�tre vrai super (en fait il est une bo�te noire, ne savent pas les d�tails de celui-ci), la ligne continue repr�sente le meilleur emplacement hyperparametric actuel, deux lignes gris clair il indique le point actuel de la variance.

Ci-dessous le montre la figure connue � explorer et param�tres super-am�lioration attendue, de nombreux endroits ont cette fois l'espoir d'obtenir la meilleure valeur mieux que les hyper-param�tres actuels, la principale n�cessit� d'explorer, nous choisissons d'abord le point suivant comme 0,0 � explorer param�tres super.

On peut voir � cet �cart de temps 0,0 point devient nulle. Continuez � regarder par-dessus le param�tre suivant � explorer, s�lectionnez 1.0.

Comme le montre, la variance de 1,0 point � 0, nous notons que, apr�s deux exploration ne ont pas besoin d'explorer la r�gion � droite, car la diff�rence que nous obtenons � droite que l'effet de hyperparam'etre gauche. Continuez � s�lectionner le param�tre suivant un super emplacement, s�lectionnez environ 0,25 points.

Selon la m�thode d'assurance-emploi, la prochaine � explorer afin de trouver un super-param�tres, cette fois nous choisir l'emplacement hyper-param�tres environ 0,7 points.

S�lectionnez 0,7 point sur les recommandations de ce temps acquision d'am�lioration pr�vue devrait les r�sultats que mieux les param�tres pr�c�demment s�lectionn�s, d'intensifier les efforts pour rechercher dans les environs de 0,7.

Apr�s plusieurs s�ries de param�tres de d�couverte doivent �tre � proximit� des meilleurs super-0,8 point.

l'optimisation bay�sienne peut �tre vu par le cas ci-dessus est compens�e par la fonction d'acquisition moyenne et la variance, effectuez les questions suivante E & E pour explorer un super-param�tres optimaux possibles.

Enfin, la figure r�sume trois grille de recherche mobile, recherche al�atoire et l'optimisation bay�sienne.

Recherche grille

Recherche al�atoire

bay�sienne Optimisation

sortie d'origine au nombre de micro-cha�ne publique - �quipe technique Mito donn�es (gh_feb1d206d92b)

Route de la soie

Apprenez � conna�tre la Chine

Sec | refus� lorsque l'ing�nieur divisionnaire adjoint: liste algorithme de recherche ultra-param�tre