Vue d'ensemble | gradient stimulant algorithme d'arbre principe Résumé

avant-propos

Cet article décrit l'algorithme d'arbre stimulant pour renforcer et améliorer l'algorithme de gradient (GBDT), l'algorithme GBDT est utilisé pour résoudre la régression et de classification, et la capacité de généralisation est très forte, cet article résume l'algorithme GBDT en termes simples.

annuaire

1. arbres de décision simples différents et stimuler l'algorithme d'arbre

Il 3. Soulevez l'algorithme d'arbre

4. GBDT algorithme

5. GBDT fonction de perte commune

6. régularisation GBDT

7. GBDT et comparaison des modèles de AdaBoost

8. Conclusion

Différents arbres de décision et de stimuler l'arbre

Un arbre de décision est un apprenant, en stimulant l'arbre est une méthode pour améliorer l'arbre de décision CART en apprenant de base. Ceci résulte de la section d'angle d'évaluation et l'angle de la fonction de perte pour décrire la différence. En supposant que le modèle d'apprentissage d'arbre de décision est f (x), afin d'améliorer l'arbre un total de K élèves faibles

, I = 1,2, ..., K.

Méthode d'évaluation 1. Résultats:

Pour une donnée entrée xi

Le modèle d'arbre de décision de sortie yi:

Stimuler le modèle arbre de sortie yi:

Si le retour:

Si la catégorie:

Où i désigne un apprenant faible, T représente un modèle de classification (par exemple, régression linéaire logique, ou la fonction de signe)

2. La méthode de construction de modèle

(1) Le procédé de construction d'un modèle d'arbre de décision

L'application de la fonction de perte de l'arbre d'index Gini pour calculer la phase de génération de modèle est la fonction de perte de modèle de profondeur de l'arbre est réduit au minimum, afin de maximiser l'arbre de décision; étape d'élagage de l'arbre est la perte totale de régularisation occupée de la fonction, et enfin par validation croisée méthode pour sélectionner la meilleure sous-arbre;

(2) une méthode pour améliorer les modèles d'arbres

Une pluralité d'arbres de décision est la combinaison de levage d'arbres pour améliorer la capacité de la méthode d'apprendre, la complexité de l'arbre de décision est beaucoup plus faible que chaque arbre de décision unique, l'arbre de décision ne peut pas être si profond que pour maximiser l'arbre de décision unique pour minimiser la fonction de perte. Un arbre de décision est un membre de la famille de stimuler, les faibles apprenant généré itérations série pour améliorer la construction modèle d'arbre en réduisant au minimum les faibles apprenant chaque étape fonction de perte.

Mise à jour algorithme d'arbre
Améliorer de manière substantielle algorithme d'arbre est un apprentissage de l'arbre de décision, et un algorithme d'arbre additionneur pour améliorer le modèle, ainsi, d'améliorer le modèle d'arbre peut être exprimé en:

Parmi eux,

Arbre de décision,

Décision paramètres Arbre, M est le nombre d'arbres.

Stimuler l'algorithme d'arbre:

algorithme d'arbre pour augmenter l'algorithme de distribution avant, supposons que l'arbre initial stimulant

Le modèle m-étape:

Parmi eux,

En tant que modèle, les paramètres du modèle de la minimisation des risques actuelle déterminé par l'expérience

,

Dans lequel L représente une fonction de perte,

et

Il est une constante, un (1) montre que, aussi longtemps que nous savons que la fonction de perte L, on peut obtenir chacun des paramètres du modèle

Il peut également être comprise comme le modèle actuel

Pour tenir sur un modèle de résidus. Par conséquent, le principe de l'algorithme est d'améliorer l'arbre avec l'arbre actuel pour tenir sur un modèle de résidus pour minimiser la perte de valeur de la fonction actuelle.

[Exemple] Si quelqu'un est de 30 ans, nous avons d'abord utilisé pour ajuster le 20 ans a trouvé la perte de âgé de 10 ans, 6 ans lorsque nous avons utilisé pour adapter cette itération se poursuit jusqu'à ce que la fonction de perte pour répondre à nos besoins, ce qui est pensé pour améliorer l'arbre.

Vous avez déjà demandé pourquoi on ne va pas directement à l'âgé de 30 ans pour s'adapter, faire correspond à pas à la profondeur de l'arbre de décision afin de maximiser le modèle qui en résulte est pas un classificateur faible, ce qui conduit à posent des problèmes surajustement.

algorithme GBDT

Nous regardons en arrière une fois de plus sur un exemple, si nous avons d'abord équipé d'un enfant de 10 ans à 20 ans constaté que la perte, puis utilisez le 8 ans pour s'adapter à la perte de de 12 ans, cette itération se poursuit, avec la section pour atteindre la même valeur de la fonction de perte nous avons besoin de plus d'itérations, ce qui est GBDT la pensée de l'algorithme: en utilisant la fonction de perte de résidus d'approximation de gradient négatif, les arbres de régression correspondent à la fonction de perte le plus petit pour obtenir le cycle actuel de gradient négatif. Parce que l'arbre est un résidu d'ajustement de levage directs, afin d'atteindre la même valeur de fonction de perte, étape d'itération pour améliorer arbre nécessite beaucoup plus petit.

étapes:

(1) avec le gradient de négatif de la fonction de perte des résidus d'approximation, exprimée en tant que:

(2) l'arbre de régression en forme de gradient négatif, les nuds feuilles envoyer régions Rmj, j = 1,2, ..., J. Dans lequel J est un numéro de noeud feuille, m est les morceaux de m arbres de régression.

(3) pour chaque noeud de feuille dans l'échantillon, on a calculé la fonction à minimiser les pertes, résultant en une valeur de sortie du meilleur nud feuille Cmj de forme, comme suit:

(4) modèle d'arbre de régression de mise à jour:

(5) pour obtenir le modèle d'arbre de régression final:

Il peut être difficile de comprendre que la troisième étape, nous pouvons comprendre dans le modèle de reprise de la demande afin de minimiser la direction du gradient de négatif. direction du gradient négatif est entendu à la division arbre de régression règle gradient négatif de fonction de perte, la règle de chercher à minimiser la fonction de perte.

On suppose que le graphique de la fonction de perte ci-dessous:

Dans lequel, m représente le nombre d'itérations,

M représente un modèle d'apprentissage itérative arrondit au total,

Le modèle perte fonction, vu des principes pour améliorer l'arbre, la perte de la fonction du modèle avec l'augmentation du nombre d'itérations augmente. Au-dessus de, respectivement, le gradient et le gradient de négatif des fils verts et rouges, lorsque nous utilisons le modèle actuel d'apprentissage

Augmente dans le sens du gradient négatif, la perte de la fonction est la plus forte baisse, donc, idée GBDT de l'algorithme est possible.

PS: Li Accrocher professeur P152 « méthodes d'apprentissage statistique » d'expression de l'algorithme GBDT:

Personnellement, je pense que la formule pourrait être une meilleure représentation du modèle:

GBDT fonction de perte commune

Deux sections en vue de dessus, pour améliorer l'arbre de décision d'arbre est équipé d'une fonction de perte, arbre de décision GBDT est monté sur un gradient de la fonction de perte. Par conséquent, comme conscient depuis longtemps du modèle de fonction de perte, les paramètres peuvent être calculés avant chaque tour de l'algorithme faible modèle de distribution de l'apprenant, Cette section résume la fonction de perte commune GBDT.

(1) algorithme de classification

a) la fonction de perte exponentielle:

Correspondant gradient négatif:

b) Nombre de perte de fonction

Correspondant gradient négatif:

(2) l'algorithme de régression

Ici, ne pas discuter les plus couramment utilisés fonction de perte, comme l'erreur quadratique moyenne et la fonction de perte absolue. Cette section a une bonne robuste perte de Huber et la perte de valeurs aberrantes quantile.

a) la fonction de perte de Huber: il est un compromis entre la variance et la perte moyenne absolue, à distance du point central de l'anomalie, la perte absolue, et un point proche du centre de l'écart quadratique moyen. Cette limite est généralement utilisée percentile mesure ponctuelle. Fonction de perte suit comme:

Correspondant à la pente négative:

b) la perte de quantile. Il est la perte de fonction de l'expression de régression de quantile correspondant est

Parmi eux,

Quantile est nécessaire avant que le transfert est prévu, qui correspond au gradient négatif:

régularisation GBDT

modèle Régularisation afin d'éviter surajustement, régularisation GBDT Il existe trois façons principales:

(1) modèle d'addition GBDT est, par conséquent, le modèle peut être exprimé sous la forme:

De plus, les termes positifs de v, nous avons:

v gammes: 0 <  v 1. La formation ensemble pour atteindre le même effet d'apprentissage, (2) la nécessité de nombre d'itérations, à savoir (2) moins le modèle de type complexe.

(2) sans remplacement du rapport de consigne de la formation d'échantillonnage du v (0 d'échantillonnage <  v 1). Montage prendre quelques échantillons font arbre de décision GBDT peut réduire la variance, mais l'écart augmente.

(3) la fonction de perte pour adapter la taille des arbres de régression de gradient rond, élagage algorithme processus élagage CART de référence.

GBDT et comparaison des modèles de AdaBoost

En supposant que l'initialisation

modèle AdaBoost est exprimé comme suit:

modèle GBDT est exprimé comme suit:

Comparer ces style deux, vous ne trouverez pas le poids du modèle GBDT i, parce que: AdaBoost chaque fois pour différentes distributions (poids) des ensembles de données d'origine ont été formés pour donner une série d'apprenants faibles, puis combiné avec le droit à la valeur finale modèle, GBDT modèle ne poids parce que le faible apprenant est monté sur un résidu, avec l'augmentation du nombre d'arbres de régression, les résidus plus en plus petits, et ne nécessite donc pas les poids faibles de l'apprenant.

résumé

Cet article décrit la levée des algorithmes stimulant algorithme et aromatiques arbre GBDT pour améliorer l'algorithme d'arbre pour s'adapter autour de l'apprenant est faible générée sur un résidu, autour de la faible apprenant GBDT équipons algorithme sur une fonction de perte le gradient de négatif généré. Stimuler l'algorithme d'arbre et GBDT par des algorithmes d'arbres de régression CART sont les apprenants faibles, assurez-vous que la perte de modèle de fonction, stimuler arbre et GBDT peut être construit pour il y a l'algorithme de distribution.

référence: https://www.cnblogs.com/pinard/p/6140514.html

Source: algorithmes d'apprentissage machine à ces choses

plusieurs de cinq checkouts année! Mais en mai pays ne va pas! Parce que ce groupe de photos est trop jaune
Précédent
"Azolla" Ten classique Kangkaibeige, assez doux!
Prochain
Italie cette « d'Etat faux » Européens de l'amour à mort, 99% des Asiatiques peuvent manquer
grande lecture de combat tour furtif militaire national au monde
Dieu est appelé l'aquarium de belles îles, Pinto argent net part du trimestre peut rester maison de l'eau rouge
Les étudiants des hommes montrer des experts du VIH: ou impliqués dans des infractions pénales
troupe d'art PLA effectuer évolution des services - les premiers costumes sont pull-soviétique
Promets-moi, ne vont pas facilement à Chongqing!
Nanjing, première naissance de la législation locale de deuil national de Jiangsu! comportement « Fine Day » sera puni
Voyage « Vibrato destination populaire » à ces endroits, de savoir ce qu'est le bonheur
27 ans de séparation, la police Nanchang aide réunion de sang
Applications | informations de carte de métro ce qui peut être vu?
clips lacrymaux annuels maxed cercle d'amis: « Ce jour ne va pas, nous divorce, il! »
Le défi ultime! Les Chinois ont également créé l'un des plus au monde