Vue d'ensemble | gradient stimulant algorithme d'arbre principe R�sum�

avant-propos

Cet article d�crit l'algorithme d'arbre stimulant pour renforcer et am�liorer l'algorithme de gradient (GBDT), l'algorithme GBDT est utilis� pour r�soudre la r�gression et de classification, et la capacit� de g�n�ralisation est tr�s forte, cet article r�sume l'algorithme GBDT en termes simples.

annuaire

1. arbres de d�cision simples diff�rents et stimuler l'algorithme d'arbre

Il 3. Soulevez l'algorithme d'arbre

4. GBDT algorithme

5. GBDT fonction de perte commune

6. r�gularisation GBDT

7. GBDT et comparaison des mod�les de AdaBoost

8. Conclusion

Diff�rents arbres de d�cision et de stimuler l'arbre

Un arbre de d�cision est un apprenant, en stimulant l'arbre est une m�thode pour am�liorer l'arbre de d�cision CART en apprenant de base. Ceci r�sulte de la section d'angle d'�valuation et l'angle de la fonction de perte pour d�crire la diff�rence. En supposant que le mod�le d'apprentissage d'arbre de d�cision est f (x), afin d'am�liorer l'arbre un total de K �l�ves faibles

, I = 1,2, ..., K.

M�thode d'�valuation 1. R�sultats:

Pour une donn�e entr�e xi

Le mod�le d'arbre de d�cision de sortie yi:

Stimuler le mod�le arbre de sortie yi:

Si le retour:

Si la cat�gorie:

O� i d�signe un apprenant faible, T repr�sente un mod�le de classification (par exemple, r�gression lin�aire logique, ou la fonction de signe)

2. La m�thode de construction de mod�le

(1) Le proc�d� de construction d'un mod�le d'arbre de d�cision

L'application de la fonction de perte de l'arbre d'index Gini pour calculer la phase de g�n�ration de mod�le est la fonction de perte de mod�le de profondeur de l'arbre est r�duit au minimum, afin de maximiser l'arbre de d�cision; �tape d'�lagage de l'arbre est la perte totale de r�gularisation occup�e de la fonction, et enfin par validation crois�e m�thode pour s�lectionner la meilleure sous-arbre;

(2) une m�thode pour am�liorer les mod�les d'arbres

Une pluralit� d'arbres de d�cision est la combinaison de levage d'arbres pour am�liorer la capacit� de la m�thode d'apprendre, la complexit� de l'arbre de d�cision est beaucoup plus faible que chaque arbre de d�cision unique, l'arbre de d�cision ne peut pas �tre si profond que pour maximiser l'arbre de d�cision unique pour minimiser la fonction de perte. Un arbre de d�cision est un membre de la famille de stimuler, les faibles apprenant g�n�r� it�rations s�rie pour am�liorer la construction mod�le d'arbre en r�duisant au minimum les faibles apprenant chaque �tape fonction de perte.

Mise � jour algorithme d'arbre Am�liorer de mani�re substantielle algorithme d'arbre est un apprentissage de l'arbre de d�cision, et un algorithme d'arbre additionneur pour am�liorer le mod�le, ainsi, d'am�liorer le mod�le d'arbre peut �tre exprim� en:

Parmi eux,

Arbre de d�cision,

D�cision param�tres Arbre, M est le nombre d'arbres.

Stimuler l'algorithme d'arbre:

algorithme d'arbre pour augmenter l'algorithme de distribution avant, supposons que l'arbre initial stimulant

Le mod�le m-�tape:

Parmi eux,

En tant que mod�le, les param�tres du mod�le de la minimisation des risques actuelle d�termin� par l'exp�rience

Dans lequel L repr�sente une fonction de perte,

Il est une constante, un (1) montre que, aussi longtemps que nous savons que la fonction de perte L, on peut obtenir chacun des param�tres du mod�le

Il peut �galement �tre comprise comme le mod�le actuel

Pour tenir sur un mod�le de r�sidus. Par cons�quent, le principe de l'algorithme est d'am�liorer l'arbre avec l'arbre actuel pour tenir sur un mod�le de r�sidus pour minimiser la perte de valeur de la fonction actuelle.

[Exemple] Si quelqu'un est de 30 ans, nous avons d'abord utilis� pour ajuster le 20 ans a trouv� la perte de �g� de 10 ans, 6 ans lorsque nous avons utilis� pour adapter cette it�ration se poursuit jusqu'� ce que la fonction de perte pour r�pondre � nos besoins, ce qui est pens� pour am�liorer l'arbre.

Vous avez d�j� demand� pourquoi on ne va pas directement � l'�g� de 30 ans pour s'adapter, faire correspond � pas � la profondeur de l'arbre de d�cision afin de maximiser le mod�le qui en r�sulte est pas un classificateur faible, ce qui conduit � posent des probl�mes surajustement.

algorithme GBDT

Nous regardons en arri�re une fois de plus sur un exemple, si nous avons d'abord �quip� d'un enfant de 10 ans � 20 ans constat� que la perte, puis utilisez le 8 ans pour s'adapter � la perte de de 12 ans, cette it�ration se poursuit, avec la section pour atteindre la m�me valeur de la fonction de perte nous avons besoin de plus d'it�rations, ce qui est GBDT la pens�e de l'algorithme: en utilisant la fonction de perte de r�sidus d'approximation de gradient n�gatif, les arbres de r�gression correspondent � la fonction de perte le plus petit pour obtenir le cycle actuel de gradient n�gatif. Parce que l'arbre est un r�sidu d'ajustement de levage directs, afin d'atteindre la m�me valeur de fonction de perte, �tape d'it�ration pour am�liorer arbre n�cessite beaucoup plus petit.

�tapes:

(1) avec le gradient de n�gatif de la fonction de perte des r�sidus d'approximation, exprim�e en tant que:

(2) l'arbre de r�gression en forme de gradient n�gatif, les nuds feuilles envoyer r�gions Rmj, j = 1,2, ..., J. Dans lequel J est un num�ro de noeud feuille, m est les morceaux de m arbres de r�gression.

(3) pour chaque noeud de feuille dans l'�chantillon, on a calcul� la fonction � minimiser les pertes, r�sultant en une valeur de sortie du meilleur nud feuille Cmj de forme, comme suit:

(4) mod�le d'arbre de r�gression de mise � jour:

(5) pour obtenir le mod�le d'arbre de r�gression final:

Il peut �tre difficile de comprendre que la troisi�me �tape, nous pouvons comprendre dans le mod�le de reprise de la demande afin de minimiser la direction du gradient de n�gatif. direction du gradient n�gatif est entendu � la division arbre de r�gression r�gle gradient n�gatif de fonction de perte, la r�gle de chercher � minimiser la fonction de perte.

On suppose que le graphique de la fonction de perte ci-dessous:

Dans lequel, m repr�sente le nombre d'it�rations,

M repr�sente un mod�le d'apprentissage it�rative arrondit au total,

Le mod�le perte fonction, vu des principes pour am�liorer l'arbre, la perte de la fonction du mod�le avec l'augmentation du nombre d'it�rations augmente. Au-dessus de, respectivement, le gradient et le gradient de n�gatif des fils verts et rouges, lorsque nous utilisons le mod�le actuel d'apprentissage

Augmente dans le sens du gradient n�gatif, la perte de la fonction est la plus forte baisse, donc, id�e GBDT de l'algorithme est possible.

PS: Li Accrocher professeur P152 � m�thodes d'apprentissage statistique � d'expression de l'algorithme GBDT:

Personnellement, je pense que la formule pourrait �tre une meilleure repr�sentation du mod�le:

GBDT fonction de perte commune

Deux sections en vue de dessus, pour am�liorer l'arbre de d�cision d'arbre est �quip� d'une fonction de perte, arbre de d�cision GBDT est mont� sur un gradient de la fonction de perte. Par cons�quent, comme conscient depuis longtemps du mod�le de fonction de perte, les param�tres peuvent �tre calcul�s avant chaque tour de l'algorithme faible mod�le de distribution de l'apprenant, Cette section r�sume la fonction de perte commune GBDT.

(1) algorithme de classification

a) la fonction de perte exponentielle:

Correspondant gradient n�gatif:

b) Nombre de perte de fonction

Correspondant gradient n�gatif:

(2) l'algorithme de r�gression

Ici, ne pas discuter les plus couramment utilis�s fonction de perte, comme l'erreur quadratique moyenne et la fonction de perte absolue. Cette section a une bonne robuste perte de Huber et la perte de valeurs aberrantes quantile.

a) la fonction de perte de Huber: il est un compromis entre la variance et la perte moyenne absolue, � distance du point central de l'anomalie, la perte absolue, et un point proche du centre de l'�cart quadratique moyen. Cette limite est g�n�ralement utilis�e percentile mesure ponctuelle. Fonction de perte suit comme:

Correspondant � la pente n�gative:

b) la perte de quantile. Il est la perte de fonction de l'expression de r�gression de quantile correspondant est

Parmi eux,

Quantile est n�cessaire avant que le transfert est pr�vu, qui correspond au gradient n�gatif:

r�gularisation GBDT

mod�le R�gularisation afin d'�viter surajustement, r�gularisation GBDT Il existe trois fa�ons principales:

(1) mod�le d'addition GBDT est, par cons�quent, le mod�le peut �tre exprim� sous la forme:

De plus, les termes positifs de v, nous avons:

v gammes: 0 < �v 1. La formation ensemble pour atteindre le m�me effet d'apprentissage, (2) la n�cessit� de nombre d'it�rations, � savoir (2) moins le mod�le de type complexe.

(2) sans remplacement du rapport de consigne de la formation d'�chantillonnage du v (0 d'�chantillonnage < �v 1). Montage prendre quelques �chantillons font arbre de d�cision GBDT peut r�duire la variance, mais l'�cart augmente.

(3) la fonction de perte pour adapter la taille des arbres de r�gression de gradient rond, �lagage algorithme processus �lagage CART de r�f�rence.

GBDT et comparaison des mod�les de AdaBoost

En supposant que l'initialisation

mod�le AdaBoost est exprim� comme suit:

mod�le GBDT est exprim� comme suit:

Comparer ces style deux, vous ne trouverez pas le poids du mod�le GBDT i, parce que: AdaBoost chaque fois pour diff�rentes distributions (poids) des ensembles de donn�es d'origine ont �t� form�s pour donner une s�rie d'apprenants faibles, puis combin� avec le droit � la valeur finale mod�le, GBDT mod�le ne poids parce que le faible apprenant est mont� sur un r�sidu, avec l'augmentation du nombre d'arbres de r�gression, les r�sidus plus en plus petits, et ne n�cessite donc pas les poids faibles de l'apprenant.

r�sum�

Cet article d�crit la lev�e des algorithmes stimulant algorithme et aromatiques arbre GBDT pour am�liorer l'algorithme d'arbre pour s'adapter autour de l'apprenant est faible g�n�r�e sur un r�sidu, autour de la faible apprenant GBDT �quipons algorithme sur une fonction de perte le gradient de n�gatif g�n�r�. Stimuler l'algorithme d'arbre et GBDT par des algorithmes d'arbres de r�gression CART sont les apprenants faibles, assurez-vous que la perte de mod�le de fonction, stimuler arbre et GBDT peut �tre construit pour il y a l'algorithme de distribution.

r�f�rence: https://www.cnblogs.com/pinard/p/6140514.html

Source: algorithmes d'apprentissage machine � ces choses

Route de la soie

Apprenez � conna�tre la Chine

Vue d'ensemble | gradient stimulant algorithme d'arbre principe R�sum�