Aper�u | d�cision arbre r�sum� de l'algorithme

avant-propos

Un arbre de d�cision mod�les apprentissage machine m�thode plus couramment utilis�e, Li Accrocher enseignants � m�thodes d'apprentissage statistique � d�crit en d�tail la formation et l'�lagage des arbres de d�cision, ce document sur la base du contenu du livre, un r�sum� de l'arbre de d�cision.

annuaire

D�cision Arbre de mesures d'incertitude

crit�res de s�lection fonction arbre de d�cision

�valuation de la fonction de perte et de fonctions d�cisionnelles

�tapes de construction de mod�le d'arbre de d�cision optimale

Les avantages et les inconv�nients de l'analyse des arbres de d�cision

D�cision Arbre de mesures d'incertitude

1. L'incertitude compr�hension

La figure suivante montre la probabilit� d'un �v�nement A se produit si la r�partition de l'incident enregistr� comme 1, discuter Une incertitude des �v�nements.

(1) �Nous consid�rons un cas extr�me, si p = 1 ou p = 0, A repr�sente l'�v�nement doit avoir lieu ou d'un �v�nement A ne peut pas arriver, que l'incertitude est 0.

(2) Si p > 1/2, qui est, la probabilit� de l'�v�nement A est sup�rieure � la probabilit� de l'�v�nement A ne se produit pas, on a tendance � pr�dire l'occurrence d'un �v�nement A est, si p < 1/2, qui est, la probabilit� d'un �v�nement A ne soit pas inf�rieure � la probabilit� d'occurrence d'un �v�nement A se produit, nous ne sommes pas enclins � pr�dire un �v�nement A se produit. Si p = 1/2, � savoir la probabilit� de l'�v�nement A est �gale � la probabilit� de l'�v�nement A ne se produit pas, nous ne pouvons pas faire des pr�dictions, c'est l'incertitude de l'�v�nement A est maximis�e, de sorte que nous ne pouvons pas pr�dire, ou peut �tre comprise comme un �v�nement A est trop complexe le complexe que nous ne pouvons compter que sur la chance de deviner si l'un �v�nement se produit.

2. D�cision Arbre de mesures d'incertitude

L'incertitude entropie ici et l'indice de Gini pour mesurer l'ensemble de donn�es, on suppose que l'ensemble de donn�es contient des classes K, chaque classe de taille et proportions sont Di et pi, i = 1,2, ... K.

Proc�d� d'incertitude de mesure (1) Entropy

Sur les statistiques, l'entropie est une mesure de l'incertitude d'une variable al�atoire en probabilit�s et th�orie de l'information, l'entropie est donc H (p), puis:

Plus l'entropie, l'incertitude de l'ensemble des donn�es sera.

L'incertitude (2) Indice de Gini m�thode de mesure

Gini ensemble de donn�es d'index est d�fini comme suit:

Plus l'indice de Gini, plus l'incertitude dans l'ensemble de donn�es.

crit�res de s�lection fonction arbre de d�cision

Supposons que les ensembles de donn�es totale A de la fonction K, appel�e xi, i = 1,2, ... K. Un plus grand ensemble de donn�es d'incertitude, les informations ensemble de donn�es A contient plus. Supposer que les donn�es d'information de la s�rie A est H (A), apr�s que l'information pr�alable est caract�ris� xi H (A | xi), le gain d'informations de d�finition G (A, xi) est la diff�rence entre les deux, � savoir:

g (A, xi) = H (A) - H (A | xi)

Un ensemble de donn�es s�lectionn� de telle sorte que les caract�ristiques de gain de l'information maximale que les caract�ristiques de filtrage, math�matiquement exprim�e comme:

x = max (g (A, xi)) = max (H (A) - H (A | xi)) La perte de l'arbre d'�valuation de la fonction Ainsi, la feuille d'arbre de d�cision noeuds T, la fonction de perte est:

O� C (T) est un arbre de d�cision d'erreur d'entra�nement, le mod�le d'arbre de d�cision est repr�sent�e par l'incertitude, plus l'incertitude, l'erreur de formation est �galement plus grand. T repr�sente la complexit� de la peine d'arbre de d�cision, et de la complexit� de la relation entre le param�tre d'erreur de formation de mod�le de donn�es de formation de compromis, ce qui correspond au param�tre de r�gularisation de l'importance.

Prenons le cas extr�me o� tend vers 0, l'erreur de formation de mod�le d'arbre de d�cision optimale se rapproche de 0, dans un sur-ajustement du mod�le; lorsque tend vers l'infini, le mod�le d'arbre de d�cision optimale est un noeud d'un noeud racine arbre.

�tapes de construction de mod�le d'arbre de d�cision optimale

Un ensemble de donn�es divis� en un ensemble de formation et un ensemble de test par une certaine proportion.

D�cision fonction de perte d'arbre:

arbre de d�cision de l'�tape pour construire le meilleur mod�le comprennent la phase de formation et de la phase d'essai:

phase de formation:

(1) minimiser l'incertitude de l'arbre de d�cision est int�ressant � g�n�rer un mod�le, � savoir g�n�re un arbre de d�cision;

(2) l'�lagage des arbres de d�cision, diff�rente r�gularisation obtenir les param�tres du mod�le d'arbre de d�cision optimal [alpha], � savoir, la taille des arbres de d�cision.

Les axes suivants sur la phase de formation de l'�tape de g�n�ration d'arbre de d�cision et l'�tape de l'�lagage des arbres de d�cision.

D�cision: pas d'arbres

(1) crit�res de s�lection en fonction des caract�ristiques de l'arbre de d�cision, s�lectionnez l'ensemble de donn�es de caract�risation de gain maximum;

�(2) r�p�ter la premi�re �tape, jusqu'� ce que tous les noeuds de feuille d'incertitude est 0.

�tapes �lagage:

(1) Le param�tre de r�gularisation de petite � grande est divis�e en diff�rentes sections

Pour nud non-feuille de l'�lagage des arbres de d�cision, de sorte que le noeud est T, au nud en tant que sous-arbre racine Tt.

(2) lorsque satisfont les conditions suivantes:

� savoir, un seul nud est �gal � la sous-arborescence fonction de perte de fonction de perte d'arbre noeud Tt, et la complexit� de la taille est r�duite, une meilleure performance de g�n�ralisation, par cons�quent, le pruneau nud.

(3) � travers tous les noeuds non-feuille, l'�lagage optimal sous-arbres apr�s chaque param�tre correspondant .

Note: D�cision �lagage �tapes et ne donner que le cadre g�n�ral, sp�cifiquement r�f�rence � Li Raccrocher � m�thodes d'apprentissage statistique �

Phase d'essai:

appareil d'essai d'�valuation optimale par le mod�le d'arbre de d�cision sous diff�rents param�tres [alpha], s�lectionner le mod�le d'arbre de d�cision d'erreur d'essai minimale et le param�tre de r�gularisation optimal correspondant.

Les avantages et les inconv�nients de l'analyse des arbres de d�cision

avantages:

L'algorithme est simple, le mod�le a une forte interpr�tation

Il peut �tre utilis� pour des probl�mes de classification et de r�gression

inconv�nients:

mod�le d'arbre de d�cision est sujette � un ph�nom�ne surajustement, � savoir l'erreur de formation ensemble de donn�es de formation est faible, un grand ensembles de donn�es de test erreur de test, les mod�les et les diff�rents ensembles de donn�es de formation a �galement construit une grande diff�rence. Le projet actuel, nous sommes souvent pas utilis� le mod�le d'arbre de d�cision seul, afin d'�viter la mise en place de l'arbre de d�cision, la n�cessit� d'une combinaison int�gr�e de l'algorithme d'arbre de d�cision, comme l'ensachage et le renforcement de l'algorithme de l'algorithme.

R�f�rence: Lee Accrocher � m�thodes d'apprentissage statistique. �

Source: algorithmes d'apprentissage machine � ces choses

Route de la soie

Apprenez � conna�tre la Chine

Aper�u | d�cision arbre r�sum� de l'algorithme