avant-propos
Un arbre de décision modèles apprentissage machine méthode plus couramment utilisée, Li Accrocher enseignants « méthodes d'apprentissage statistique » décrit en détail la formation et l'élagage des arbres de décision, ce document sur la base du contenu du livre, un résumé de l'arbre de décision.
annuaire
1. L'incertitude compréhension
(1) Nous considérons un cas extrême, si p = 1 ou p = 0, A représente l'événement doit avoir lieu ou d'un événement A ne peut pas arriver, que l'incertitude est 0.
(2) Si p > 1/2, qui est, la probabilité de l'événement A est supérieure à la probabilité de l'événement A ne se produit pas, on a tendance à prédire l'occurrence d'un événement A est, si p < 1/2, qui est, la probabilité d'un événement A ne soit pas inférieure à la probabilité d'occurrence d'un événement A se produit, nous ne sommes pas enclins à prédire un événement A se produit. Si p = 1/2, à savoir la probabilité de l'événement A est égale à la probabilité de l'événement A ne se produit pas, nous ne pouvons pas faire des prédictions, c'est l'incertitude de l'événement A est maximisée, de sorte que nous ne pouvons pas prédire, ou peut être comprise comme un événement A est trop complexe le complexe que nous ne pouvons compter que sur la chance de deviner si l'un événement se produit.
2. Décision Arbre de mesures d'incertitude
L'incertitude entropie ici et l'indice de Gini pour mesurer l'ensemble de données, on suppose que l'ensemble de données contient des classes K, chaque classe de taille et proportions sont Di et pi, i = 1,2, ... K.
Procédé d'incertitude de mesure (1) Entropy
Plus l'entropie, l'incertitude de l'ensemble des données sera.
L'incertitude (2) Indice de Gini méthode de mesure
Plus l'indice de Gini, plus l'incertitude dans l'ensemble de données.
Supposons que les ensembles de données totale A de la fonction K, appelée xi, i = 1,2, ... K. Un plus grand ensemble de données d'incertitude, les informations ensemble de données A contient plus. Supposer que les données d'information de la série A est H (A), après que l'information préalable est caractérisé xi H (A | xi), le gain d'informations de définition G (A, xi) est la différence entre les deux, à savoir:
Un ensemble de données sélectionné de telle sorte que les caractéristiques de gain de l'information maximale que les caractéristiques de filtrage, mathématiquement exprimée comme:
Où C (T) est un arbre de décision d'erreur d'entraînement, le modèle d'arbre de décision est représentée par l'incertitude, plus l'incertitude, l'erreur de formation est également plus grand. T représente la complexité de la peine d'arbre de décision, et de la complexité de la relation entre le paramètre d'erreur de formation de modèle de données de formation de compromis, ce qui correspond au paramètre de régularisation de l'importance.
Prenons le cas extrême où tend vers 0, l'erreur de formation de modèle d'arbre de décision optimale se rapproche de 0, dans un sur-ajustement du modèle; lorsque tend vers l'infini, le modèle d'arbre de décision optimale est un noeud d'un noeud racine arbre.
Un ensemble de données divisé en un ensemble de formation et un ensemble de test par une certaine proportion.
arbre de décision de l'étape pour construire le meilleur modèle comprennent la phase de formation et de la phase d'essai:
phase de formation:
(1) minimiser l'incertitude de l'arbre de décision est intéressant à générer un modèle, à savoir génère un arbre de décision;
(2) l'élagage des arbres de décision, différente régularisation obtenir les paramètres du modèle d'arbre de décision optimal [alpha], à savoir, la taille des arbres de décision.
Les axes suivants sur la phase de formation de l'étape de génération d'arbre de décision et l'étape de l'élagage des arbres de décision.
Décision: pas d'arbres
(1) critères de sélection en fonction des caractéristiques de l'arbre de décision, sélectionnez l'ensemble de données de caractérisation de gain maximum;
(2) répéter la première étape, jusqu'à ce que tous les noeuds de feuille d'incertitude est 0.
étapes élagage:
(1) Le paramètre de régularisation de petite à grande est divisée en différentes sections
Pour nud non-feuille de l'élagage des arbres de décision, de sorte que le noeud est T, au nud en tant que sous-arbre racine Tt.
À savoir, un seul nud est égal à la sous-arborescence fonction de perte de fonction de perte d'arbre noeud Tt, et la complexité de la taille est réduite, une meilleure performance de généralisation, par conséquent, le pruneau nud.
(3) à travers tous les noeuds non-feuille, l'élagage optimal sous-arbres après chaque paramètre correspondant .
Note: Décision Élagage étapes et ne donner que le cadre général, spécifiquement référence à Li Raccrocher « méthodes d'apprentissage statistique »
Phase d'essai:
appareil d'essai d'évaluation optimale par le modèle d'arbre de décision sous différents paramètres [alpha], sélectionner le modèle d'arbre de décision d'erreur d'essai minimale et le paramètre de régularisation optimal correspondant.
avantages:
L'algorithme est simple, le modèle a une forte interprétation
Il peut être utilisé pour des problèmes de classification et de régression
inconvénients:
modèle d'arbre de décision est sujette à un phénomène surajustement, à savoir l'erreur de formation ensemble de données de formation est faible, un grand ensembles de données de test erreur de test, les modèles et les différents ensembles de données de formation a également construit une grande différence. Le projet actuel, nous sommes souvent pas utilisé le modèle d'arbre de décision seul, afin d'éviter la mise en place de l'arbre de décision, la nécessité d'une combinaison intégrée de l'algorithme d'arbre de décision, comme l'ensachage et le renforcement de l'algorithme de l'algorithme.
Référence: Lee Accrocher « méthodes d'apprentissage statistique. »Source: algorithmes d'apprentissage machine à ces choses