Lire une interpr�tation du texte et la mise en uvre de la for�t al�atoire (code python ci-joint)

Auteur: William Koehrsen

Traduction: la Chine et

Relecture: Li Runjia

Cet article sur 6000 Word, lecture recommand�e 15 minutes.

Cet article d'un discours unique des arbres de d�cision, puis peu � peu expliqu� comment les for�ts al�atoires, et l'utilisation sklearn for�t al�atoire sur un ensemble de donn�es r�elles pour pr�dire.

Parce que maintenant comme une telle biblioth�que scikit-learn, nous pouvons facilement atteindre des centaines d'algorithmes d'apprentissage machine en Python. Ils sont si faciles � utiliser que nous ne avons pas besoin en g�n�ral aucune connaissance sur le m�canisme sous-jacent du mod�le que vous pouvez les utiliser. Bien qu'il n'a pas besoin de conna�tre tous les d�tails, mais toujours utile de comprendre un mod�le d'apprentissage de la machine est � peu pr�s comment cela fonctionne. Cela nous permet de diagnostiquer quand la mauvaise performance du mod�le ou des mod�les pour expliquer comment prendre des d�cisions, ce qui est crucial, surtout quand on veut convaincre les autres de notre mod�le.

Dans cet article, nous allons d�crire comment construire et utiliser la for�t al�atoire (Random Forest) en Python. En plus de regarder le code, nous allons essayer de comprendre comment ce mod�le. Parce que la composition al�atoire de la for�t de nombreux arbres (arbre de d�cision), alors laissez le regard de la fa�on dont une classification unique arbre de d�cision sur une question simple. Suite, nous utiliser les for�ts al�atoires pour r�soudre le probl�me d'une des donn�es scientifiques dans le monde r�el. Le code complet de cet article est fourni Jupyter Notebook sur GitHub.

Note: Cet article a d'abord apparu sur Enlight, qui est une plate-forme open-source ax� sur la communaut� qui fournit l'apprentissage de la machine d'apprentissage tutoriel pour ceux qui le souhaitent. Comprendre l'arbre de d�cision

Un arbre de d�cision est un des �l�ments de base de la for�t au hasard, mais un mod�le intuitif. Nous pouvons �tre consid�r�s comme des donn�es d'arbre de d�cision sur une s�rie de questions oui / non, et en fin de compte draw (valeur continue ou renvoyer l'affaire) une cat�gorie de pr�vision. Ce mod�le est interpr�table, car il est tr�s bien comme notre processus humain de classification: une s�rie d'enqu�tes avant de prendre une d�cision (dans un monde id�al), nous aurons des donn�es disponibles.

D�tails techniques des arbres de d�cision est de savoir comment formuler des questions sur les donn�es. Dans l'algorithme CART, en identifiant les probl�mes (appel�s nuds s�par�s) aux arbres de d�cision de construction, ces probl�mes se r�ponses conduiront � la plus grande r�duction du coefficient de Gini n'est pas la puret� (indice de Gini Impuret�) a. Cela signifie que tent� de former le noeud de l'arbre de d�cision contient une forte proportion d'�chantillons (points de donn�es) � partir d'une classe unique, un proc�d� par les donn�es peut �tre proprement divis� en diff�rentes classes de fonctionnalit�s disponibles pour atteindre une valeur appropri�e.

Nous parlerons plus tard dans les d�tails sous-jacents de l'impuret� indice de Gini, mais d'abord, nous allons construire un arbre de d�cision, afin que nous puissions le comprendre � un niveau �lev�.

Arbre sur la question simple

Nous allons commencer par un probl�me de classification binaire tr�s simple a commenc� comme suit:

L'objectif est de diviser les points de donn�es � la classe qu'ils appartiennent �

Nos donn�es seulement deux caract�ristiques (pr�dicteurs), X1 et X2, un total de six points de donn�es (�chantillons), est divis� en deux �tiquettes diff�rentes. Bien que ce probl�me est tr�s simple, mais il est pas lin�airement s�parable (lin�airement s�parables), ce qui signifie que nous ne pouvons tirer de classer une ligne droite � travers les points de donn�es.

Cependant, nous pouvons tirer une s�rie de lignes, le point de donn�es est divis� en plusieurs cadres, nous appelons ces bo�tes pour le nud. En fait, c'est la chose de l'arbre fait pendant la formation. Un arbre de d�cision est un mod�le non lin�aire est en fait configur� par une pluralit� de limites lin�aires construits.

Nous utilisons scikit-learn pour cr�er des arbres de d�cision et de formation (ajustement) sur les donn�es.

Pendant la formation, nous offrons des fonctionnalit�s et des �tiquettes comme mod�le pour l'aider � apprendre � classer le point caract�ristique. (Pour cette simple question que nous ne l'avons pas ensemble de test dans le test, nous ne fournissons que des valeurs caract�ristiques du mod�le et permettent de pr�dire qu'il l'�tiquette.)

Nous pouvons tester la pr�cision du mod�le sur les donn�es de formation:

On peut voir que nous nous attendons � obtenir une pr�cision de 100%, parce que nous lui avons donn� la r�ponse de la formation (y), et ne limite pas la profondeur de l'arbre. Il se trouve que dans les donn�es de formation trop forte capacit� d'apprentissage peut �tre un inconv�nient, car il peut conduire � surapprentissage (overfitting), dont nous parlerons plus tard.

arbre de visualisation

Lorsque nous nous entra�nons l'arbre de d�cision � la fin ce qui est arriv�? La visualisation peut nous aider � mieux comprendre l'arbre de d�cision, qui peut �tre atteint (pour plus d'informations, s'il vous pla�t voir le bloc-notes ou article) par une fonction de scikit-learn.

Un arbre de d�cision simple,

En plus du nud feuille (couleur de noeud terminal), tous les noeuds a cinq parties:

Sur la base d'une question la valeur d'une caract�ristique des donn�es, chaque question a une r�ponse vrai ou faux peut �tre divis� nud. La r�ponse, le point de donn�es d�place vers le bas en cons�quence.
gini: Un noeud impuret� Gini. Lorsque nous passons l'arbre, l'impuret� Gini moyenne pond�r�e sera r�duite.
�chantillons Le nombre d'observations dans le noeud de donn�es.
valeur: Le nombre d'�chantillons dans chaque classe. Par exemple, le nud racine il y a appartiennent deux �chantillons � la classe 0, il y a quatre �chantillons appartenant � la classe 1.
classe: Le plus de points classification des nuds. Dans le nud feuille, le nud qui est pr�vu pour tous les �chantillons.

noeud feuille n'est plus une question, parce que cela a produit une pr�diction finale. Pour pointer vers une nouvelle cat�gorie de donn�es, il suffit de d�placer le long de l'arbre, l'utilisation de nouveaux points de fonctionnalit�s pour r�pondre � des questions jusqu'� ce que vous atteignez un nud feuille, le classement correspondant noeud feuille est la pr�vision finale.

Pour voir l'arbre d'une autre mani�re, nous pouvons tirer de l'arbre de d�cision partag�e fond�e sur les donn�es d'origine.

Arbre de d�cision divis�e

Chacune est une ligne de division, qui est divis�e en fonction des valeurs caract�ristiques des points de donn�es � un noeud diff�rent. Pour cette simple question et de limiter la profondeur maximale n'est pas fait, la division finale de chaque point dans un nud qui ne contient que le m�me point. (Encore une fois, plus tard nous verrons cette division parfaite des donn�es de formation ne peut pas �tre ce que nous voulons, car il peut conduire � surajustement)

Gini impuret� (Gini Impuret�)

Il est temps de comprendre le concept de Gini n'est pas la puret� du (non effrayant math�matique) noeud Gini n'est pas la puret� des moyens, en fonction du temps des �chantillons de noeud de distribution pour la classification �chantillon, l'�chantillon choisi au hasard est s�par� de la mauvaise probabilit� de noeud. Par exemple, dans le noeud racine, d'apr�s le noeud de balise d'�chantillon 44,4% de probabilit� qu'un des points de donn�es class�s par erreur choisis au hasard. Peut venir � cette valeur en utilisant l'�quation suivante:

N noeud impuret� Gini

le noeud N impuret� Gini soustrayant chaque classe est 1 (t�che de classification binaire 2), et le rapport du carr� de l'�chantillon. Peu d'une bouch�e, donc nous avons calcul� avec l'impuret� racine de Gini.

impuret� Racine indice de Gini

A chaque noeud, une valeur pour l'arbre de d�cision de rechercher toutes les fonctionnalit�s de la division, de mani�re � minimiser l'impuret� indice de Gini. (Une autre alternative est d'utiliser un noeud fendu gain d'information).

Il r�p�te ensuite ce processus de mani�re r�cursive l'avidit� fente, jusqu'� ce que la profondeur maximale, chaque noeud ne contient que les �chantillons ou similaire. Pond�ration chaque arbre totale impuret� Gini doit �tre r�duite. Dans la deuxi�me couche de l'arbre, la valeur pond�r�e totale de 0,333 impuret� Gini:

(Chaque noeud impuret� Gini pond�r� proportionnellement au nud du point de nud parent.) Vous pouvez continuer pour chaque indice de Gini impuret� noeud (la r�ponse dans la visualisation figure). De cette fa�on, un peu de math�matiques de base, la naissance d'un mod�le puissant!

Enfin, le dernier niveau pond�r� impuret� devient 0 Gini, cela signifie que chaque nud est compl�tement pur, non pas du point choisi au hasard noeud mal class�. Bien que tout cela semble tr�s bon, mais cela signifie que le mod�le pourrait �tre trop bonne forme, parce que tous les nuds sont construits en utilisant uniquement les donn�es de formation.

Overfitting: Pourquoi la for�t mieux qu'un arbre

Vous pourriez vous demander pourquoi ne pas simplement utiliser un arbre de d�cision il? Il semble parfait, parce qu'il ne fait pas d'erreur! Mais ne pas oublier ce point critique, que cet arbre est donn�es de formation Sur aucune erreur. Nous attendons d�j� ce qui va se passer, parce que nous avons fourni la r�ponse aux arbres, et il n'y a pas de limite (le nombre de couches de l'arbre) profondeur maximale. Cependant, les mod�les d'apprentissage machine cible qui peut �tre une bonne g�n�ralisation de nouvelles donn�es n'a jamais �t� vu auparavant.

Overfitting se produit lorsque nous avons un mod�le tr�s flexible (mod�le de grande capacit�), qui est essentiellement de se rappeler les donn�es de formation par jointives. Ce probl�me est un mod�le non seulement appris la relation r�elle dans les donn�es de formation, mais aussi d'apprendre la pr�sence de bruit. Mod�le flexible avec une variance �lev�e (Variance) Comme les param�tres (par exemple, une structure d'arbre de d�cision) les donn�es de formation acquises varient varie consid�rablement.

D'autre part, en raison des donn�es de formation en hypoth�se Ainsi, le mod�le rigide a un �cart sup�rieur (Bias) (Qui ont tendance � des donn�es d�j� pens� concepts), comme un classificateur lin�aire supposer que les donn�es est lin�aire, il ne poss�de pas la souplesse n�cessaire pour adapter la relation non lin�aire. Pas m�me un mod�le flexible peut ne pas correspondre aux donn�es de formation � haute biais et la variance �lev�e dans les deux cas, le mod�le ne peut pas �tre g�n�ralis� � bien au-dessus des nouvelles donn�es.

Peut rappeler un �quilibre entre un mod�le tr�s souple rigide et ne peut pas apprendre les donn�es de formation du mod�le de donn�es de formation est appel� biais - Compromis variance (-de Compromis biais-variance), il est un concept fondamental dans l'apprentissage de la machine.

Lorsque la raison pour laquelle nous ne limitons pas la profondeur maximale de l'arbre est facile � surajustement est qu'il a une flexibilit� illimit�e, ce qui signifie qu'il peut continuer � cro�tre jusqu'� ce qu'il soit chaque point d'observation individuelle g�n�re un nud feuille, classification parfaite . Si l'arbre de d�cision avant de revenir � l'image et de limiter la profondeur maximale de 2 (split une seule fois), aucune 100% classement correct. Nous avons r�duit l'arbre de d�cision de la variance, mais au prix d'�cart plus important.

profondeur de la limite de l'arbre peut r�duire la variance (bonne) et l'�cart d'augmentation (de mauvais), une alternative est que nous pouvons combiner plusieurs dans un mod�le d'arbre de d�cision appel� for�ts al�atoires int�gr� (mod�le d'ensemble).

Les for�ts au hasard

For�t mod�le de hasard est compos� de nombreux arbres de d�cision. Ce mod�le est simplement une moyenne de tous les arbres (on pourrait appeler la � for�t �) pr�dit, mais l'utilisation de deux concepts cl�s, mot au hasard dans le nom est d�riv� de ceci:

�chantillon al�atoire de formation des points de donn�es lors de la construction de l'arbre
Lorsque l'on consid�re les caract�ristiques d'un noeud de division de sous-ensemble al�atoire

Un �chantillon al�atoire de donn�es d'observation de la formation

Lors de la formation, la for�t au hasard chaque arbre apprendra � partir d'un �chantillon al�atoire de points de donn�es. Les �chantillons sont �chantillonnage avec remplacement, appel�e la m�thode d'auto-�chantillonnage (Bootstrap), ce qui signifie qui sera utilis� plusieurs fois certains des �chantillons dans un arbre. L'id�e derri�re chaque arbre est form� sur un �chantillon diff�rent, m�me si chaque arbre par rapport au jeu de donn�es de formation sp�cifique peut avoir la variance �lev�e, mais dans l'ensemble, toute la for�t aura une variance plus faible, sans augmenter le co�t de l'�cart.

Lors du test pour pr�dire la pr�vision moyenne de chaque arbre de d�cision. Cette formation d'apprentissage unique sur un autre sous-ensemble des donn�es d'�chantillon de soi-m�me, puis la moyenne du processus de pr�diction connu sous le nom d'ensachage, est une abr�viation de bootstrap agr�gation.

sous-ensemble al�atoire de caract�ristiques utilis� pour diviser le noeud

Un autre concept cl� est que la for�t al�atoire �tant donn� qu'un sous-ensemble de toutes les fonctionnalit�s de diviser chaque nud pour chaque arbre de d�cision. Habituellement, on met sqrt (n_features) � classer, ce qui signifie que s'il y a 16, dans lequel, au niveau de chaque noeud de chaque arbre, en consid�rant seulement quatre al�atoire caract�ris� diviser le noeud. (Les for�ts al�atoires peuvent �galement �tre consid�r�s � chaque nud, toutes les fonctionnalit�s, telles que la r�gression est commune. Ces options peuvent �tre contr�l�s pour atteindre scikit-learn For�t de hasard).

Si vous pouvez comprendre un arbre de d�cision s�par�s, ensachage l'id�e, et sous-ensemble al�atoire de caract�ristiques, alors vous travaillez sur les for�ts al�atoires auront une bonne compr�hension:

Les centaines For�ts Al�atoires des arbres de d�cision ensemble, dans un ensemble l�g�rement diff�rent de l'observation la formation de chaque arbre de d�cision, chaque arbre pris en compte dans un nombre limit� de fonctionnalit�s pour diviser le nud. La pr�diction finale for�t al�atoire est en pr�disant l'arbre moyen par habitant pour obtenir.

Je veux comprendre pourquoi la for�t al�atoire mieux qu'un seul arbre de d�cision, imaginez le sc�nario suivant: Vous devez d�terminer si les actions de Tesla ont augment�, et maintenant vous �tes entour� d'une douzaine de soci�t�s ne poss�dent pas une connaissance pr�alable de l'analyste. Chaque analyste a un parti pris plus faible parce qu'ils ne disposent pas des hypoth�ses, des donn�es et peuvent se concentrer sur l'apprentissage des rapports d'information.

Cela semble �tre une situation id�ale, mais le probl�me est signal� en plus du signal r�el peut contenir du bruit. Parce que les analystes font des pr�dictions bas�es sur des donn�es compl�tes, qui est, ils ont un haut degr� de flexibilit�, ce qui signifie que les informations qu'ils pourraient se laisser influencer par hors de propos. Les analystes sont susceptibles de se concentrer sur les diff�rentes pr�dictions proviennent des m�mes donn�es. De plus, si les rapports pour fournir des ensembles de formation diff�rents, chaque analyste a une variance �lev�e, et d'en tirer des pr�dictions tr�s diff�rentes.

La solution ne d�pend pas une seule personne, mais une collection du vote chaque analyste. De plus, comme les for�ts al�atoires, permettant � chacun d'utiliser une partie seulement des rapports d'analystes, et l'espoir d'�liminer les effets de l'information du bruit par �chantillonnage. Dans la vraie vie, nous comptons �galement sur des informations provenant de sources multiples (jamais confiance examen distinct Amazon), par cons�quent, non seulement l'id�e de l'arbre de d�cision est tr�s intuitive, et les combiner ensemble dans l'id�e des for�ts al�atoires m�me.

Pratique Random Forest

Ensuite, nous allons construire une for�t au hasard en Python avec scikit-learn. Nous n'apprenons pas une question simple, mais utilisera des donn�es r�elles est divis� en un ensemble de formation et un ensemble de test, nous utilisons l'ensemble de test pour estimer le mod�le de la performance des nouvelles donn�es, qui peuvent nous aider � d�terminer l'�tendue du mod�le surajustement .

Dataset

Nous voulons r�soudre le probl�me est une t�che de classification binaire, le but est de pr�dire l'�tat de sant� d'un individu. Les donn�es de caract�risation ensemble repr�sentant la vie sociale et �conomique individuelle, l'�tiquette est 0 pour mauvaise sant�, 1 indique une bonne sant�. L'ensemble des donn�es recueillies par les Centers for Disease Control and Prevention, disponible ici.

�chantillons de donn�es

En r�gle g�n�rale, un des projets scientifiques de donn�es 80% travaillent dans le nettoyage, l'exploration et l'extraction des donn�es de fonction. Toutefois, dans cet article, nous nous concentrons sur la mod�lisation (Pour plus d'informations sur les �tapes suppl�mentaires, consultez cet article).

Ceci est un probl�me de classification non �quilibr�s, donc la pr�cision (pr�cision) ne constitue pas une mesure appropri�e. Au lieu de cela, nous allons utiliser le ROC et l'ASC, l'ASC est de 0 (pire) � 1 (meilleure) m�trique, al�atoire partition deviner de 0,5. On peut aussi tracer la courbe ROC pour �valuer le mod�le.

Le bloc-notes contient des arbres de d�cision et de r�aliser des for�ts al�atoires, mais ici nous nous concentrons uniquement sur la for�t al�atoire. Apr�s avoir lu les donn�es, nous pouvons instancier une for�t au hasard et � la formation, comme suit:

Apr�s quelques minutes de formation, le mod�le est pr�t � pr�dire les donn�es de test, comme suit:

Nous pr�voyons Classification (pr�dire) et la probabilit� pr�dite (predict_proba) pour calculer la ROC AUC. Une fois que nous avons pr�dit les r�sultats de l'ensemble de test, nous pouvons calculer la ROC AUC.

r�sultat

L'ensemble for�t al�atoire de test final AUC ROC �tait de 0,87, et le test final fix� arbre de d�cision unique avec une profondeur maximale illimit�e de ROC AUC de 0,67. Si vous regardez le point de formation, les deux mod�les ont atteint le ROC AUC 1.0, ce qui est � pr�voir, parce que nous devons r�pondre � ces mod�les offrent une formation, et il n'y a aucune restriction de la profondeur maximale de chaque arbre.

Bien que la for�t al�atoire avait un ajustement (� faire mieux dans la formation que les donn�es sur les donn�es de test), mais il vaut mieux sur les donn�es de test qu'un seul arbre de d�cision de g�n�ralisation. Les for�ts al�atoires ont une variance plus faible (prestations), tout en conservant le m�me faible �cart d'un arbre de d�cision (�galement un avantage).

On peut �galement tracer un arbre (en haut) et de la for�t al�atoire (en bas) de la courbe ROC. Pr�s du haut coin gauche du graphique repr�sente un meilleur mod�le:

D�cision courbe ROC Arbre

courbe ROC For�ts Al�atoires

Les for�ts al�atoires beaucoup mieux qu'un seul arbre.

Une autre des mesures diagnostiques du mod�le que nous pouvons adopter est de tirer les pr�dictions du jeu de test de matrice de confusion (Pour plus d'informations, voir bloc-notes):

Dans le coin sup�rieur gauche et en bas � droite, il montre le mod�le de pr�diction correcte, dans le coin inf�rieur gauche et en haut � droite montre la fausse couche de mod�le pr�dictif de la justice. Nous pouvons utiliser ce type de graphique pour diagnostiquer notre mod�le, de d�cider si elle est assez bonne performance et peut �tre mis en production.

L'importance des caract�ristiques (importances Feature)

Il indique o� l'importance de la r�partition des for�ts au hasard sur tous les nuds de la somme fonction de r�duction des impuret�s de Gini. Nous pouvons l'utiliser pour essayer de d�couvrir les for�ts al�atoires pense que le plus pr�dicteurs importants. Il peut �tre extrait d'une for�t al�atoire caract�ristique importance formation, et il a mis en dataframe Pandas, comme suit:

En nous disant ce que les variables les plus de discrimination entre les classes, l'importance des caract�ristiques peut nous faire mieux comprendre le probl�me. Par exemple, DIFFWALK Est de montrer les caract�ristiques importantes du patient est difficile de marcher, dans le contexte de cette question est �galement plausible.

En construisant des fonctionnalit�s suppl�mentaires de la plus caract�ristique importante, la fonction peut �tre utilis�e pour caract�riser l'importance du projet (ing�nierie de fonction). On peut �galement s�lectionner en supprimant des fonctionnalit�s sans importance aux caract�ristiques d'importance pour la fonction.

Visualisation arbre de la for�t

Enfin, nous pouvons visualiser un seul arbre dans la for�t. Cette fois, nous devons limiter la profondeur de l'arbre, ou il sera trop grand pour �tre converti en une image. Afin de rendre la figure ci-dessous, je limiterai la profondeur maximale de 6. Mais nous avions encore un arbre r�solu pas compl�tement! Cependant, parce que nous arbre de d�cision profond�ment �tudi�, nous pouvons saisir ce mod�le fonctionne par cette image.

arbres forestiers au hasard dans un seul arbre L'�tape suivante

L'�tape suivante consiste � utiliser la RandomizedSearchCV scikit-learn pour optimiser la for�t au hasard par une recherche al�atoire. L'optimisation est donn�e pour trouver les meilleurs param�tres du mod�le super (les hyperparam�tres) sur l'ensemble de donn�es. Les meilleurs param�tres super varient en fonction des changements de jeu de donn�es, nous devons donc r�aliser un mod�le d'optimisation s�par�e qui est �galement connu comme r�glage (ajustement du mod�le) sur chaque ensemble de donn�es.

J'aime le mod�le consid�r� comme pour ajuster un algorithme d'apprentissage automatique pour trouver les meilleurs r�glages. Nous pouvons optimiser le nombre de choses, y compris arbres forestiers au hasard, le nombre maximum de caract�ristiques de chacun de la profondeur maximale de l'arbre de d�cision, chaque fraction de noeud, et le nombre maximum de points de donn�es peuvent �tre contenues dans les nuds feuilles.

la mise en uvre du mod�le forestier al�atoire en fonction d'optimisation de recherche al�atoire, voir Notebook Jupyter.

s�rie compl�te l'�chantillon

Le code suivant est cr�� l'aide repl.it, il montre un exemple de fonctionnement interactif complet du Python for�t al�atoire. Vous �tes libre de courir et changer le code (le paquet peut prendre un certain temps � la charge).

Recommandations environnement interactif pour afficher le texte original conclusion

Bien que nous ne comprenons pas les principes sous-jacents peuvent construire des mod�les puissants d'apprentissage de la machine en Python, mais je trouve que pour comprendre ce qui se passe dans les coulisses est plus efficace. Nous construisons non seulement dans cet article en Python et utilise une for�t al�atoire, mais nous comprenons aussi le d�part du mod�le de base.

Nous voyons d'abord l'arbre de d�cision distincte, qui est un des �l�ments de base d'une for�t au hasard, et nous avons appris � r�soudre un seul arbre en combinant des centaines d'arbres de d�cision dans le mod�le int�gr� appel� for�ts al�atoires dans le probl�me de la variance �lev�e . For�ts al�atoires peuvent �tre r�sum�s comme donn�es d'observation en utilisant un �chantillonnage al�atoire, caract�ristique d'�chantillonnage al�atoire et la moyenne pr�dite de chaque arbre.

De cet article pour comprendre les concepts cl�s sont les suivants:

Arbre de d�cision: Un mod�le intuitif qui peut prendre des d�cisions fond�es sur un �ventail de questions li�es aux valeurs propres d'enqu�te. Avec polarisation de faible caract�ristique et la variance �lev�e, ce qui peut conduire � une mise en place des donn�es d'apprentissage.
impuret� gini: Arbre tenter de minimiser la m�trique pour chaque noeud divis�. Il repr�sente la probabilit� de la distribution de l'erreur de classification �chantillon choisi au hasard � partir d'�chantillons de noeud.
Autopr�l�vement: Avec le remplacement de l'observation �chantillonnage al�atoire.
sous-ensemble al�atoire de caract�ristiques: Lorsque l'on consid�re l'arbre de d�cision de segmentation pour chaque noeud, dans lequel un ensemble de s�lection al�atoire.
Les for�ts au hasard: Utiliser la m�thode d'auto-�chantillonnage, sous-ensemble al�atoire de caract�ristiques et de vote moyen pour mod�le se compose d'un ensemble d'arbres de d�cision consistant en plusieurs pr�dictions. Ceci est un exemple de l'ensachage.
compromis variance Bias: Le probl�me de base dans l'apprentissage de la machine, d�crit comme ayant une grande flexibilit� (variance �lev�e), qui peut �tre un bon apprentissage des donn�es de formation, mais au d�triment de la capacit� � mod�liser la g�n�ralisation des nouvelles donn�es, ne pas apprendre les donn�es de formation et inflexible (�cart-type �lev� ) l'�quilibre entre les mod�les. Les for�ts al�atoires r�duisent la variance d'un seul arbre, qui peut mieux pr�dire de nouvelles donn�es.

Esp�rons que cet article donne la confiance n�cessaire pour utiliser les for�ts al�atoires dans le projet et la compr�hension des principes pour vous. Au hasard des for�ts est une machine puissante des mod�les d'apprentissage, mais cela ne devrait pas nous emp�cher de comprendre son m�canisme. Notre compr�hension du mod�le, plus, plus nous avons la capacit� d'utiliser efficacement et comment expliquer � pr�voir.

Comme toujours, les commentaires sont des commentaires de bienvenue et des critiques constructives. Vous pouvez me contacter via Twitter @koehrsen_will. Cet article a �t� publi� � l'origine sur Enlight, une machine de recherche sur l'apprentissage pour la communaut� open source. Merci Enlight et utilis� pour h�berger le code texte repl.it.

Titre original: Une mise en uvre et explication de la for�t al�atoire en Python sous-titre: guide A pour utiliser et � comprendre la for�t al�atoire en construisant � partir d'un seul arbre de d�cision Lien original: https: //towardsdatascience.com/an-implementation-and-explanation -De-le en-for�t al�atoire python-77bf308a9b76

Introduction Traducteur

Et la Chine, Master of Engineering Software quitter l'Allemagne. En raison de l'int�r�t pour l'apprentissage de la machine, la th�se de ma�trise a choisi d'am�liorer l'utilisation de l'algorithme g�n�tique kmeans traditionnels. � l'heure actuelle de grandes donn�es relatives � la pratique � Hangzhou. THU veulent joindre des donn�es d'envoi � faire sa contribution � l'aide des coll�gues IT esp�rent aussi faire beaucoup de compagnon partageant les m�mes id�es.

- FIN -

attention Tsinghua - donn�es Acad�mie des sciences de Qingdao plate-forme publique micro-canal officiel " donn�es d'envoi THU � Sisters et n � � Les donn�es envoy�es THU � Pour plus de conf�rences et de bien-�tre contenu de qualit�.

Route de la soie

Apprenez � conna�tre la Chine

Lire une interpr�tation du texte et la mise en uvre de la for�t al�atoire (code python ci-joint)