Grand inventaire: avantages et inconv�nients et comment interpr�ter la for�t al�atoire avec Python

Le mot en texte int�gral 1755, lorsque l'�tude devrait cro�tre de 3 minutes

Dans cet article, un nouveau projet de l'apprentissage coupage-- un open-source, les objectifs du projet pour cr�er une feuille de route interactive pour les personnes d'origines diff�rentes, qui comprend la r�alisation de tous les concepts, les m�thodes, les algorithmes et le code en Python ou R explication.

Les for�ts au hasard

Au hasard des for�ts est flexible, facile � utiliser des algorithmes d'apprentissage machine, m�me sans ajustement ultra-param�tre, dans la plupart des cas apportera de bons r�sultats. Il peut �tre utilis� pour des t�ches de classification et de r�gression. Dans cet article, vous apprendrez comment l'algorithme Random Forest pour r�soudre les probl�mes de classification et de r�gression.

Pour comprendre ce qui est l'algorithme Random Forest, il faut d'abord �tre familier avec les arbres de d�cision.

Les arbres de d�cision ont tendance � produire overfitting, en particulier se produire sur la pr�sence de l'ensemble de l'arbre de donn�es. Parfois, un arbre de d�cision semble avoir seulement la m�moire de donn�es. Voici des exemples typiques de surapprentissage arbre de d�cision, les donn�es de classification, il existe des donn�es en continu.

1. Classification des donn�es:

Si un des hommes am�ricains �g�s entre les �ges de 15 et 25 ans, il aime manger de la cr�me glac�e, un ami allemand, oiseaux d�go�t, 201225 Ao�t avait mang� des cr�pes - alors il est susceptible de t�l�charger Pokemon Go.

2. Donn�es continues:

For�t al�atoire pr�venir l'apparition de ces probl�mes: il est une combinaison d'un arbre de d�cision multiple, non seulement un arbre de d�cision. algorithme Random Forest en plus le nombre d'arbres de d�cision, une meilleure g�n�ralisation des r�sultats.

Plus pr�cis�ment, les for�ts al�atoires fonctionne comme suit:

1. A partir de l'ensemble de donn�es (tableau) k fonctions al�atoires (colonnes), dans lequel un total de m (o� k est �gal � moins de m). L'arbre de d�cision est alors la caract�ristique de k.

2 n fois, la caract�ristique de k �tablies par diff�rentes combinaisons de diff�rents �chantillons al�atoires (al�atoires ou de donn�es, appel�s �chantillons auto-droit) n arbres de d�cision.

3. variables al�atoires sont transmises � l'arbre de d�cision pour chacun des r�sultats de pr�diction. Conservez tous les r�sultats pr�vus (but), vous pouvez obtenir des r�sultats de n n types d'arbres dans l'arbre de d�cision.

4. Calculer le nombre de voix pour chaque cible de pr�diction mode de s�lection (le plus variable cible commune). En d'autres termes, l'objectif sera de pr�dire le nombre �lev� de votes que la pr�diction finale algorithme Random Forest.

* Pour la r�gression, les arbres forestiers al�atoires peuvent pr�dire la valeur de Y (valeur de sortie). Obtenir la valeur de pr�diction finale calcul�e par la valeur moyenne de tous les arbres de la for�t al�atoire des valeurs pr�vues. Et pour la classification, arbres forestiers au hasard et chacun d'entre eux pr�dira les derni�res donn�es appartiennent � quelle cat�gorie. En fin de compte, dont la plupart classement est s�lectionn�, il est pr�vu que les derni�res donn�es appartient � quelle classification.

Exemples:

Auquel James a d�cid� d'aller aux attractions de Paris la semaine. Il a visit� des amis qui avaient pass� un an � Paris, qui avait demand� � un ami de visiter des attractions, qu'ils trouvent int�ressants. Sur la base de son exp�rience, son ami James donnera quelques conseils.

Ceci est une m�thode d'algorithme d'arbre de d�cision typique. l'ami de James en fonction de leur exp�rience, dites-James ce qui peut attractions.

Apr�s James a demand� beaucoup d'amis � Paris devait �tre, demander des conseils, ils ont recommand� ses attractions visit�es. James choisissent alors le nombre le plus recommand� d'attractions, c'est un algorithme de for�t al�atoire typique.

Ainsi, la s�lection al�atoire est une des caract�ristiques k des for�ts al�atoires dans l'arbre de d�cision a un total de m fonction de la composition des arbres de d�cision n, et s�lectionne ensuite un r�sultat de mode de pr�diction (si un probl�me de r�gression, s�lectionner la valeur moyenne).

Avantages et inconv�nients

avantages:

1. La classification et la r�gression peuvent �tre utilis�s pour r�soudre le probl�me: classification des for�ts al�atoires et les caract�ristiques de valeur peuvent �tre trait�es simultan�ment.

2. capacit�s anti-surajustement: l'arbre moyen, ce qui r�duit le risque de surajustement.

3. Seulement lorsque plus de la moiti� des erreurs de classificateur de base feront la mauvaise pr�diction: Random for�ts est tr�s stable, m�me s'il y a une nouvelle s�rie de points de donn�es, l'algorithme donn�es ne seront pas touch�s beaucoup, il ne affecter un arbre, il est difficile d'avoir un impact sur l'ensemble de l'arbre de d�cision.

inconv�nients:

1. Il a �t� observ� que, si une partie de la classification des donn�es de formation / r�gression en pr�sence de bruit, des donn�es al�atoires rassemblement de la for�t est apparu ph�nom�ne surajustement.

2. Un algorithme d'arbre de d�cision est plus complexe qu'un calcul plus.

3. En raison de la complexit� de leur propre, ils ont besoin de plus de temps que d'autres algorithmes similaires � train.

param�tres importants Super

param�tre Ultra for�ts al�atoires peuvent �tre utilis�es � la fois pour am�liorer la capacit� pr�dictive du mod�le, il peut aussi acc�l�rer la mod�lisation. Ce qui suit d�crit la fonction des for�ts sklearn al�atoire construit des param�tres super:

1. Pour am�liorer le pouvoir pr�dictif

� Le nombre de sous-mod�les: Avant d'utiliser le nombre maximum de voix pour pr�dire ou moyenne, vous voulez �tablir un certain nombre de sous-arbre. En g�n�ral, plus le nombre de sous-arbre, plus il peut am�liorer les performances, plus stable la pr�cision des pr�visions, mais ralentira les calculs.

Le nombre maximum de fonctions impliqu�es dans la d�termination lorsque le noeud: la division de l'arbre de d�cision des for�ts al�atoires en utilisant la fonction permet � un seul nombre maximum. Sklearn propose plusieurs options, telles que d�crites dans la documentation.

Le nombre minimal d'�chantillons � noeuds de feuille: noeud interne subdivis� nombre minimal d'�chantillons requis.

2. acc�l�rer la vitesse de la mod�lisation

� En m�me temps: Permet l'utilisation du nombre de processeurs. Si la valeur de sortie est 1, un seul processeur. La valeur de sortie de -1 signifie aucune limite.

� G�n�rateur de nombres al�atoires: mod�le peut copie de sortie. Lorsque le mod�le est d�termin� par un nombre al�atoire, et �tant donn� les m�mes param�tres et les m�mes donn�es de formation de super, le mod�le produira toujours le m�me r�sultat.

� Sac ext�rieur si le calcul du score �: �chantillonner le sac ext�rieur �galement connu - qui est une validation crois�e de la for�t al�atoire. Dans cet exemple, environ un tiers des donn�es ne sont pas utilis�es pour former le mod�le, mais pour le mod�le d'�valuation du rendement. Ces �chantillons sont d�sign�s comme �chantillons sac ext�rieur. Cette m�thode de validation crois�e et laisser un tr�s similaire, mais presque aucune charge de calcul suppl�mentaire.

la mise en uvre Python

Afficher / t�l�charger un mod�le situ� dans un d�p�t Git forestier au hasard:

https://github.com/the-learning-machine/ML-algorithms-python/blob/master/Classification/random_forests.ipynb

ressources:

https://www.kdnuggets.com/education/online.html

https://www.kdnuggets.com/software/index.html

Envoyer un pouce message cercle d'amis Ensemble, nous partageons l'apprentissage et le d�veloppement de l'IA sec Amnesty International salue l'attention de la plate-forme compl�te des m�dias � lire la technique de base �

Route de la soie

Apprenez � conna�tre la Chine

Grand inventaire: avantages et inconv�nients et comment interpr�ter la for�t al�atoire avec Python