Stimuler populaire concours d'apprentissage machine, un texte bien assez Publicize

Auteur | Aishwarya SINGH

Traducteur | Wu Mingli, Zebian | yugao

Produit | camp de base de la technologie AI (ID: rgznai100)

Pouvez-vous nommer au moins deux apprentissage machine stimuler Il?

Stimuler a �t� existe depuis de nombreuses ann�es, mais jusqu'� r�cemment, ils ne sont pas devenus communaut� d'apprentissage machine grand public. Alors, pourquoi sont si populaires ces Dynamiser il?

L'un des principaux populaires est Dynamiser une comp�tition d'apprentissage de la machine. Dope est un mod�le d'apprentissage de la machine donne des pouvoirs pour am�liorer l'exactitude pr�dictive. Un rapide coup d'oeil � la concurrence Kaggle et DataHack hackathon savoir - Stimuler tr�s populaire!

En bref, Dynamiser g�n�ralement mieux que la r�gression simple mod�le logique et des arbres de d�cision comme sup�rieure. En fait, la plupart des meilleurs produits sur les plates-formes DataHack utilisent un ou plusieurs Dynamiser Dynamiser combinaison � atteindre.

Dans cet article, l'auteur pr�sentera quatre populaire Dynamiser, vous pouvez utiliser la machine suivante apprentissage projet hackathon ou les utiliser.

Dynamiser d�marrage rapide (Qu'est-ce stimulant? )

Imaginez ce sc�nario:

Vous avez mis en place un mod�le de r�gression lin�aire, qui peut v�rifier l'exactitude de l'ensemble des donn�es pour atteindre 77%. Ensuite, vous d�cidez par la cr�ation de k-plus proche voisin (KNN) mod�le d'arbre de d�cision et le mod�le sur le m�me ensemble de donn�es pour �tendre votre ensemble de donn�es. Ces mod�les de pr�cision sur l'ensemble de validation �tait de 62% et 89%, respectivement.

De toute �vidence, le travail de ces trois mod�les sont compl�tement diff�rents. Par exemple, un mod�le de r�gression lin�aire tente de saisir des donn�es dans une relation lin�aire et le mod�le d'arbre de d�cision tente de saisir les donn�es non lin�aires.

Utilisez une combinaison de tous ces mod�les plut�t que d'utiliser l'un de ces mod�les de la fa�on de faire une pr�diction finale?

La pr�vision moyenne de ces mod�les je consid�rais. De cette fa�on, nous capturer plus d'informations � partir de donn�es.

Ceci est principalement derri�re l'id�e de l'apprentissage int�gr�. Boosting apparaissent alors dans le mauvais?

Stimuler l'utilisation de la technologie est l'un des concept d'apprentissage int�gr�. Stimuler incorpore une pluralit� de mod�le simple (appel�e aussi un faible apprenant ou sensiblement estimateur) pour g�n�rer la sortie finale.

Nous pr�senterons une importante Dynamiser ici.

Machine Learning quatre types Dynamiser

Palan � gradient (GBM)
Palan � gradient extr�me (XGBM)
Ascenseur � gradient l�ger (LightGBM)
ascenseur de classification (CatBoost)

1, Palan � gradient (GBM)

Palan gradient (GBM) � partir de la pluralit� d'arbres de d�cision de liaison pr�dite pour g�n�rer la pr�diction finale. Notez que tous les apprenants faibles gradient monte-charge est un arbre de d�cision.

Cependant, si nous utilisons le m�me algorithme, l'utilisation de plus d'une centaine arbre avec un seul arbre, d'accord? Comment diff�rentes informations de signal / de donn�es diff�rentes de capture des arbres de d�cision de celui-ci?

Ceci est l'astuce - chaque nud de l'arbre dans un autre sous-ensemble des fonctions pour s�lectionner la meilleure r�partition. Cela signifie que chaque arbre ne sont pas identiques, et par cons�quent, ils sont capables de capturer les diff�rents signaux � partir des donn�es.

De plus, chacun d'eux de nouveaux arbres sont pris en compte les erreurs commises par l'arbre pr�c�dent. Ainsi, chaque arbre de d�cision pr�c�dente successives est mauvais arbre. Ceci afin de construire l'arbre Dynamiser mani�re gradient.

2, Palan � gradient extr�me (XGBM)

ascenseur gradient extr�me (XGBoost) est un autre populaire Dynamiser. En fait, XGBoost tout algorithme GBM version am�lior�e! processus de travail XGBoost avec GBM m�me. arbre XGBoost afin d'essayer de corriger les erreurs dans un arbre d�j� construit.

Cependant, certaines fonctions XGBoost l�g�rement mieux que GBM:

1) La chose la plus importante est de r�aliser un pr�traitement XGBM parall�le (au niveau des nuds), ce qui rend plus rapide que le GBM.

2) XGBoost comprend en outre diverses techniques de r�gularisation, il peut r�duire l'am�lioration globale de la performance excessive � fusionner. Vous pouvez choisir des techniques de r�gularisation en mettant hyperparam'etre algorithme XGBoost.

De plus, si vous utilisez l'algorithme de XGBM, vous n'avez pas � vous soucier de se concentrer ins�rer les valeurs manquantes dans les donn�es. mod�le XGBM lui-m�me peut g�rer les valeurs manquantes. Au cours de la formation, le mod�le apprendra les valeurs manquantes sont dans le nud de nud � droite ou � gauche.

3, Ascenseur � gradient l�ger (LightGBM)

En raison de sa rapidit� et l'efficacit�, LightGBM Dynamiser maintenant de plus en plus populaire. LightGBM peut facilement g�rer de grandes quantit�s de donn�es. Notez toutefois que la mauvaise performance de l'algorithme sur un petit nombre de points de donn�es.

Prenons un moment pour comprendre comment cela se produit.

LightGBM Yexiang Sheng l'arbre a une longue, plut�t que le niveau de croissance. Apr�s la premi�re division, la prochaine scission uniquement sur la perte d'un grand nud feuille.

Prenons l'exemple illustr� sur la figure:

Apr�s la premi�re division, les pertes plus �lev�es noeud gauche, est donc s�lectionn� pour la division suivante. Maintenant, nous avons trois nuds feuilles, tandis que la perte la plus �lev�e parmi les nuds feuilles. LightGBM segmentation algorithme par feuille de lui permettre de g�rer de grands ensembles de donn�es.

Pour acc�l�rer le processus de formation, LightGBM utiliser une segmentation bas�e sur l'histogramme � choisir le meilleur . Pour les variables continues, seront divis�s plut�t que toute utilisation des valeurs respectives de ces variables dans des bacs ou des barils. Un tel processus de formation plus rapide et r�duit les frais g�n�raux de m�moire.

4, syst�me de levage de classification (CatBoost)

Comme son nom l'indique, le traitement des donn�es CatBoost Dynamiser est en variables. La plupart des algorithmes d'apprentissage machine ne peut pas g�rer les cha�nes ou cat�gorie donn�es. Ainsi, la valeur variable nominale est convertie en une �tape importante est pr�traiter.

CatBoost variables qualitatives peuvent traiter en interne les donn�es. Statistiques sur les diff�rentes combinaisons de fonctionnalit�s, pour convertir ces variables � des variables num�riques.

Si vous voulez apprendre � les convertir en cat�gorie num�rique, lisez l'article suivant:

https://catboost.ai/docs/concepts/algorithm-main-stages_cat-to-numberic.html#algorithm-main-stages_cat-to-numberic)

Une autre raison CatBoost est largement utilis� est que cela fonctionne bien avec l'ensemble super par d�faut des param�tres. Par cons�quent, en tant qu'utilisateur, nous ne devons pas passer beaucoup de temps pour r�gler hyperparam'etre.

conclusion

Dans cet article, nous avons couvert les bases de l'apprentissage et l'�tude de quatre Dynamiser int�gr�. Nous sommes int�ress�s par l'apprentissage d'autres approche int�gr�e d'apprentissage? Vous devriez voir les articles suivants:

Apprentissage int�gr� guide complet (ci-joint code Python): https: //www.analyticsvidhya.com/blog/2018/06/comprehensive-guide-for-ensemble-models/ utm_source = Blog & utm_medium = 4-renforcement des algorithmes machine-learning?

Qui utilisez-vous d'autres Dynamiser? Vous utilisez ces Stimuler le succ�s de celui-ci? S'il vous pla�t partager vos pens�es et vos exp�riences avec nous dans les commentaires ci-dessous.

original:

https://www.analyticsvidhya.com/blog/2020/02/4-boosting-algorithms-machine-learning/

Route de la soie

Apprenez � conna�tre la Chine

Stimuler populaire concours d'apprentissage machine, un texte bien assez Publicize