Kaggle CTO fortement recommand�: concours d'apprentissage de la machine pour voir les tendances � partir des donn�es historiques Kaggle

Ji-won nouvelle recommandation

Source: Le Chi (ID: jqr_AI)

Auteur: Shivam Bansal

Compile: Bot

[Introduction de nouveaux Zhi Yuan Kaggle] est la plus grande comp�tition de plate-forme d'analyse de mod�lisation et de donn�es de donn�es au monde, mais il est aussi le meilleur stade niveau personnel. Maintenant, avec l'am�lioration de la demande sociale pour l'apprentissage de la machine, le talent, le Kaggle se brosser sur le dessus de 5%, 10% des candidats est devenue une cible fixe. Compte tenu de la popularit� et l'autorit� de Kaggle, au fil des ans, les donn�es de la plate-forme devraient �tre en mesure de refl�ter le d�veloppement de l'ensemble du champ de la piste des donn�es scientifiques.

Au fil des ans, bon nombre des tendances dans le domaine des donn�es scientifiques ont chang�. Kaggle, la plus importante communaut� des donn�es scientifiques et les plus populaires du monde, un record de l'�volution de l'�tat de ces changements. Cet article utilise Kaggle Meta Les donn�es analys�es une par une, jetez un oeil � ces ann�es, nos donn�es scientifiques ce qui a chang�?

La r�gression lin�aire et une r�gression logistique

La r�gression logistique est une r�gression lin�aire et l'apprentissage automatique base tr�s fr�quente de la comparaison du contenu, dans lequel la premi�re pr�diction de valeur peut �tre effectu�e en continu, qui peut �tre utilis� pour r�soudre des probl�mes de classification. Nous commen�ons donc avec eux a commenc�, en fonction du nombre de messages du forum comparaison des tendances de la chaleur Kaggle de ces deux algorithmes.

Bleu: r�gression lin�aire, orange: r�gression logistique

Comme on le voit, la ligne orange la plupart du temps sur la ligne bleue, les utilisateurs de ces ann�es semblent avoir �t� plus comme le tableau ci-dessus dans le chat r�gression logistique. Le point de vue macro, la tendance des deux algorithmes sont presque constante, plus le degr� de co�ncidence de pointe, bien que des hauts et des bas, mais il y a �videntes huit ans, ils tendance g�n�rale � la hausse.

Alors, quelle r�gression logistique raison populaire? Une indication que la classification des Kaggle bien plus que le retour sur la question, qui est un repr�sentant de ces ann�es, le plus populaire du concours de pr�diction de survie Titanic. Ceci est l'un des plus Kaggle historique � longue histoire � du concours, les utilisateurs naturellement des discussions tr�s intenses. Le plus populaire est la r�gression de pr�dire les prix, mais les gens consid�rent g�n�ralement la question apr�s l'ach�vement du Titanic.

En Octobre 2017 et Mars 2018, une augmentation substantielle du montant de la discussion forum Kaggle sur la r�gression logistique. � cet �gard, une explication possible est que la nouvelle race est apparue sur la plate-forme - commentaires malveillants Cat�gories. Certaines �quipes partagent beaucoup de temps et le mod�le de la cat�gorie de l'exp�rience de haute qualit�, y compris la r�gression logistique.

Dominance de XgBoost

Bleu: arbre de d�cision, orange: les for�ts au hasard, vert, rouge: XgBoost: LightGBM, Violet: CatBoost

En 2014, le mod�le lin�aire, la quantit� de discussion al�atoire et les for�ts d'arbres de d�cision, tandis que les petites, mais ils prennent le droit absolu de parler. En 2014, lorsque le Dr Chen Tianqi open source XgBoost Universit� algorithme de Washington, recherch� par le grand public, il est rapidement devenu des habitu�s de la comp�tition Kaggle. Aujourd'hui, XgBoost dans l'utilisation de la course est encore �lev�, la performance est �galement tr�s bon, beaucoup de programmes gagnants a sa pr�sence.

Toutefois, en fonction de la courbe, nous pouvons constater que, depuis 2016 LightGBM �t� propos�, discut� montant XgBoost d'un certain degr� de d�clin, alors que LightGBM est all� tout le chemin. Il est pr�vu que les cercles open source avant meilleur mod�le, cet algorithme domineront dans les ann�es � venir. Maintenant LightGBM est �galement apparu dans un certain nombre de comp�titions, telles que la pr�vision Porto Seguro de la s�curit� routi�re, il a l'avantage sur XgBoost obtenir plus rapide et plus facile.

En plus de ces algorithmes, le chiffre � plus jeune � de CatBoost aussi tendance populaire.

Les r�seaux de neurones et tendance apprentissage en profondeur

Bleu: r�seau de neurones, orange: l'apprentissage en profondeur

Pendant des d�cennies, le r�seau de neurones a �t� ti�de dans le milieu universitaire et l'industrie, mais comme indiqu� ci-dessus, avec une apparence nettement am�lior�e de grands ensembles de donn�es et de calculer la force d'un ordinateur, au cours des derni�res ann�es, la tendance a chang�.

Depuis 2014, nous avons marqu� le d�but d'une Th�ano, tensorflow, keras, quant � lui, a appel� l'�re de l'apprentissage profond est apparu progressivement dans le champ de vision du monde. Sur Kaggle, le nombre de postes li�s � l'apprentissage en profondeur des utilisateurs publi�s par la mont�e et finira par d�passer le r�seau de neurones. En outre, comme Amazon, Google et d'autres fournisseurs de services cloud adoptent eux aussi une nouvelle technologie, avec une attitude plus positive capacit� d�montr�e � former la profondeur du r�seau de neurones dans le nuage.

mod�le d'apprentissage en profondeur est la star de la concurrence Kaggle, maintenant il est apparu dans la classification de l'image, la concurrence cat�gorisation de textes, tels que Data Science Bowl, Quora r�p�ter la classification question. Et avec l'am�lioration continue de RNN, CNN, la tendance semble avoir une �tude approfondie �crasante. De plus, certaines tentatives ont �t� confirm�es, le mod�le d'apprentissage et de formation pr�-transfert au concours peut �tre exceptionnel.

Cette technologie permet aux gens de voir les possibilit�s. Pour permettre aux utilisateurs d'en apprendre davantage connaissance de la pratique, Kaggle peut introduire plus de classement d'images et de mod�lisation li�s au jeu, mais la situation actuelle, limiter d�sormais aux utilisateurs de l'utilisation � grande �chelle de l'apprentissage en profondeur est qu'il est consid�r� comme exigences de force. Mais ce probl�me peut �tre r�solu. le soutien GPU Kaggle a �t� ajout� � l'avenir, nous pensons que les utilisateurs vont essayer d'en savoir plus et plus en profondeur.

Populaire sur l'outil d'apprentissage automatique Kaggle

Bleu: Scikit, orange: tensorflow, vert: Keras; rouge: Pytorch

En 2015, si un des scientifiques de donn�es veulent construire un mod�le d'apprentissage machine, Scikit En savoir est la seule chose qu'il peut choisir la biblioth�que, apr�s 2015, la situation a chang�, dans le cadre de l'�cologie ML, Google biblioth�que de logiciels open-source tensorflow, et laissez il dans le monde entier en croissance rapide de la popularit�.

Tensorflow mais il y a aussi des inconv�nients, il est plus difficile � �tudier, si bien que l'utilisateur beaucoup, mais dans ce concours plateforme Kaggle, la plupart des utilisateurs ont tendance � choisir plus souple, plus simple Keras. Apr�s tout, en substance, API Keras peut �tre consid�r� comme un paquet apr�s la tensorflow.

XgBoost vs Keras

Bleu: XgBoost, Orange Keras

Depuis Keras est cadre d'apprentissage profond, nous pouvons le voir en tant que repr�sentant indirect des r�seaux de neurones profonds.

XgBoost et la profondeur de l'apprentissage qui est le meilleur? Ceci est une question sur Quora furieusement jours de l'ann�e derni�re. A partir des donn�es Kaggle de vue, le premier a une position de leader, qui se bat aussi pour rattraper son retard. Par rapport complexe, r�seau de neurones multi-couches, l'avantage XgBoost est plus rapide, plus bas les exigences mat�rielles, et donc plus soumis aux utilisateurs ordinaires.

Mais les r�sultats ne sont pas repr�sentatifs des avantages et des inconv�nients, prendre le Dr Chen Tianqi propres mots, il est:

Diff�rents mod�les d'apprentissage automatique pour diff�rents types de t�ches. DNN position temporelle de la mod�lisation peut �tre bien saisie d'image, de la voix, du texte, des donn�es de grande dimension. Le mod�le est bas� sur un arbre XGBoost poign�e et les donn�es de table, a �galement un certain nombre de caract�ristiques qui ne sont pas en profondeur des r�seaux de neurones (par exemple: le mod�le d'interpr�tation invariance des donn�es d'entr�e, et d'autres param�tres de r�glage plus facile).

Les outils de visualisation de la concurrence

Bleu: Matplotlib, orange: Seaborn, vert: Plotly

Depuis 2017, Plotly juste b�e, comme la fa�on populaire, il est devenu le plus utilisateur commun des outils de visualisation Kaggle. La deuxi�me est Seaborn, il est en fait un ensemble d'API plus avanc� Matplotlib sur la base de la carte r�sultant semble meilleure, mais comme un suppl�ment, Matplotlib figure plus de fonctionnalit�s.

processus de donn�es scientifiques les �tapes de la concurrence

Bleu: Exploration; orange: dans laquelle l'ing�nierie; vert: planification; rouge: int�gr�

Dans la figure ci-dessus, le plus pr�occupant est l'utilisateur mod�le Kaggle d'int�gration. Lorsque le concours, bien que la soumission finale est un mod�le, mais les participants d'abord la formation de plusieurs mod�les faibles, la derni�re approche et int�gr�e pour int�grer la pile. Cette r�gression de la pratique et les t�ches de classification est tr�s courante.

Pour ce qui est de la m�me exploration de grande envergure, r�cemment, de nombreux scientifiques ont des donn�es maintes et maintes fois soulign� l'importance de l'analyse exploratoire des donn�es (EDA), et leur appel a jou� un effet. Si nous ne pouvons pas garantir la fiabilit� des donn�es, le mod�le final est susceptible de se tromper.

Mais ce r�sultat, certaines personnes peuvent �tre surpris. Parce que si vous voulez obtenir un bon classement dans la comp�tition, l'ajustement des param�tres et affiner le mod�le est certes indispensable, mais les deux fois, � grand � classement n'est pas une forte consommation d'�nergie. Nous devons donc garder � l'esprit, bien que l'int�gration est la derni�re �tape dans le processus de mod�lisation, mais nous devons mettre en un temps assez long sur les caract�ristiques de l'ajustement du projet et le mod�le.

Le plus parl� de sous-plateforme

Bleu: ensemble de donn�es; orange: noyau, vert: concurrence, Rouge: En savoir

Comme il est une plate-forme de concours scientifique des donn�es Kaggle, les utilisateurs de contenu de participer � la discussion de ce que la concurrence est naturelle, ce qui avec l'ensemble de donn�es, et de partager des codes pratiques pour voir. Selon la courbe sur le graphique, depuis le lancement 2016 de la popularit� de code du noyau mont� en fl�che, apr�s tout, les utilisateurs peuvent voir le code mod�le autres concurrents volontairement d�crit ci-dessus, ceci est pour l'apprentissage et l'�change rare ressources de qualit�.

De plus, Kaggle a �galement lanc� un sous-plateforme Kaggle savoir, mais pas comme un ensemble de donn�es programme, le noyau et le degr� de concurrence dans la discussion, mais le cours est con�u pour les d�butants. L'avenir, avec le contenu des cours riches et augmenter le nombre de novices, ce secteur populaire � port�e de main.

Adresse originale:

www.kaggle.com/shivamb/data-science-trends-on-kaggle

Cet article est reproduit � partir du nombre de micro-canal public sur le chilien autoris� (ID: jqr_AI)

New Ji-won AI MONDE 2018 Assembl�e de billets Early Bird []

En solde!

New Ji-won aura lieu le 20 Septembre AI Conf�rence mondiale des 2018 � Beijing National Convention Center, a invit� l'apprentissage machine parrain, en mettant l'accent sur le professeur de l'intelligence artificielle � la CMU Tom Mitchell, Maike Mark Si-Tiger, Zhou Zhihua, un grand Cheng Tao, Chen Yiran AI et d'autres dirigeants et le destin de l'humanit�.

Le site officiel de l'Assembl�e g�n�rale:

Maintenant jusqu'au 19 Ao�t New Ji-won nombre limit� de billets Early Bird � la vente, la communication �troite avec le leader mondial de l'IA, l'intelligence artificielle, t�moin de l'industrie mondiale � pas de g�ant.

Billets de ligne active lien:
billet de ligne active de code � deux dimensions:

Route de la soie

Apprenez � conna�tre la Chine

Kaggle CTO fortement recommand�: concours d'apprentissage de la machine pour voir les tendances � partir des donn�es historiques Kaggle