Kaggle CTO fortement recommandé: concours d'apprentissage de la machine pour voir les tendances à partir des données historiques Kaggle

Ji-won nouvelle recommandation

Source: Le Chi (ID: jqr_AI)

Auteur: Shivam Bansal

Compile: Bot

[Introduction de nouveaux Zhi Yuan Kaggle] est la plus grande compétition de plate-forme d'analyse de modélisation et de données de données au monde, mais il est aussi le meilleur stade niveau personnel. Maintenant, avec l'amélioration de la demande sociale pour l'apprentissage de la machine, le talent, le Kaggle se brosser sur le dessus de 5%, 10% des candidats est devenue une cible fixe. Compte tenu de la popularité et l'autorité de Kaggle, au fil des ans, les données de la plate-forme devraient être en mesure de refléter le développement de l'ensemble du champ de la piste des données scientifiques.

Au fil des ans, bon nombre des tendances dans le domaine des données scientifiques ont changé. Kaggle, la plus importante communauté des données scientifiques et les plus populaires du monde, un record de l'évolution de l'état de ces changements. Cet article utilise Kaggle Meta Les données analysées une par une, jetez un oeil à ces années, nos données scientifiques ce qui a changé?

La régression linéaire et une régression logistique

La régression logistique est une régression linéaire et l'apprentissage automatique base très fréquente de la comparaison du contenu, dans lequel la première prédiction de valeur peut être effectuée en continu, qui peut être utilisé pour résoudre des problèmes de classification. Nous commençons donc avec eux a commencé, en fonction du nombre de messages du forum comparaison des tendances de la chaleur Kaggle de ces deux algorithmes.

Bleu: régression linéaire, orange: régression logistique

Comme on le voit, la ligne orange la plupart du temps sur la ligne bleue, les utilisateurs de ces années semblent avoir été plus comme le tableau ci-dessus dans le chat régression logistique. Le point de vue macro, la tendance des deux algorithmes sont presque constante, plus le degré de coïncidence de pointe, bien que des hauts et des bas, mais il y a évidentes huit ans, ils tendance générale à la hausse.

Alors, quelle régression logistique raison populaire? Une indication que la classification des Kaggle bien plus que le retour sur la question, qui est un représentant de ces années, le plus populaire du concours de prédiction de survie Titanic. Ceci est l'un des plus Kaggle historique « longue histoire » du concours, les utilisateurs naturellement des discussions très intenses. Le plus populaire est la régression de prédire les prix, mais les gens considèrent généralement la question après l'achèvement du Titanic.

En Octobre 2017 et Mars 2018, une augmentation substantielle du montant de la discussion forum Kaggle sur la régression logistique. À cet égard, une explication possible est que la nouvelle race est apparue sur la plate-forme - commentaires malveillants Catégories. Certaines équipes partagent beaucoup de temps et le modèle de la catégorie de l'expérience de haute qualité, y compris la régression logistique.

Dominance de XgBoost

Bleu: arbre de décision, orange: les forêts au hasard, vert, rouge: XgBoost: LightGBM, Violet: CatBoost

En 2014, le modèle linéaire, la quantité de discussion aléatoire et les forêts d'arbres de décision, tandis que les petites, mais ils prennent le droit absolu de parler. En 2014, lorsque le Dr Chen Tianqi open source XgBoost Université algorithme de Washington, recherché par le grand public, il est rapidement devenu des habitués de la compétition Kaggle. Aujourd'hui, XgBoost dans l'utilisation de la course est encore élevé, la performance est également très bon, beaucoup de programmes gagnants a sa présence.

Toutefois, en fonction de la courbe, nous pouvons constater que, depuis 2016 LightGBM été proposé, discuté montant XgBoost d'un certain degré de déclin, alors que LightGBM est allé tout le chemin. Il est prévu que les cercles open source avant meilleur modèle, cet algorithme domineront dans les années à venir. Maintenant LightGBM est également apparu dans un certain nombre de compétitions, telles que la prévision Porto Seguro de la sécurité routière, il a l'avantage sur XgBoost obtenir plus rapide et plus facile.

En plus de ces algorithmes, le chiffre « plus jeune » de CatBoost aussi tendance populaire.

Les réseaux de neurones et tendance apprentissage en profondeur

Bleu: réseau de neurones, orange: l'apprentissage en profondeur

Pendant des décennies, le réseau de neurones a été tiède dans le milieu universitaire et l'industrie, mais comme indiqué ci-dessus, avec une apparence nettement améliorée de grands ensembles de données et de calculer la force d'un ordinateur, au cours des dernières années, la tendance a changé.

Depuis 2014, nous avons marqué le début d'une Théano, tensorflow, keras, quant à lui, a appelé l'ère de l'apprentissage profond est apparu progressivement dans le champ de vision du monde. Sur Kaggle, le nombre de postes liés à l'apprentissage en profondeur des utilisateurs publiés par la montée et finira par dépasser le réseau de neurones. En outre, comme Amazon, Google et d'autres fournisseurs de services cloud adoptent eux aussi une nouvelle technologie, avec une attitude plus positive capacité démontrée à former la profondeur du réseau de neurones dans le nuage.

modèle d'apprentissage en profondeur est la star de la concurrence Kaggle, maintenant il est apparu dans la classification de l'image, la concurrence catégorisation de textes, tels que Data Science Bowl, Quora répéter la classification question. Et avec l'amélioration continue de RNN, CNN, la tendance semble avoir une étude approfondie écrasante. De plus, certaines tentatives ont été confirmées, le modèle d'apprentissage et de formation pré-transfert au concours peut être exceptionnel.

Cette technologie permet aux gens de voir les possibilités. Pour permettre aux utilisateurs d'en apprendre davantage connaissance de la pratique, Kaggle peut introduire plus de classement d'images et de modélisation liés au jeu, mais la situation actuelle, limiter désormais aux utilisateurs de l'utilisation à grande échelle de l'apprentissage en profondeur est qu'il est considéré comme exigences de force. Mais ce problème peut être résolu. le soutien GPU Kaggle a été ajouté à l'avenir, nous pensons que les utilisateurs vont essayer d'en savoir plus et plus en profondeur.

Populaire sur l'outil d'apprentissage automatique Kaggle

Bleu: Scikit, orange: tensorflow, vert: Keras; rouge: Pytorch

En 2015, si un des scientifiques de données veulent construire un modèle d'apprentissage machine, Scikit En savoir est la seule chose qu'il peut choisir la bibliothèque, après 2015, la situation a changé, dans le cadre de l'écologie ML, Google bibliothèque de logiciels open-source tensorflow, et laissez il dans le monde entier en croissance rapide de la popularité.

Tensorflow mais il y a aussi des inconvénients, il est plus difficile à étudier, si bien que l'utilisateur beaucoup, mais dans ce concours plateforme Kaggle, la plupart des utilisateurs ont tendance à choisir plus souple, plus simple Keras. Après tout, en substance, API Keras peut être considéré comme un paquet après la tensorflow.

XgBoost vs Keras

Bleu: XgBoost, Orange Keras

Depuis Keras est cadre d'apprentissage profond, nous pouvons le voir en tant que représentant indirect des réseaux de neurones profonds.

XgBoost et la profondeur de l'apprentissage qui est le meilleur? Ceci est une question sur Quora furieusement jours de l'année dernière. A partir des données Kaggle de vue, le premier a une position de leader, qui se bat aussi pour rattraper son retard. Par rapport complexe, réseau de neurones multi-couches, l'avantage XgBoost est plus rapide, plus bas les exigences matérielles, et donc plus soumis aux utilisateurs ordinaires.

Mais les résultats ne sont pas représentatifs des avantages et des inconvénients, prendre le Dr Chen Tianqi propres mots, il est:

Différents modèles d'apprentissage automatique pour différents types de tâches. DNN position temporelle de la modélisation peut être bien saisie d'image, de la voix, du texte, des données de grande dimension. Le modèle est basé sur un arbre XGBoost poignée et les données de table, a également un certain nombre de caractéristiques qui ne sont pas en profondeur des réseaux de neurones (par exemple: le modèle d'interprétation invariance des données d'entrée, et d'autres paramètres de réglage plus facile).

Les outils de visualisation de la concurrence

Bleu: Matplotlib, orange: Seaborn, vert: Plotly

Depuis 2017, Plotly juste bée, comme la façon populaire, il est devenu le plus utilisateur commun des outils de visualisation Kaggle. La deuxième est Seaborn, il est en fait un ensemble d'API plus avancé Matplotlib sur la base de la carte résultant semble meilleure, mais comme un supplément, Matplotlib figure plus de fonctionnalités.

processus de données scientifiques les étapes de la concurrence

Bleu: Exploration; orange: dans laquelle l'ingénierie; vert: planification; rouge: intégré

Dans la figure ci-dessus, le plus préoccupant est l'utilisateur modèle Kaggle d'intégration. Lorsque le concours, bien que la soumission finale est un modèle, mais les participants d'abord la formation de plusieurs modèles faibles, la dernière approche et intégrée pour intégrer la pile. Cette régression de la pratique et les tâches de classification est très courante.

Pour ce qui est de la même exploration de grande envergure, récemment, de nombreux scientifiques ont des données maintes et maintes fois souligné l'importance de l'analyse exploratoire des données (EDA), et leur appel a joué un effet. Si nous ne pouvons pas garantir la fiabilité des données, le modèle final est susceptible de se tromper.

Mais ce résultat, certaines personnes peuvent être surpris. Parce que si vous voulez obtenir un bon classement dans la compétition, l'ajustement des paramètres et affiner le modèle est certes indispensable, mais les deux fois, « grand » classement n'est pas une forte consommation d'énergie. Nous devons donc garder à l'esprit, bien que l'intégration est la dernière étape dans le processus de modélisation, mais nous devons mettre en un temps assez long sur les caractéristiques de l'ajustement du projet et le modèle.

Le plus parlé de sous-plateforme

Bleu: ensemble de données; orange: noyau, vert: concurrence, Rouge: En savoir

Comme il est une plate-forme de concours scientifique des données Kaggle, les utilisateurs de contenu de participer à la discussion de ce que la concurrence est naturelle, ce qui avec l'ensemble de données, et de partager des codes pratiques pour voir. Selon la courbe sur le graphique, depuis le lancement 2016 de la popularité de code du noyau monté en flèche, après tout, les utilisateurs peuvent voir le code modèle autres concurrents volontairement décrit ci-dessus, ceci est pour l'apprentissage et l'échange rare ressources de qualité.

De plus, Kaggle a également lancé un sous-plateforme Kaggle savoir, mais pas comme un ensemble de données programme, le noyau et le degré de concurrence dans la discussion, mais le cours est conçu pour les débutants. L'avenir, avec le contenu des cours riches et augmenter le nombre de novices, ce secteur populaire à portée de main.

Adresse originale:

www.kaggle.com/shivamb/data-science-trends-on-kaggle

Cet article est reproduit à partir du nombre de micro-canal public sur le chilien autorisé (ID: jqr_AI)

New Ji-won AI MONDE 2018 Assemblée de billets Early Bird []

En solde!

New Ji-won aura lieu le 20 Septembre AI Conférence mondiale des 2018 à Beijing National Convention Center, a invité l'apprentissage machine parrain, en mettant l'accent sur le professeur de l'intelligence artificielle à la CMU Tom Mitchell, Maike Mark Si-Tiger, Zhou Zhihua, un grand Cheng Tao, Chen Yiran AI et d'autres dirigeants et le destin de l'humanité.

Le site officiel de l'Assemblée générale:

Maintenant jusqu'au 19 Août New Ji-won nombre limité de billets Early Bird à la vente, la communication étroite avec le leader mondial de l'IA, l'intelligence artificielle, témoin de l'industrie mondiale à pas de géant.

  • Billets de ligne active lien:

  • billet de ligne active de code à deux dimensions:

voiture frustrés mai: les autres ont leur arrière-plan, alors que vous ne dos
Précédent
Ne pas aller à cet hôtel quelques Muji, vous auriez envie de ne pas rentrer à la maison!
Prochain
Quatre images révèlent la position défensive nationale de football + défensif drôle d'air, la défaite est pas l'attitude si étrange!
Google chef d'uvre: automatique améliorée rétropropagation algorithme, la vitesse du train, puis mettre à jour!
Naissance à une fille, femme femme femme aussi heureuse qu'elle!
"Machine apprendre à voir nue" Google, Microsoft, Amazon, image forte qui capacité API Kam Wong?
Voir aussi sourire, Tin biens volés et la rivière la police à résoudre le cas!
spree Speed Tour route F1-- Mercedes SLR 722S
Liao Yue analyse de la force de la guerre: Guangdong profondeur de l'équipe, mais moins de deux dominante, Yi Jianlian est des risques physiques
Plus d'une douzaine d'hôpitaux de fausses couches diagnose justice, des milliards de dollars en mauvaise affaire, IBM Watson peut guérir?
Les propriétaires accordent une attention! Plus de 190000 véhicules ont été rappelés! Elle implique un certain nombre de marques! Y at-il dans votre maison
VV7 bonne voiture, doivent être détruits dans les mains publiques sur le dessus de l'apparition du cancer?
quatrième plus grand hôtel de luxe au monde, la limite de la pauvreté de mon imagination
« Colombe » auto-développé simulation haute chinoise des véhicules aériens sans pilote, 90% imitation précise des oiseaux volant l'action!