KDD Cup 2018 champions de premier étage à manger latiao « : pourquoi ce nom de l'équipe? Parce que nous aimons tous feuillards à chaud

Mentionné Coupe KDD, je crois que les étudiants dans le domaine de l'extraction de données ne sont pas nouvelles. Comme le plus l'exploration de données influent, le plus haut niveau des compétitions internationales de haut, Coupe KDD a eu lieu 21 sessions, chaque année attire les meilleurs experts du monde dans les données industrie minière, les universitaires, les ingénieurs et les étudiants viennent jouer, par des étrangers grand champ de données « Jeux Olympiques. »

Coupe KDD Cette année, commencer par le problème de l'air, le comité d'organisation de fournir des données pertinentes Chine Pékin et Londres dans la course, les participants doivent prévoir les prochaines 48 heures, la concentration des PM2,5, PM10 et O3 (Londres ne doivent prévoir PM2,5 et P10). Au bout de 48 heures, les résultats seront soumis aux joueurs score des données météorologiques réelles.

Bien que la cette année, ont longtemps été annoncé l'équipe de championnat de la Coupe KDD 2018 a pris fin en Juin, mais le prix officiel de l'équipe gagnante dans le KDD juste conclu 2018.

Le tournoi a attiré « premier étage de l'équipe Global 4183, dont plus de 3000 écoles dans 49 pays ou institutions, l'Université de Beijing des Postes et Han Jindong, avant Zhang avant, Juan, Université centrale du Sud, Robin Li, Jiang Haoran composé de manger latiao « équipe a remporté la première place dans le tournoi. En tant que champion, « premier étage pour manger latiao « équipe a été invitée à participer à l'Assemblée générale, lors de la réunion ont présenté leurs solutions, mais aussi la première fois sur la grippe aviaire Technology Review Lei Feng partage réseau.

Pour voir le nom de l'équipe, je crois que nous serons curieux de cette équipe. Lorsque l'équipe, les anciens joueurs Zhang a fait de ce thème à manger avant le nom, et mettre tout le monde à l'unanimité. « Nous aimons bar nourriture épicée, un bar chaud est la cuisine traditionnelle de la nation chinoise, nous voulons d'abord, la cuisine chinoise sera répartie. »

Les membres composé comme suit:

  • Le capitaine Han Jindong, Maître de l'Université de Beijing des Postes en lecture, aime utiliser la modélisation mathématique pour résoudre les problèmes dans la vie réelle;

  • Ancien membre il y a Zhang, Université de Beijing des Postes lecture maître, de bonnes caractéristiques techniques et l'apprentissage en profondeur;

  • Juan joueurs, maître Université de Beijing des Postes en lecture, l'analyse des données et de l'intérêt de la visualisation des données;

  • Les joueurs Robin Li, étudiant en deuxième année, premier cycle Central South University en lecture, de bonnes caractéristiques d'ingénierie et d'intégration de modèles (fonctionnement Sao);

  • Les joueurs Jiang haoran, Central South University, maîtrise en lecture, bon l'analyse des données et des séries chronologiques.

Voici l'équipe pour apporter la solution:

Il y a trois défis majeurs:

  • Qualité de l'air change très rapidement, et il y a beaucoup de mutation ponctuelle;

  • Les contaminants se propagent vers la périphérie, ayant un dépendances spatiales complexes;

  • Qualité de l'air est influencée par de nombreux facteurs complexes, et nécessite donc une solide connaissance du domaine professionnel.

Pour utiliser les caractéristiques de base:

  • Qualité de l'air dans les dernières 72 heures

  • il y a météo Dernière heure

  • Prévisions météo pour 48 prochaines heures

  • En mai, le week-end, heures, vacances, ID du site

En plus des fonctions de base, nous avons aussi construit à partir du domaine temporel, spatial, la fréquence et l'expertise de domaine dans quatre domaines du syndrome respectivement, extrait un total de plus de 100 éléments qui sont des points clés de modèle de mention.

  • Caractéristiques du domaine temporel

Les prévisions météo données en temps prédits en utilisant les statistiques à proximité (différentes méthodes statistiques, les statistiques de prévision statistique peuvent avant le noeud de temps, peuvent également être considérés comme le noeud central pour prédire le temps) pour empêcher le changement soudain de temps.

Pour des problèmes de prévision à court terme, les changements passés dans le temps peuvent affecter la qualité de l'air dans les prochaines heures. Nous avons donc conçu fenêtre différente taille, utilisée pour extraire les caractéristiques statistiques du temps passé, ces caractéristiques améliorent la capacité de prévision à court terme du modèle.

Nous avons également constaté que les prévisions météo pour les prochaines 48 heures est un impact à long terme de prévision de la qualité de l'air un facteur clé et mutations prédire, nous avons donc conçu un grand nombre de caractéristiques grains fins des prévisions météorologiques pour l'avenir, et voir précisément la figure. Si le vert est quelque chose que nous voulons prédire le nud de temps, afin de décrire un moment avant que les changements prévus dans le temps et à proximité, nous utilisons une fenêtre coulissante pour extraire des informations statistiques et des statistiques prévisions météo prévisions météo à proximité avant le point de temps prévu. Grâce à ces fonctionnalités, d'améliorer la précision des prévisions à long terme.

De plus, afin de distinguer à prédire est le premier jour ou le lendemain, nous avons utilisé un drapeau dans lequel l'échelle de temps prévu de 0 à 47.

  • Dans lequel le domaine des fréquences

Afin d'obtenir des informations de série de temps et l'information cachée fluctuation périodique, la qualité de l'air, la température, l'humidité, la pression de l'air et d'autres séries temporelles de la transformée de Fourier, afin d'extraire les caractéristiques de domaine de fréquence.

  • fonctionnalité des espaces aériens

qualité de l'air avenir non seulement dans le passé sur la qualité de l'air, mais aussi par la qualité de l'air ambiant et la météo. Afin de modéliser la corrélation spatiale, nous nous sommes concentrés sur le passé qualité de l'air, la météo et les prévisions météorologiques futures ont été extraites caractérisent la corrélation spatiale. Nous essayons d'utiliser les données pour tous les sites de stations de surveillance de la qualité de l'air et du temps, cela augmentera la complexité du modèle, ce qui conduit à surajustement sévère. Donc, nous supposons que affectent seulement une partie du site serait nous voulons prédire le site, et utiliser des techniques pour réduire l'entrée fonction de l'espace tridimensionnel.

Pour le passé la qualité de l'air et le temps, nous, à son tour se divisent en deux catégories:

L'une est des caractéristiques non directionnelles, y compris la pression, la température et l'humidité. Pour extraire ces caractéristiques, nous avons utilisé deux rayons différents d'un cercle autour de l'emplacement prévu pour être divisé en deux régions, chaque région du cercle interne et une région annulaire externe, de manière particulièrement de division peut voir ci-dessous. Nous avons extrait la pression moyenne dans chaque région, la température et l'humidité.

Une autre caractéristique est la direction de la concentration en polluants de diffusion sont toutes les directions du vent. Pour modéliser l'impact de ce type de fonctionnalité qualité de l'air, nous positionnerons le site cible est divisé en huit directions, respectivement, examiner l'impact de huit régions différentes directions du site cible. Pour chaque région, la vitesse moyenne du vent et l'extraction de la concentration des contaminants. De plus, nous nous tournons en huit direction du vent discret, la direction du vent et chaque région est déterminée par le nombre de la congrégation. Si une suppression de la région de la concentration des contaminants, nous avons utilisé une méthode d'interpolation pour l'achèvement.

Ces deux catégories de caractéristiques que nous avons extraites uniquement les données avant la dernière prévision de l'heure, les prévisions à court terme pour ces caractéristiques ont joué un bon effet.

Les prévisions météo pour l'avenir, étant donné que la position de la grille indique les stations de contrôle qualité météorologique et de l'air ne correspond pas, nous avons donc utilisé une méthode pour extraire la météo k points du réseau voisin pour surveiller la qualité de l'air autour du site. Cela se fait à partir des sites de tests de qualité de l'air pour trouver les temps quatre points les plus proches de la grille, les points de grille à l'aide de ces caractéristiques caractérisent l'impact du climat futur sur la qualité de l'air, cette approche peut améliorer la précision des prévisions à long terme.

  • Caractéristiques de spécialisation

Maintenant documents relatifs météorologie et de la pollution de l'air, par les coordonnées uv vent, la durée d'ensoleillement, ainsi que d'autres aspects de la corrélation entre la différence d'humidité à des moments différents, comprend l'extraction des contaminants.

modèle

Étant donné que différents polluants ayant des distributions, et nécessitent donc le modèle séparément pour chaque polluant. Nous utilisons open source LightGBM, approche de modélisation spécifique de Microsoft se trouve dans le schéma suivant cette celui-ci:

De plus, nous avons analysé la distribution de chaque polluant à Beijing et à Londres, a constaté que la PM2,5 de Beijing et est la longue P10 queue de la distribution, il existe de nombreux cas de pollution grave, qui apportera le biais du modèle. La valeur de PM2,5 de Pékin et Londres O3, PM10 relativement étendue est pas si grande, moins aberrantes. Ainsi, lorsque nous nous entraînons le modèle pour les étiquettes de Beijing PM2,5 et PM10 faire transformation logarithmique, en utilisant une transformation exponentielle pour prédire le temps futur. Cette technique peut apporter plusieurs mille mise à niveau vers le modèle sous-bit.

Les éléments suivants sont plus de détails sur le jeu:

Il y a l'équipe de l'Université de Beijing des Postes et cinq membres de l'Université centrale du Sud, Division de la façon dont tout le monde dans le jeu?

Au début du jeu, nous le titre premier tournoi des difficultés techniques ont été analysées, a résumé quelques défis des problèmes de prévision de la qualité de l'air. Ensuite, pour chaque défi, nous avons une équipe séparée pour explorer, d'essayer des solutions à ce défi. Enfin, l'intégration complète de leurs programmes respectifs, intégré dans un modèle.

De plus, nous avons deux joueurs ont fait une étude pour explorer la profondeur du modèle, essayez d'utiliser de bout en modèle pour résoudre le problème de la qualité de l'air de prévision. Dans le jeu fin, notre rencontre modèle un problème, nous discutons des idées se complètent mutuellement, nous avons supprimé beaucoup de fonctionnalités redondantes dans les travaux de fond, et l'extrait beaucoup de nouvelles fonctionnalités, ce qui rend notre modèle dans les dernières jours, il a été considérablement améliorée.

Trois difficultés du jeu sont la qualité de l'air de mutation rapide, les dépendances spatiales polluants complexes nécessitent domaine très spécialisé de la connaissance, pour ces trois défis, à savoir comment traiter?

Le jeu KDD CUP a trois défis, nous sommes principalement des caractéristiques de l'ingénierie point de vue, pour relever ces défis.

  • Le premier défi consiste à des changements de qualité de l'air très rapidement, et il y a beaucoup de mutations ponctuelles, nous avons analysé le travail de qualité de l'air dans beaucoup de séries chronologiques, de comprendre son facteur d'impact. En réponse à ce défi, nous partons du point de vue du traitement du signal, la transformée de Fourier dans le domaine temporel au domaine de fréquence, et un meilleur cycle d'extraction et les informations de fluctuation de la série temporelle. De plus, nous avons également des fonctionnalités conçues statistiques météorologiques plus granulaires pour caractériser les changements dans le temps.

  • Le deuxième problème est la contamination par des dépendances spatiales complexes, par exemple, en cas de fort vent soufflant de la région périphérique des zones fortement polluées, la qualité de l'air ambiant se détériorer. Mais si toutes les stations comme une caractéristique des données, il causera surajustement sévère. Par conséquent, nous supposons que seule une partie des stations adjacentes aura une incidence sur nos stations de surveillance à prévoir, et fonctionnalités liées aux conditions météorologiques et non liés à la direction et de l'orientation, nous utilisons la dimension A des techniques Réduction des dimensions pour réduire les intrants pour éviter surajustement co.

  • Le troisième défi rencontré dans le jeu est de prédire la qualité de l'air nécessite une forte expertise de domaine, la qualité de l'air est affectée par de nombreux facteurs complexes, combinée à l'expertise nécessaire pour modèle. Pendant le jeu, les membres de l'équipe lisent beaucoup associée à la météorologie de la pollution de l'air et de la littérature, de construire un grand nombre de fonctionnalités liées à la connaissance du domaine de ce modèle pour apporter une amélioration significative.

modèle Vous GBRT adopté dans la course, avait essayé d'autres modèles l'ont?

Nous avons également essayé la modélisation seq suivants des séries chronologiques, et la relation entre l'utilisation de la figure topologie du réseau de modélisation de convolution du réseau, parce que les ensembles de données de problème, l'effet de ligne n'est pas stable, donc ensuite soumis uniquement en ligne GBRT modèle unique .

PPT Résumé de votre accent sur les caractéristiques, dans cette compétition, caractérisé par la proportion représentait combien? La compétition, qui dispose en termes d'expérience à partager?

L'ingénierie est un élément clé de cette compétition, nous avons gagné le championnat, la concurrence en termes de structure et de données de l'ensemble de formation de pré-traitement, nous sommes très bien la même chose. Nous avons fait fonction un certain nombre de travaux d'ingénierie innovante pour extraire une partie de nos caractéristiques uniques, si tôt dans le jeu sur la mise en place d'un avantage.

  • Expérience avec des fonctions d'ingénierie, la première caractéristique d'avoir interprétabilité, caractéristiques extraites de chaque groupe est bien fondé.

  • D'autre part les caractéristiques à regrouper, non pas à cause de l'effet de lever ou abaisser la suppression aléatoire d'une caractéristique, le processus de regroupement de fonction peut être plus efficace.

  • La dernière fonctionnalité en conjonction avec le terrain, grâce à quelques bonnes caractéristiques et les secteurs d'activité se combinent pour produire peuvent être extraites et d'autres ne le font pas comme à disposer d'un examen des documents ou des informations.

Le KDD vous de découvrir comment? Qu'ai-je appris à participer à l'Assemblée générale?

KDD est l'aspect haut de la conférence de l'exploration de données et l'exploration de données KDD Cup peut dire que la concurrence dans la couronne, peut enlever la couronne, des moyens pour nous est extraordinaire. Notre équipe a également obtenu l'âge minimum dans l'histoire de ce participants du championnat, tandis que lors d'une réunion, savent petits amis sont essentiellement en mesure d'envoyer des documents Daniel sur KDD, ils sont très forte résistance de la recherche scientifique, bien sûr plus là-bas les titres, Ali, Jingdong, Tencent et d'autres fabricants dans le domaine, capables de communiquer directement avec les chefs de département / vice-président, est une très bonne chose, d'élargir nos horizons et d'idées.

À l'heure actuelle, les solutions PPT ont également été rendues publiques sur GitHub.

Adresse: https://github.com/luoda888/2018-KDD-Cup-Top1-Solutions

(Fin)

Lei Feng Lei Feng net net

valeur Yen que l'iPhone X devrait se retirer! iPhone SE2 Exposition: Plein écran trop hyun
Précédent
Scissor portes, portes papillon comptent le cul! porte Shutter-vous vu?
Prochain
processus luxueux de teinture bleu du Japon, cette nouvelle Nike Air Force 1 Low conception puissant soutien!
Ning Hao, Huang Bo, retour Shen Teng à la série "crazy"! Brutalement enlevé par des extraterrestres, chaque minute rire cri
intérieur T5 que la vitesse avec la clé d'exposition nouvelle 7 SUV
Par rapport à l'iPhone X, Pourquoi Face Unlock Android si la nourriture?
Mettez un corps, nous savons que le vieux monde! Comment ce produit unique à l'ancienne et le feu! L'été est sur la ligne
Lei Jun a annoncé un haut profil: troisième 3 mil caméra frontale MIX du monde! Super Friends de
Chongqing Ming singe! Une surprise volonté culbute vibrato Shall Nous aimons hot pot
informations sur les rapports Nissan Kicks est attendu sur le marché au cours de l'année
La Chine a un rappeur hip-hop qui, positif qu'une petite amie!
Roi de gloire par la route de Dieu, c'est Yang Jian!
Les nouveaux modèles Porsche Panamera chiffre officiel sera dévoilé à Genève
ligne Tokyo jusqu'à un semaine acheter Goro de, mais neuf couverts, remplir mon coeur brisé