Kaggle Interview du championnat Amazon: traiter le probl�me en utilisant la pertinence des �tiquettes de classification

Lei Feng r�seau AI Technology Review, r�cemment, Kaggle publi� sur le blog de � Plan�te: Comprendre l'Amazone de l'espace � entretien du concours, lors de la visite, nous avons appris un certain champion de l'information de base bestfitting il a utilis� dans le jeu quelques d�tails techniques, ainsi que des conseils � tout le monde. Lei Feng r�seau AI Technology Review compilera l'entrevue originale se r�sument comme suit:

Dans le r�cemment tenu une � Plan�te: Comprendre l'Amazone de l'espace � comp�tition, les organisateurs plan�te afin de mieux suivre et comprendre les causes de la d�forestation, veut laisser les joueurs sur l'�tiquette Kaggle leurs images satellite du bassin amazonien .

Les organisateurs offrent une formation de plus de 40.000 feuilles d'images, chaque image sont couverts par plusieurs �tiquettes, �tiquettes g�n�ralement divis�s en groupes suivants:

Conditions atmosph�riques: ensoleill�, partiellement nuageux, nuageux, la formation de bu�e

Usage g�n�ral et types de couverture des terres: les for�ts, l'agriculture, rivi�res, villes / villes, routes, terres agricoles, D�nud�

Couverture du sol et un type rare d'utilisation: coupe et br�l�, l'exploitation s�lective, la culture, l'extraction conventionnelle, la main d'extraction, soufflage d�truits.

R�cemment, nous avons parl� au champion du tournoi bestfitting, dans l'interview, il d�crit en d�tail comment il int�gre 11 affiner le r�seau et comment utiliser la structure de corr�lation de convolution d'�tiquettes pour nous. En outre, il a �galement parl� de afin d'�viter certaines des id�es de surajustement.

Informations de base

Sous vous pouvez parler de participer � l'exp�rience professionnelle avant le match?

Je me suis sp�cialis� dans l'informatique, il a plus de dix ans d'exp�rience en programmation Java, travaille actuellement dans le sens du traitement des donn�es � grande �chelle, l'apprentissage de la machine et l'apprentissage en profondeur.

Dans ce jeu, vous utilisez ce que l'exp�rience et de l'expertise avant d'?

Cette ann�e, j'ai particip� � beaucoup de jeux sur l'�tude approfondie sur Kaggle, obtenir dans le jeu que j'ai b�n�fici� de l'exp�rience et de l'intuition.

Vous commencez � participer au jeu Kaggle est l'occasion bas� sur quoi?

� partir de 2010, je regardais beaucoup sur l'apprentissage de la machine, l'apprentissage en profondeur des livres et des documents, mais il me est difficile de d'apprendre l'algorithme est appliqu� � ces petites donn�es disponibles mis. En m�me temps, j'ai trouv� beaucoup de jeu de donn�es int�ressantes, noyau et une bonne discussion sur Kaggle, par cons�quent, l'ann�e derni�re, je ne peux pas attendre pour participer au jeu � Pr�dire Red Hat Business Value � sur Kaggle.

Quelles sont les raisons de participer � ce jeu est?

Il y a deux raisons.

Tout d'abord, je suis tr�s int�ress� par la conservation, je pense que si propre exp�rience et la vie de rendre les gens meilleurs de la Terre, c'est cool. En outre, la for�t amazonienne est souvent dans le film et l'histoire est apparue, j'�tais tr�s int�ress�.

De plus, j'ai particip� � divers concours sur l'�tude approfondie sur Kaggle, le jeu utilise les algorithmes de segmentation et de d�tection, cette fois, j'esp�re participer au match de classement, essayer des choses diff�rentes.

discussions techniques

Pouvez-vous nous dire quelques mots sur le plan?

C'est un jeu de classification multi-�tiquette et l'�tiquette est d�s�quilibr�e.

Le jeu est tr�s comp�titif, parce que les deux derni�res ann�es a �t� beaucoup plus grande utilisation de l'algorithme de classification d'images, et il y a eu beaucoup de nouveaux algorithmes, en plus, il y a beaucoup d'une grande exp�rience visuelle dans les lecteurs informatiques.

J'ai essay� une vari�t� de je pense qu'il pourrait �tre populaire avec l'algorithme de classification, sur la base d'une analyse minutieuse de la relation entre l'�tiquette et la capacit� du mod�le, je construit une approche int�gr�e et remport� la premi�re place dans la comp�tition.

Ce qui suit est une structure de mod�le:

Tout d'abord, pr�traiter l'ensemble de donn�es (en changeant la taille de l'image, d�sembuage) et utiliser des techniques d'am�lioration des donn�es standard.
La prochaine �tape dans la phase de mod�le, je affiner le 11 r�seau neuronal convolutif (CNN), pour obtenir la probabilit� de chaque �tiquette de cat�gorie de CNN. Jeu J'ai utilis� un certain nombre de populaire, de haute performance CNN, par exemple, ResNets DenseNets, Inception et SimpleNet et ainsi de suite.
Ensuite, je veux passer � travers chaque mod�le de r�gression de cr�te de probabilit� d'�tiquette de CNN, qui doit �tre ajust�e en utilisant les corr�lations de probabilit� d'�tiquette.
Enfin, j'utilise un autre mod�le de r�gression ridge ces 11 CNN int�gr�s ensemble.
Il est �galement int�ressant de noter que ce jeu, je ne l'ai pas utilis� la fonction standard de journal en fonction de la perte, mais l'utilisation d'une fonction sp�ciale de perte de F2 flexible (F2-perte sp�ciale douce), qui est d'obtenir un score plus �lev� F2.

Dans la phase de pr�-ing�nierie et de fonctionnalit�s, avez-vous pr�cis�ment quelles actions?

Et pr�traiter �tapes d'am�lioration des donn�es:

Tout d'abord, r�gler la taille de l'image.
En outre, l'ensemble d'apprentissage et d'essai d�finies je l'ai fait une certaine am�lioration de donn�es, par exemple, l'image est invers�e, mis en rotation, de d�placement et une transformation �lastique.
J'ai aussi utilis� une technologie d�sembuage, ce qui permet au r�seau de � voir � une image plus nette. A propos de cette technologie, en utilisant le canal noir ant�rieur d�crit en d�tail dans le document unique image Haze Enl�vement.

Voici quelques-uns des exemples du traitement d�sembuage dans l'ensemble de donn�es:

Peut �tre vu de la figure, un traitement d�sembuage, des balises (par exemple l'eau, nu) augmentera la fraction F2, F2 fraction, mais d'autres �tiquettes (par exemple, jour ensoleill� et brumeux, etc.) seront r�duits. Mais ne vous inqui�tez pas, le fonctionnement int�gr� peut choisir le mod�le le plus puissant pour chaque �tiquette, en g�n�ral processus d�sembuage sera am�lior� score global.

Qu'est-ce que vous utilisez la m�thode d'apprentissage supervis�?

Mod�le de comp�tition int�gre 11 types de r�seau de convolution populaire comprend: l'int�gration des diff�rents nombre de param�tres, le nombre de couches de ResNet et DenseNet, en plus de mod�le de lancement et SimpleNet. Apr�s avoir remplac� la couche de sortie finale pour atteindre la sortie du jeu, je affiner ces pr�-form�s dans toutes les couches de CNN, et ne g�le pas toute couche.

ensemble La formation comprend plus de 40.000 photos ce montant est suffisant pour me rencontrer quelques-uns commencer la formation de l'architecture de CNN, comme resnet_34 et resnet_50. Mais je trouve que, pour le droit � des poids de r�seau pr�-form�s fin TUNE obtenir de meilleures performances.

Afin de marquer plus F2, pour �tre utile pour vous des comp�tences particuli�res?

Les organisateurs pr�senteront les r�sultats de la note d'�valuation F2, ce score est une combinaison de pr�cision et de rappel, un peu semblable au score de F1, mais le taux de rappel est sup�rieure � la pr�cision du poids. Par cons�quent, nous devons former non seulement le mod�le pour pr�dire la probabilit� de l'�tiquette, mais aussi de choisir la valeur du seuil optimal pour d�terminer si l'�tiquette � l'image marqu�e par des �tiquettes de valeur de probabilit�.

Dans un premier temps, et beaucoup d'autres concurrents, j'utilise la perte de fonction de journal comme une perte, mais dans le tableau suivant, F2 avec des scores plus faibles ne seront pas enregistrer les augmentations de la valeur de la perte.

Cela implique la n�cessit� de trouver une autre fonction de la perte, le mod�le sera plus l'attention est concentr�e sur les �tiquettes de raffinement de rappel. Inspir� par le code des forums de jeu, je l'ai �crit une fonction de perte de F2 flexible (Soft fonction F2-Perte).

Cette fonction F2 am�liore vraiment la note globale, le r�le de l'agriculture, et plus particuli�rement nuageux arable ces trois �tiquettes.

Avez-vous une id�e sur les donn�es et les mod�les?

J'ai analys� la corr�lation entre l'�tiquette et trouv� quelques �tiquettes coexistent souvent, mais d'autres �tiquettes est pas le cas. Par exemple, ensoleill�, partiellement nuageux, nuageux et brouillard ces �tiquettes ne sont pas co-existent, mais l'�tiquette abri et l'agriculture souvent ensemble. Cela signifie que cette association peut rendre la structure du mod�le est am�lior�e.

Par exemple, regardez le mod�le ResNet-101 qui permettra de pr�dire la probabilit� de chaque �tiquette 17 appara�t. Pour pouvoir utiliser la pertinence de l'�tiquette, j'ai ajout� une autre couche de r�gularisation Ridge � recalibrer la probabilit� de chaque �tiquette pour tous les mod�les.

En d'autres termes, afin de pr�dire la probabilit� de finalement effacer cette balise (utilisation du mod�le ResNet-101), il existe un mod�le sp�cial de r�gression de cr�te ensoleill�e pour pr�dire la situation va recevoir le mod�le ResNet-101 de l'ensemble des 17 balises.

Comment le mod�le d'int�gration?

Apr�s tout N obtenir le mod�le de pr�diction, nous avons une probabilit� de N diff�rents mod�les � partir des �tiquettes ensoleill�es. Nous pouvons utiliser ces probabilit�s pour pr�dire la probabilit� d'une �tiquette claire finale par une autre r�gression de cr�te.

Cette r�gression de cr�te � deux couches a deux effets:

Tout d'abord, il nous permet de tirer parti des informations pertinentes entre les diff�rentes �tiquettes.

En second lieu, il nous permet de s�lectionner le mod�le le plus fort pour pr�dire la probabilit� d'occurrence de chaque �tiquette.

Qu'est-ce que vous �tes autoris� � lui-m�me �tre surpris de trouver ce?

M�me si je dois pr�voir des changements majeurs dans les derniers classement (classement leaderboard public-priv� et les scores sont tr�s diff�rents), mais je suis toujours surpris.

Dans la derni�re �tape (de la fin de 10 jours) jeu, j'ai trouv� que les scores sur le leaderboard du public sont tr�s proches, mais je suis sur la validation crois�e et le score totalement incapable de faire une optimisation et la mise � niveau, donc je me suis dit de faire attention � �viter il y a eu juste pourrait trouver sa place dans le cas de l'�tiquette de bruit.

Afin de ne pas faire des erreurs dans la derni�re �tape, j'utilise graine al�atoire, s�lectionnez la moiti� du jeu de la formation de l'image comme un nouvel ensemble de formation pour simuler le public et la liste priv�e.

Je trouve que la graine du changement, l'�cart entre mes scores de scores analogiques leaderboard publics et priv�s pourrait �tre �tendue � 0,0025. Mais sur une liste publique, l'�cart entre la premi�re et la dixi�me place est inf�rieure � cette valeur.

Cela signifie qu'un changement tr�s important peut se produire dans le jeu.

Apr�s une analyse minutieuse, je trouve que cette diff�rence est apparu dans certaines images sont plus difficiles, il est aussi facile de confondre l'image dans l'�tiquette, comme une carte qui est marqu� comme brouillard ou nuageux, route ou eau, la plantation ou la coupe s�lective.

� cause de cela, je me suis convaincu que les scores de classement public et non pas une mesure parfaite de la capacit� � mod�liser.

Ceci est inattendu: car jeu de test public contient plus de 40.000 images, il semble le classement devrait �tre assez stable.

Donc, je me suis ajust� la cible, juste pour qu'il puisse garder l'int�rieur 10 de l'avant et a d�cid� la semaine derni�re ne se soucient pas de leur classement exact sur le leaderboard public. De plus, j'ai essay� de trouver l'un des plus stables de fa�on � l'int�gration du mod�le, j'ai jet� un mod�le peut conduire � une installation, et enfin je le syst�me de vote et la r�gression de la cr�te.

Pourquoi tant de mod�les?

La r�ponse est simple: la diversit�.

Je pense que le nombre de mod�les ne causera pas de probl�mes majeurs pour les raisons suivantes:

Tout d'abord, si nous voulons un mod�le simple, vous ne pouvez choisir un ou deux de ces mod�les, et encore ils obtiennent un bon score (top 20) dans le public et liste priv�e.
D'autre part, le jeu a 17 �tiquettes, les �tiquettes identifiant les diff�rents mod�les de capacit� diff�rente.
En outre, cette solution peut �tre utilis�e pour remplacer le travail de marquage manuel ou simplifi�. �tant donn� que les ressources informatiques sont relativement moins cher que le co�t du travail, nous ne pouvons pas pr�dire l'image tagged image, la correction d'erreur est pr�dite par l'utilisation du puissant mod�le, l'utilisation des ensembles de donn�es �tendues continue it�rations, pour former plus puissant, plus facile mod�le.

Quels outils utilisez-vous?

Python 3.6, PyTorch, PyCharm

Mat�riel pour le r�gler?

Configuration NVIDIA GTX quatre TITAN serveurs GPU X Maxwell.

La voix de l'exp�rience

Qu'avez-vous appris dans cette comp�tition que vous avez?

Comme mentionn� ci-dessus, je trouve que, avec une l�g�re perte de la fonction F2 (soft fonction F2 perte), l'augmentation de l'algorithme d�sembuage, obtenir des scores �lev�s deux applications critiques � droite de r�gression de cr�te.

De plus, parce qu'il y aura l'�tiquette de bruit, nous avons pleine confiance dans leur m�thode de validation crois�e.

Pour les personnes � partir des donn�es pour que la recherche scientifique, ce qui sugg�re que vous avez?

Apprenez de certains des meilleurs cours, tels que Stanford CS229 et CS231n.
De la concurrence Kaggle, le noyau et un script de d�marrage pour apprendre.
Kaggle participer au jeu, acqu�rir de l'exp�rience et la r�colte dans le jeu.
Lisez le journal tous les jours, pour une m�thode de papier, vous pouvez passer � la prochaine pratique.

Lei Feng r�seau AI Technology Review �dit�.

Route de la soie

Apprenez � conna�tre la Chine

Kaggle Interview du championnat Amazon: traiter le probl�me en utilisant la pertinence des �tiquettes de classification