Guide du d�butant sur l'algorithme de proximit� K en langage R: de la recrue au grand dieu

Auteur: Leihua Ye, UC Santa Barbara

Traduction: Chen Chao

Relecture: Feng Yu

Cet article est � propos de 2300 mots , Il est recommand� de lire 10 minutes

Cet article pr�sente une m�thode d'impl�mentation de l'algorithme K-plus proche en langage R pour les d�butants.

Cet article pr�sente un moyen de cr�er un mod�le KNN en langage R, qui contient une vari�t� d'indicateurs de mesure.

Photo de Mathyas Kurmann, d'Unsplash

�Si vous avez 5 minutes pour quitter la vie de Bill Gates, je parie que vous �tes riche.

Contexte

Dans le monde de l'apprentissage automatique, j'ai trouv� que le classificateur de l'algorithme de voisinage K (KNN) est le plus intuitif et le plus facile � utiliser, m�me sans introduire de symboles math�matiques.

Afin de d�terminer le label de l'�chantillon observ�, nous observons ses �chantillons voisins et �tiquetons les �chantillons voisins � l'�chantillon observ� d'int�r�t. Bien entendu, l'observation d'un �chantillon voisin peut entra�ner des �carts et des erreurs. La m�thode KNN a formul� une s�rie de r�gles et de proc�dures pour d�terminer le nombre optimal d'�chantillons voisins, par exemple le test k > �chantillons adjacents de 1 et adoptez la r�gle de la majorit� pour d�terminer la classification.

"Afin de d�terminer le libell� du nouvel �chantillon d'observation, nous examinons l'�chantillon du voisin le plus proche."

Mesure de distance

Afin de s�lectionner l'�chantillon le plus proche, nous devons d�finir la taille de la distance. Pour les donn�es de cat�gorie, il y a la distance de Hamming et la distance d'�dition. Voir les d�tails

https://en.m.wikipedia.org/wiki/Knearest_neighbors_algorithm

, Cet article ne traitera pas trop des probl�mes math�matiques.

Qu'est-ce que la validation crois�e K-fold?

Dans l'apprentissage automatique, la validation crois�e (CV) joue un r�le cl� dans la s�lection de mod�les et a une s�rie d'applications. En fait, CV a un concept de design plus intuitif et est �galement tr�s intuitif.

La br�ve introduction est la suivante:

1. Divisez les donn�es en K blocs / couches uniform�ment r�partis

2. Choisissez un ensemble de blocs / couches comme ensemble de test et les blocs / couches K-1 restants comme ensemble d'apprentissage.

3. Cr�ez un mod�le ML bas� sur l'ensemble de formation

4. Ne comparez que la valeur pr�dite et la valeur vraie dans l'ensemble de test

5. Appliquez le mod�le ML � l'ensemble de test et r�p�tez le test K fois avec chaque bloc

6. Additionnez les scores m�triques du mod�le et trouvez la moyenne des K couches

Comment choisir K?

Comme vous l'avez remarqu�, le point de la comparaison de validation crois�e est de savoir comment d�finir une valeur pour K. Nous d�signons la taille totale de l'�chantillon par n. Techniquement, K peut �tre r�gl� sur n'importe quelle valeur de 1 � n.

Si k = n, nous prenons 1 observation comme ensemble d'apprentissage et les n-1 valeurs restantes comme ensemble de test. R�p�tez ensuite ce processus dans l'ensemble de l'ensemble de donn�es. C'est ce qu'on appelle "laisser une validation crois�e" (LOOCV).

La m�thode de validation crois�e laisser un seul retrait n�cessite plus de puissance de calcul et si votre ensemble de donn�es est trop volumineux, la m�thode ne peut pas �tre interrompue.

En prenant du recul, m�me s'il n'y a pas de valeur k optimale, on ne peut pas dire qu'une valeur k plus grande est meilleure.

Afin de choisir la valeur de k la plus appropri�e, nous devons peser le biais et la variance. Si k est petit, nous obtiendrons un �cart plus important mais la variance sera plus petite lors de l'estimation de l'erreur de test; si la valeur k est relativement grande, notre biais sera plus petit et la variance sera plus grande.

Photo de Jon Tyson, d'Unsplash

"Bonjour voisin! Entrez."

Impl�mentation du langage R

1. Pr�paration du logiciel

# install.packages (�ISLR�)

# install.packages (�ggplot2�) # install.packages (�plyr�)

# install.packages (�dplyr�) # install.packages (�class�) # Charger les biblioth�ques

biblioth�que (ISLR)

biblioth�que (ggplot2)

biblioth�que (reshape2)

biblioth�que (plyr)

biblioth�que (dplyr)

library (class) # charger des donn�es et nettoyer l'ensemble de donn�es

banking = read.csv ("bank-additional-full.csv", sep = ";", header = T) ## v�rifier les donn�es manquantes et s'assurer qu'aucune donn�e ne manque

bancaire # recodage des variables qualitatives (factorielles) en

banking $ job = recode (banking $ job, " admin. = 1; blue-cols = 2; entrepreneur = 3;

femme de m�nage �= 4;� direction �= 5;� retrait� �= 6;� travailleur ind�pendant �= 7;� services �= 8;

�tudiant = 9; technicien = 10; ch�meur = 11; inconnu = 12 ) # recoder � nouveau la variable

banking $ marital = recode (banking $ marital, "" divorc� "= 1;" mari� "= 2;" c�libataire "= 3;" inconnu "= 4")

banking $ education = recode (banking $ education, "'basic.4y' = 1; 'basic.6y' = 2; 'basic.9y' = 3; 'high.school' = 4; 'analphab�te' = 5; ' professional.course '= 6;' university.degree '= 7;' unknown '= 8 )

banking $ default = recode (banking $ default, "" no "= 1;" yes "= 2;" unknown "= 3")

banque $ logement = recode (banque $ logement, �� non �= 1;� oui �= 2;� inconnu �= 3�)

bancaire $ pr�t = recode (bancaire $ pr�t, "'non' = 1; 'oui' = 2; 'inconnu' = 3") bancaire $ contact = recode (bancaire $ pr�t, "'cellulaire' = 1; 't�l�phone' = 2; ")

banking $ month = recode (banking $ month, "'mar' = 1; 'apr' = 2; 'may' = 3; 'jun' = 4; 'jul' = 5; 'aug' = 6; 'sep' = 7; 'oct' = 8; 'nov' = 9; 'dec' = 10 )

banking $ day_of_week = recode (banking $ day_of_week, "'mon' = 1; 'tue' = 2; 'wed' = 3; 'thu' = 4; 'fri' = 5;�)

banking $ poutcome = recode (banking $ poutcome, " �chec = 1; inexistant = 2; succ�s = 3;�) # supprimer la variable �pdays�, b / c elle na pas de variation

banking $ pdays = NULL #remove variable �duration�, b / c elle est colin�aire avec le DV

banque $ duration = NULL

Apr�s avoir charg� et effac� l'ensemble de donn�es initial, la pratique habituelle consiste � visualiser la distribution des variables, � v�rifier la saisonnalit�, les mod�les, les valeurs aberrantes, etc.

#EDA du DV

plot (banking $ y, main = "Plot 1: Distribution of Dependent Variable")

Comme le montre la figure, la variable de r�sultat (abonnement au service bancaire) ne satisfait pas une distribution uniforme, et "Non" est bien plus que "Oui".

Lorsque nous essayons de classer correctement les �tiquettes, l'apprentissage supervis� n'est pas tr�s pratique. Comme pr�vu, si un grand nombre de cas minoritaires sont class�s comme l'�tiquette majoritaire, le taux de faux positifs sera plus �lev�.

En fait, une distribution in�gale peut pr�f�rer les classificateurs ML non param�triques, dans mon autre article (Utilisation de 5 classificateurs pour classer des �v�nements rares, https://medium.com/m/global-identity?

redirectUrl = https% 3A% 2F% 2Ftowardsdatascience.com% 2Fc classifying-rare-events-using-five-machine-learning-techniques-fab464573233) a introduit KNN pour �tre plus performant apr�s comparaison avec d'autres m�thodes ML. Cela peut �tre caus� par des hypoth�ses math�matiques et statistiques sous-jacentes dans les mod�les param�triques et non param�triques.

2. Regroupement des donn�es

Comme mentionn� ci-dessus, nous devons regrouper l'ensemble de donn�es en ensemble d'apprentissage et ensemble de test, et adopter la validation crois�e de la couche k pour s�lectionner le meilleur mod�le ML. Selon la r�gle empirique, nous utilisons g�n�ralement le ratio �80-20�: nous formons ML avec 80% des donn�es et testons avec les 20% restants. Les donn�es de la s�rie chronologique sont l�g�rement diff�rentes, nous avons chang� le ratio de 90% � 10%.

# diviser l'ensemble de donn�es en ensembles d'entra�nement et de test de mani�re al�atoire, mais nous devons d�finir des semences de mani�re � g�n�rer la m�me valeur � chaque fois que nous ex�cutons le jeu de codes.seed (1) #create un index pour diviser les donn�es: 80% d'entra�nement et 20% tester

index = round (nrow (banking) * 0.2, digits = 0) #sample al�atoirement dans l'ensemble de donn�es et garder le nombre total �gal � la valeur de l'index

test.indices = sample (1: nrow (banking), index) # Ensemble d'entra�nement � 80%

banking.train = ensemble de test bancaire # 20%

banking.test = banking #S�lectionnez l'ensemble de formation sauf le DV

YTrain = banking.train $ y

XTrain = banking.train% > % select (-y) # S�lectionnez l'ensemble de test sauf le DV

YTest = banking.test $ y

XTest = banking.test% > % select (-y)

Jusqu'� pr�sent, nous avons termin� la pr�paration des donn�es et commenc� la s�lection du mod�le.

3. Formation du mod�le

�crivons une nouvelle fonction ("calc_error_rate") pour enregistrer le taux de classification des erreurs. Cette fonction calcule le rapport de non-concordance entre l'�tiquette pr�dite obtenue lors de l'utilisation de l'ensemble d'apprentissage et l'�tiquette de r�sultat r�el. Il mesure l'exactitude de la classification.

#define une fonction de taux d'erreur et l'applique pour obtenir des erreurs de test / entra�nementcalc_error_rate < -fonction (valeur.pr�dite, valeur.vrai) {

return (mean (true.value! = preded.value))

}

Ensuite, nous avons besoin d'une autre fonction "do.chunk ()" pour effectuer la validation crois�e de la couche k. Cette fonction renvoie un bloc de donn�es des valeurs possibles du calque. L'objectif principal de cette �tape est de s�lectionner la meilleure valeur K pour KNN.

nfold = 10

set.seed (1) # cut () divise la plage en plusieurs intervalles

folds = seq.int (nrow (banking.train))% > %

cut (breaks = nfold, labels = FALSE)% > %

sampledo.chunk < -fonction (chunkid, folddef, Xdat, Ydat, k) {

train = (folddef! = chunkid) # training indexXtr = Xdat # training set by the indexYtr = Ydat # true label in training setXvl = Xdat # test setYvl = Ydat # true label in test setpredYtr = knn (train = Xtr, test = Xtr , cl = Ytr, k = k) # pr�dire les �tiquettes de formation predYvl = knn (train = Xtr, test = Xvl, cl = Ytr, k = k) # pr�dire les �tiquettes de testdata.frame (fold = chunkid, # k replis

train.error = calc_error_rate (predYtr, Ytr), # erreur d'entra�nement par pli

val.error = calc_error_rate (predYvl, Yvl)) # erreur de test par pli

} # set error.folds pour enregistrer les erreurs de validation

error.folds = NULL # cr�e une s�quence de donn�es avec un intervalle de 10

kvec = c (1, seq (10, 50, length.out = 5)) set.seed (1) for (j en kvec) {

tmp = ldply (1: nfold, do.chunk, # applique do.function � chaque pli

folddef = replis, Xdat = XTrain, Ydat = YTrain, k = j) # arguments requis

tmp $ voisins = j # suivre chaque valeur des voisins

error.folds = rbind (error.folds, tmp) # combine les r�sultats

} #melt () dans le package reshape2 fusionne les donn�es grand format en donn�es long format

errors = melt (error.folds, id.vars = c ("fold", "voisins"), value.name = "error")

L'�tape suivante consiste � trouver la valeur de k qui minimise l'erreur de v�rification.

val.error.means = erreurs% > %

#select toutes les lignes d'erreurs de validation

filter (variable == "val.error")% > %

# regrouper les donn�es s�lectionn�es par voisins

group_by (voisins, variable)% > %

#cacluate erreur CV pour chaque k

summary_each (funs (moyenne), erreur)% > %

#remove groupe existant

dissocier ()% > %

filter (error == min (error)) # le meilleur nombre de voisins

numnequart = max (val.error.means $ voisins)

numnequart ##

Apr�s avoir utilis� la validation crois�e � 10 niveaux, le nombre optimal de voisins est de 20.

Nick Youngson

4. Quelques indicateurs de mod�le

# erreur de formation

set.seed (20)

pred.YTtrain = knn (train = XTrain, test = XTrain, cl = YTrain, k = 20)

knn_traing_error < -calc_error_rate (preded.value = pred.YTtrain, true.value = YTrain)

knn_traing_error

0,101214

L'erreur d'apprentissage est de 0,1.

#test error

set.seed (20)

pred.YTest = knn (train = XTrain, test = XTest, cl = YTrain, k = 20)

knn_test_error < -calc_error_rate (preded.value = pred.YTest, true.value = YTest)

knn_test_error

0,1100995

L'erreur de test est de 0,11.

#confusion matrixconf.matrix = table (pr�dite = pred.YTest, true = YTest)

Sur la base de la matrice de confusion ci-dessus, nous pouvons calculer les valeurs suivantes et nous pr�parer � dessiner la courbe ROC.

Pr�cision = (TP + TN) / (TP + FP + FN + TN)

TPR / Rappel / Sensibilit� = TP / (TP + FN)

Pr�cision = TP / (TP + FP)

Sp�cificit� = TN / (TN + FP)

FPR = 1 - Sp�cificit� = FP / (TN + FP)

Score F1 = 2 * TP / (2 * TP + FP + FN) = Pr�cision * Rappel / (Pr�cision + Rappel)

# Taux de pr�cision du testum (diag (conf.matrix) / sum (conf.matrix)) 0.8899005 # Test error rate1-sum (glisser (conf.matrix) / sum (conf.matrix)) 0.1100995

Vous remarquerez peut-�tre que le taux de test correct + le taux d'erreur de test = 1, je propose �galement plusieurs m�thodes pour calculer chaque valeur.

# ROC et AUC

knn_model = knn (train = XTrain, test = XTrain, cl = YTrain, k = 20, prob = TRUE) prob < -attr (knn_model, "prob") prob < -2 * ifelse (knn_model == -1, prob, 1-prob) - 1pred_knn < -pr�diction (prob, YTrain) performance_knn < -performance (pred_knn, "tpr", "fpr") # AUCauc_knn < -performance(pred_knn,"auc")@y.valuesauc_knn 0.8470583plot (performance_knn, col = 2, lwd = 2, main = "Courbes ROC pour KNN")

En r�sum�, nous avons appris ce qu'est KNN et avons construit un mod�le KNN en langage R. Plus important encore, nous avons appris le m�canisme derri�re la validation crois�e de la couche K et comment impl�menter la validation crois�e en langage R.

A propos de l'auteur:

Lei Hua Ye (@leihua_ye) est doctorante � l'Universit� de Californie � Santa Barbara. Il a plus de 5 ans de recherche et d'exp�rience professionnelle dans la recherche quantitative sur l'exp�rience utilisateur, les exp�riences et le raisonnement causal, l'apprentissage automatique et la science des donn�es.

Titre original:

Guide du d�butant des K-Nearest Neighbours dans R: de z�ro � h�ros

Lien d'origine:

https://www.kdnuggets.com/2020/01/beginners-guide-nearest-neighbors-r.html

Editeur: Yu Tengkai

Relecture: Tan Jiayao

Profil de traducteur

Chen Chao , Master de psychologie appliqu�e � l'Universit� de P�kin. Le premier �tudiant �tait autrefois en informatique, puis il a continu� � explorer la voie de la psychologie. De plus en plus constatent que l'analyse de donn�es et la programmation sont devenues deux comp�tences de survie obligatoires, alors je fais tous les efforts dans ma vie quotidienne pour mieux acc�der et comprendre les connaissances pertinentes, mais le chemin � parcourir est long et je suis toujours sur la route.

-Terminer-

Suivez la plate-forme publique officielle WeChat de l'Institut Tsinghua-Qingdao pour la science des donn�es " Tarte aux donn�es THU "Et le num�ro de soeur" Tarte aux donn�es JEU "Obtenez plus d'avantages de cours et un contenu de qualit�.

Route de la soie

Apprenez � conna�tre la Chine

Guide du d�butant sur l'algorithme de proximit� K en langage R: de la recrue au grand dieu