Auteur: Cui Jiahua

Universit� du Nord-Est | Reconnaissance et syst�mes intelligents d'�tudes sup�rieures

Qubit �diteur autoris� publi�

Dans le domaine de la reconnaissance des formes, K plus proches voisins (KNN algorithme) est une m�thode statistique non param�trique pour la classification et de r�gression.

Dans cet article, les auteurs pr�sentent les bases du K- voisin le plus proche en d�tail et montre ensuite le combat correspondant du site de rencontres et sklearn reconnaissance num�rique en Python 3. Vif, concis et facile � comprendre.

Avant le d�but officiel de l'article, vous devrez peut-�tre cette information -

Code Github obtient:

https://github.com/Jack-Cherish/Machine-Learning/

Python version: Python3.x

Ex�cutez la plate-forme: Windows

IDE: Sublime text3

Venez et vous ne voulez pas commencer dans le train.

plus proche voisin de Un simple

Cet article de la pens�e K- algorithmes adjacents commencent par l'utilisation de code �crit dans une �tape par �tape python3 formation de combat. Et, j'ai �galement fourni l'ensemble de donn�es correspondant, les notes d�taill�es de code. En outre, la m�thode propos�e par algorithme pr�s �galement de r�aliser sklearn ont �t� expliqu�s.

Exemples pratiques: la classification des films, des sites de rencontres appariement d�termination de l'effet, la reconnaissance de l'�criture manuscrite num�rique.

Tous les codes et les ensembles de donn�es figurant dans ce document, sont disponibles sur mon github t�l�chargement, bienvenue � suivre, Star--

T�l�charger:

https://github.com/Jack-Cherish/Machine-Learning/tree/master/kNN

1.k- profil voisin le plus proche

k-plus proche voisin proc�d� (k-plus proche voisin, k-NN) est un proc�d� essentiel pour la classification et de r�gression en 1967 par couverture T et P. Hart

Son principe de fonctionnement est le suivant: Il y a un ensemble de donn�es d'�chantillon, �galement connu sous le nom de l'�chantillon de formation ensemble, et chaque ensemble d'�chantillons de donn�es sont des �tiquettes existent, que nous connaissons chaque correspondance ensemble d'�chantillons entre les donn�es et la cat�gorie.

Apr�s avoir entr� les nouvelles donn�es sans �tiquette, les donn�es de caract�ristiques correspondant aux caract�ristiques de chaque nouvel �chantillon de donn�es et la comparaison de la concentration, l'algorithme d'extraction de l'�chantillon et les donn�es les plus similaires (voisin le plus proche) d'�tiquettes de classe. En g�n�ral, nous s�lectionnons les k donn�es les plus semblables avant l'ensemble de donn�es d'�chantillon, ce qui est le plus proche voisin K- � l'origine de k, k est g�n�ralement pas un plus grand nombre entier de 20.

Enfin, s�lectionnez le plus grand nombre de donn�es classifi�es k plus semblable en apparence, comme la classification des nouvelles donn�es.

A titre d'exemple simple, nous pouvons utiliser K- le plus proche film algorithme de classification voisin est un des films d'amour ou d'action.

�Tableau 1.1 Nombre de coups par des combats de film, embrassant la lentille et Genre

Le tableau 1.1 est notre ensemble de donn�es existantes, ce qui est l'ensemble de la formation. Cet ensemble de donn�es a deux caract�ristiques, � savoir, le nombre de combats et l'embrasser de lentilles que l'objectif. De plus, nous savons que votre type de chaque film, et l'�tiquette de classification. Observ� visuellement avec un rugueux, plus lentille baiser est la romance. sc�ne plus se battre, film d'action.

Avec nos nombreuses ann�es d'exp�rience en regardant des films, cette classification est raisonnable. Si vous me donnez maintenant un film, vous me dites ce nombre et le nombre de sc�ne de baiser sc�ne de combat de film.

Dites-moi ce n'est pas le genre de film que je puisse en juger sur la base des informations que vous me donniez, ce film fait partie des films d'amour ou d'action. Le voisin le plus proche K- peut faire la m�me chose que nous cette diff�rence est que, dans notre exp�rience plus � r�gresse �, alors que l'algorithme K- pr�s reposent sur des donn�es existantes.

Par exemple, vous me dites ce num�ro de sc�ne de combat de film est 2, le nombre d'embrasser la lentille 102, mon exp�rience vous dira ceci est une histoire d'amour, K- voisin le plus proche vous dira ceci est une histoire d'amour.

Vous me aussi dit un autre num�ro de sc�ne de combat de film 49, le nombre d'embrasser la lentille 51, mon exp�rience de � mal � peut vous dire, cela peut �tre un � films d'action d'amour �, l'image est si belle, je ne peux pas imaginer. (Si vous ne savez pas ce que � les films d'action d'amour � Oui? Commentaires Veuillez me contacter, je veux que tu me veux un ami si pur.)

Mais K- voisin le plus proche ne vous dira pas cela, parce que dans ses yeux, le seul type de films romantiques et les films d'action, il se concentrera sur l'extraction de la plupart des donn�es d'�chantillons de fonction similaire (le plus proche) �tiquette de classification, le r�sultat pourrait �tre l'amour pi�ce, il pourrait �tre un film d'action, mais il ne sera jamais les � films d'action d'amour. � Cela d�pend de la taille de l'ensemble des donn�es et les crit�res les plus proches voisins comme facteurs.

2. La mesure de distance

Nous savons d�j� K- algorithme du plus proche voisin bas� sur des comparaisons de fonction, puis extraire les caract�ristiques des �chantillons concentr�s les donn�es les plus similaires (le plus proche) �tiquette de classification. Alors, comment faut-il comparer? Par exemple, nous �tions encore Tableau 1.1, par exemple, la fa�on de d�terminer la cat�gorie des marques de point rouge du film qui lui appartient? Figure 1.1.

�Figure 1.1 Classification du film

On peut d�duire de la parcelle � peu pr�s la dispersion, ce marques de point rouge, le film peut appartenir � un film d'action, parce que la distance est connu que deux films d'action plus points. K- algorithme du plus proche voisin pour d�terminer quelles m�thodes?

Oui, c'est une mesure de la distance. Le film a deux exemples de classification des caract�ristiques, � savoir les deux dimensions espace vectoriel r�el, nous pouvons utiliser la formule de la distance de deux points � la distance calculate au lyc�e, illustr� � la figure 1.2.

Par calcul, on obtient les r�sultats suivants:

(101, 20) - > De la pi�ce d'actionnement (108,5) est d'environ 16,55

(101, 20) - > De la pi�ce d'actionnement (115,8) est d'environ 18,44

(101, 20) - > Romance de (5,89) � environ 118,22

(101, 20) - > romance Distance (1,101) est d'environ 128,69

Par calcul montre que le point rouge film d'action marqu�e � une feuille (108,5) est le plus proche, 16,55. Si l'algorithme directement bas� sur les r�sultats pour d�terminer les points rouges marquent le film comme un film d'action, c'est l'algorithme du plus proche voisin, plut�t que K- voisin le plus proche. Alors qu'est-ce K- pr�s de l'algorithme est-il? K- �tapes les plus proches de l'algorithme voisin sont les suivantes:

Distance entre le point et l'ensemble de donn�es de classe calcul du point courant connu;

Tri par ordre croissant en fonction de la distance;

les points K choisis distance minimale entre le point courant;

La d�termination de la fr�quence d'occurrence du premier point k classes est situ�;

Retour aux points pr�c�dents k plus fr�quents classement de la cat�gorie comme un facteur pr�dictif du point courant.

Par exemple, je prends maintenant la valeur k 3, l'exemple de film, trois points sont tri�s par distance est une pi�ce fonctionnant de fa�on successive (108,5), l'action (115,8), la romance (5,89). Dans ces trois points, la fr�quence d'apparition des deux tiers de la pi�ce de fonctionnement, la fr�quence d'occurrence d'un tiers de la romance, de sorte que le point rouge est marqu� film de film d'action.

Le processus d'identification est le plus proche voisin K-.

3.Python3 mise en uvre du code

Nous savons d�j� le plus proche voisin du principe, l'�tape suivante consiste � utiliser la mise en uvre python3 de l'algorithme, toujours avec l'exemple de classification des films.

(1) la pr�paration d'un ensemble de donn�es

Pour les donn�es dans le tableau 1.1, nous pouvons utiliser numpy cr�� directement, comme suit:

Les r�sultats d'exploitation, illustr� � la Figure 1.3:

�Figure 1.3 R�sultats d'exploitation

(2) K- voisin le plus proche

La distance entre deux points formule pour calculer la distance, la distance minimale s�lectionn�e premier k points, et le retour au r�sultat de la classification.

Les r�sultats d'exploitation, illustr� � la Figure 1.4:

�Figure 1.4 r�sultats d'exploitation

Vous pouvez voir, les r�sultats de la classification de notre � exp�rience � est correcte, bien que cette classification est de temps avec un temps de 1.4s.

Ici, peut-�tre quelqu'un a d�j� trouv� que le film est un exemple de caract�ristiques en deux dimensions, telles que la distance m�trique peut �tre calcul�e avec une formule � distance de deux points, mais si elle est des dimensions plus �lev�es?

Oui, � droite. Nous pouvons utiliser la distance euclidienne (�galement appel�e m�trique euclidienne), illustr� � la figure 1.5. Deux formule haute distance de l'�cole, nous avons appris que la formule de distance euclidienne dans l'espace � deux dimensions, qui est, n valeur de distance euclidienne du sc�nario 2.

�formule de distance euclidienne figure 1.5

Voir ici, on peut se demander: ou r�ponse est non, la classification et ne sera pas � cent pour cent des r�sultats corrects, on peut � Dans quelles circonstances l'erreur de classification? � � La r�ponse est toujours raison? � diverses m�thodes de pr�cision classificateur de d�tection. En outre la performance du classificateur sera affect�e par de nombreux facteurs, tels que l'ensemble des donn�es de classification est fourni et similaires.

Les performances des diff�rents algorithmes sur diff�rents ensembles de donn�es peut �tre compl�tement diff�rent. Afin de tester l'effet de classificateur, nous pouvons utiliser les donn�es connues r�ponse, bien s�r, la r�ponse ne peut pas dire le classificateur, les r�sultats des tests de classificateur donn�s en conformit� avec les r�sultats escompt�s.

Gr�ce � un grand nombre de donn�es de test, nous pouvons obtenir le classificateur de taux d'erreur - classificateur �tant donn� le nombre d'erreurs divis� par le nombre total des r�sultats des tests effectu�s.

taux d'erreur m�thode d'�valuation est couramment utilis�, notamment pour r�aliser les r�sultats de l'�valuation sur le classement d'un ensemble de donn�es. taux d'erreur de classificateur est parfait 0, le pire taux d'erreur de classification est de 1,0.

En m�me temps, on trouve aussi, K- voisin le plus proche ne pratique pas les donn�es directement � l'aide des donn�es inconnues sont compar�es aux donn�es connues, obtenir des r�sultats. Par cons�quent, on peut dire K- pr�s de l'algorithme ne dispose pas d'un processus d'apprentissage explicite.

Deux .k- algorithme de correspondance de site de rencontre l'effet r�el des voisins de jugement

R�sum� de l'�tude sur un simple voisin le plus proche de la mise en uvre, mais ce n'est pas un processus complet le plus proche voisin K-, K- voisin le plus proche est le processus g�n�ral:

Collecte de donn�es: Vous pouvez utiliser crawlers pour recueillir des donn�es, les donn�es gratuites et tarif�s fournis par des tiers peuvent �galement �tre utilis�s. En r�gle g�n�rale, les donn�es de documents txt, stock�s selon un certain format pour l'analyse et le traitement.
Pr�paration des donn�es: L'utilisation de l'analyse syntaxique Python, les donn�es pr�-traitement.
Donn�es analytiques: De nombreuses m�thodes peuvent �tre utilis�es pour analyser les donn�es, par exemple, la visualisation des donn�es Matplotlib.
algorithme de test: taux d'erreur de calcul.
L'utilisation d'algorithmes: le taux d'erreur est dans une plage acceptable, vous pouvez ex�cuter K- le plus proche voisin de la classification.

Nous savons d�j� le flux g�n�ral de K- le plus proche voisin algorithme, nous allons commencer dans le contenu r�el.

1. L'arri�re-plan r�el

Helen a utilis� des sites de rencontres en ligne pour trouver leur propre rencontre. Bien que les sites de rencontres recommandera une autre option, mais elle ne ressemblait pas tout le monde. Apr�s un r�sum�, elle se trouvait dans une relation avec les personnes qui peuvent �tre class�s comme suit:

Je ne aime pas
Le charme de la personne moyenne
personne charismatique

donn�es Helen Collect a �t� datant pendant un certain temps, elle a mis ces donn�es sont stock�es dans un fichier texte datingTestSet.txt, chaque donn�e �chantillon sur sa propre ligne, un total de 1000 lignes.

donn�es datingTestSet.txt t�l�chargement:

https://github.com/Jack-Cherish/Machine-Learning/blob/master/kNN/2.%E6%B5%B7%E4%BC%A6%E7%BA%A6%E4%BC%9A/datingTestSet txt

donn�es Helen �chantillon recueilli comprend principalement les trois caract�ristiques suivantes:

miles de fid�lit� chaque ann�e disponible

Jouer � des jeux vid�o pourcentage de temps consomm�

La consommation hebdomadaire de cr�me glac�e plusieurs litres

Ici ont Tucao une, Helen est une marchandise collation ah, tous les kilogrammes de cr�me glac�e affectent leurs crit�res de choix de partenaire. Txt ouvrir le fichier texte, le format de donn�es illustr� � la figure 2.1.

�Figure 2.1 Format datingTestSet.txt

2. Pr�parer les donn�es: analyse des donn�es

Avant l'entr�e de donn�es de caract�ristiques d�crites ci-dessus au classificateur, le format des donn�es doivent �tre trait�es pour modifier le format d'un classificateur qui peut �tre re�u. La classification des donn�es re�ues est quel format?

D�j� connu du r�sum�, les donn�es doivent �tre class�es en deux parties, � savoir, l'�tiquette de classification de fonction matrice et vecteur correspondant. Cr�er une fonction nomm�e file2matrix dans le fichier kNN_test02.py afin de traiter les probl�mes de format d'entr�e. Le datingTestSet.txt plac� dans le m�me r�pertoire kNN_test02.py, le code d'�criture comme suit:

Ex�cutez le code, le r�sultat de l'analyse des donn�es obtenues est repr�sent�e sur la figure 2.2.

�2.2 r�sultat de l'analyse des donn�es de la figure.

Vous pouvez le voir, nous avons des donn�es import�es avec succ�s, et les donn�es sont analys�es, format�es comme classificateur n�cessaire format de donn�es. Ensuite, nous devons comprendre le sens r�el des donn�es. Les donn�es peuvent �tre observ�e � travers mani�re graphique conviviale et intuitive.

3. Analyse des donn�es: Visualisation de donn�es

Showdatas pr�par�s kNN_test02.py fonction nomm�e fichier pour la visualisation des donn�es. Ecrire du code comme suit:

Ex�cutez le code, le r�sultat de l'analyse des donn�es obtenues est repr�sent�e sur la figure 2.2.

�2.2 r�sultat de l'analyse des donn�es de la figure.

3. Analyse des donn�es: Visualisation de donn�es

Showdatas pr�par�s kNN_test02.py fonction nomm�e fichier pour la visualisation des donn�es. Ecrire du code comme suit:

Ex�cutez le code, vous pouvez voir les r�sultats visuels pr�sent�s � la figure 2.3.

�2.3 R�sultats figure. Visualisation des donn�es

Selon la loi peut �tre tr�s intuitive des donn�es de d�couverte de donn�es, telles que le temps et la comptabilit� des miles de grands voyageurs chaque ann�e pour obtenir le vol pour jouer le jeu consomm�, juste consid�rer cela comme une information de caract�ristique � deux dimensions, me donner le sentiment que Helen comme d'avoir la qualit� de vie des hommes .

Pourquoi dites-vous? Fr�quents miles de vol par an obtenus montrent que, comme Helen peut profiter programme de fid�lisation des hommes, mais pas toujours voler, de retour en difficult� et en arri�re, volant au-dessus du monde.

En m�me temps, cet homme veulent jouer � des jeux vid�o, et compte pour une certaine �chelle de temps. Peut voler partout, mais les hommes jouent souvent le jeu est ce genre d'homme? De toute �vidence, il y a la qualit� de vie, et une vie de personnes de loisirs. Mon analyse, seules les opinions personnelles des donn�es par le biais d'un r�sum� visuel. Je pense que tout le monde devrait conna�tre est pas la m�me chose.

4. Pr�parer les donn�es: la normalisation des donn�es

Le tableau 2.1 montre les quatre groupes d'�chantillons, si vous voulez calculer la distance entre l'�chantillon 4 et l'�chantillon peut �tre calcul�e en utilisant la formule d'Euler.

�Tableau 2.1 Exemples de donn�es des sites de rencontres

Le calcul de proc�d� repr�sent� sur la figure 2.4.

�formule la figure 2.4

Il est facile de trouver, le plus grand impact sur les plus grandes propri�t�s de l'�quation ci-dessus la diff�rence num�rique aux r�sultats, qui est, le nombre de miles de fid�lisation acquis chaque ann�e les r�sultats de l'impact sera beaucoup plus grande que la 2.1 dans les deux autres tables de fonction - Lecture incidence de la comptabilisation du nombre de la consommation hebdomadaire de cr�me glac�e et des jeux vid�o kilogrammes de temps �coul�.

La seule raison de ce ph�nom�ne, tout simplement � cause des miles de grands voyageurs est beaucoup plus grande que les autres valeurs propres. Mais Helen pense que ces trois caract�ristiques sont tout aussi importants, si lourd que l'une des trois caract�ristiques �quipond�r�s miles de grands voyageurs et ne devrait pas �tre si s�v�rement affect� les r�sultats.

Dans le traitement de ces plages de valeur caract�ristique du proc�d� que nous avons g�n�ralement employ� est la valeur normalis�e, comme cela sera trait� dans la plage comprise entre 0 et 1, -1 et 1. La formule suivante peut �tre une valeur caract�ristique en une valeur dans l'intervalle de 0 � 1 dans l'intervalle:

O� min et max sont les ensembles de donn�es minimales et des valeurs propres de la valeur propre maximale. Tout en changeant les valeurs de la plage augmente la complexit� du classificateur, mais afin d'obtenir des r�sultats pr�cis, nous devons le faire. �crivez une fonction appel�e autoNorm dans le fichier kNN_test02.py, utilisez cette fonction normalise automatiquement les donn�es. Code est la suivante:

Ex�cutez le code, pour donner les r�sultats pr�sent�s � la figure 2.4.

�Figure 2.4 fonction des r�sultats d'op�ration normalis�es

Peut �tre vu de la figure 2.4 r�sultats d'exploitation, nous avons normalis� avec succ�s les donn�es et trouver la valeur minimale dans la plage de donn�es et les donn�es de ces deux valeurs est requis au moment de la classification utilis�e directement la r�solution premier est sorti, il peut �tre consid�r� comme un pr�-traitement des donn�es.

5. M�thode d'essai: v�rification classificateur

algorithme d'apprentissage de la machine est un travail tr�s important est d'�valuer la pr�cision de l'algorithme, nous fournissons habituellement seulement 90% sous forme d'�chantillons de formation pour former les classificateur donn�es existantes et utiliser les 10% restants des donn�es pour tester le classificateur, classificateur correctement taux.

Il convient de noter que devrait �tre choisi au hasard 10% des donn�es de test, car les donn�es ne sont pas fournis Helen tri�e par un but sp�cifique, donc je peux choisir ce que vous 10% des donn�es sans affecter son caract�re al�atoire.

Pour tester l'effet de classificateur, cr�ez un datingClassTest de fonction dans le fichier kNN_test02.py, le code d'�criture comme suit:

Ex�cutez le code, pour donner les r�sultats pr�sent�s � la figure 2.5.

�2.5 R�sultats La figure classificateur v�rifier

Comme on peut le voir � partir des r�sultats de la figure classificateur v�rification 2,5, le taux d'erreur de 3%, ce qui est un bon r�sultat voulu. Nous pouvons changer les valeurs des variables Horatio et classificateur k en fonction datingClassTest, pour d�tecter si le taux d'erreur avec les changements de la valeur des augmentations variables. Cela d�pend des algorithmes de classification, ensembles de donn�es et les param�tres du programme, la sortie du classificateur peut �tre tr�s diff�rent.

6. Utilisez l'algorithme: pour construire un syst�me complet disponible

Nous pouvons donner un programme Helen alin�a, par le biais du programme, Helen trouvera quelqu'un sur un site de rencontres et entrer ses informations. Le programme donnera la valeur pr�dite de l'homme qu'elle aime degr�.

Cr�er une classifyPerson fonction dans le fichier kNN_test02.py, le code est le suivant:

Dans cmd, ex�cutez le programme et entrez les donn�es (12,44000,0.5), a pr�dit le r�sultat est � certains d'entre vous comme cet homme, � qui est le charme des gens en g�n�ral. Il y a trois qualit�s: la haine, certains comme, tr�s bien, ce qui correspond � pas comme les gens, le charme de la personne moyenne, personne tr�s charismatique. Les r�sultats sont pr�sent�s � la figure 2.6.

�pr�dicteurs figure 2.6

Trois, K- plus proche voisin la reconnaissance manuscrite num�rique r�elle de sklearn

1. L'arri�re-plan r�el

La n�cessit� d'une identification d'un logiciel de traitement d'image num�rique a �t� utilis�, le processus d'avoir la m�me couleur et la taille: la largeur et la hauteur est de 32 pixels x32 pixels. Bien que le format de stockage d'image employ� ici une utilisation inefficace de l'espace m�moire, mais pour faciliter la compr�hension, nous convertir l'image en format texte, texte num�rique illustr� � la figure 3.1.

�format de texte num�rique figure 3.1

En m�me temps, le format de stockage num�rique du texte est �galement tr�s caract�ristique format de nom: _ valeur num�rique du nombre num�rique �chantillon est illustr� � la figure 3.2.

�3.2 texte format de stockage num�rique de la figure.

Pour un tel texte a �t� tondu, nous pouvons utiliser Python directement trait� pr�dire num�riquement. Ensemble de donn�es dans la formation et des jeux de tests, la m�thode de synth�se de l'utilisation, la conception de leur propre K- le plus proche classificateur voisin, la classification peut �tre atteint. d�finir et atteindre des donn�es

T�l�charger le code:

https://github.com/Jack-Cherish/Machine-Learning/tree/master/kNN/3.%E6%95%B0%E5%AD%97%E8%AF%86%E5%88%AB

Il n'y a plus d'expliquer propre classificateur de voisinage de la m�thode �crite en Python, parce que ce n'est pas l'objet du pr�sent article. Ensuite, nous allons utiliser un puissant tiers Python biblioth�que de calcul scientifique pour construire l'�criture manuscrite des syst�mes num�riques Sklearn.

Profil 2.sklearn

Scikit apprendre sklearn aussi appel�, qui est l'un des module python d'apprentissage de la machine la plus connue. sklearn contient de nombreuses fa�ons d'apprentissage de la machine:
classification
La r�gression de r�gression
Clustering Classification non dirig�e
la r�duction de dimensionnalit� de r�duction de dimensionnalit� des donn�es
S�lection du mod�le S�lection du mod�le
traitement de donn�es Pr�traitement

Utilisez sklearn peut facilement nous permettre d'atteindre un algorithme d'apprentissage automatique. Mettre en uvre un algorithme complexe en utilisant sklearn vous ne devrez peut-�tre appeler l'API � quelques lignes. Ainsi, l'apprentissage sklearn, peut r�duire efficacement le temps de cycle pour atteindre nos t�ches sp�cifiques.

installation 3.sklearn

Avant d'installer sklearn, besoin d'installer deux biblioth�ques, � savoir numpy + MKL et scipy. Ne pas utiliser directement PIP3 install� car PIP3 installation silencieuse est numpy, plut�t que numpy + MKL.

T�l�charger biblioth�ques tierces:

L'utilisation de ce site, je vous ai parl� dans l'article pr�c�dent:

Trouv� numpy + MKL scipy et la version correspondante du t�l�chargement de python l'installation, comme le montre la figure 3.3 et la figure 3.4.

�3.3 numpy + MKL figure.

�Figure 3.4 scipy

Apr�s avoir utilis� deux fichiers install�s PIP3 WHL, utilisez la commande suivante pour installer sklearn.

4.sklearn atteindre K- algorithme du plus proche voisin Pr�sentation

Le site officiel de la documentation en anglais:

sklearn.neighbors module impl�mente un K- plus proches voisins algorithme, le contenu affich� � la figure 3.5.

�Figure 3.5 sklearn.neighbors

Nous utilisons sklearn.neighbors.KNeighborsClassifier peut �tre r�alis� sur un r�sum�, K- voisin le plus proche que nous obtenons. KNeighborsClassifier fonction d'un total de huit param�tres repr�sent�e sur la figure 3.6.

�Figure 3.6 KNeighborsClassifier

param�tres KNneighborsClassifier:

n_neighbors: par d�faut � 5, k est la valeur k-NN, s�lectionner le plus de points de k derni�res.

poids: La valeur par d�faut est uniforme, les param�tres peuvent �tre uniformes, la distance, peuvent �galement �tre une fonction d�finie par l'utilisateur. poids uniformes sont �gaux, disent tous les bons points de proximit� de poids sont �gaux. la distance est poids in�gaux du point proche est sup�rieure � la distance du point d'impact. fonctions d�finies par l'utilisateur, et re�oit � partir du r�seau, retour de la m�me dimension d'un ensemble de poids lourds.

algorithme: k rapide le plus proche algorithme de recherche voisin, les param�tres par d�faut pour l'auto, peut �tre comprise comme son propre algorithme pour d�terminer l'algorithme de recherche appropri�. De plus, les utilisateurs peuvent �galement sp�cifier leur propre algorithme de recherche ball_tree, kd_tree, m�thodes de brutes de recherche, brute est une recherche de force brute est balayage lin�aire, lorsque l'ensemble de la formation est importante, le calcul est beaucoup de temps.

kd_tree, kd stocker des donn�es de structure arborescente pour sa structure de donn�es d'arbre r�cup�ration rapide, arbre kd est une structure de donn�es d'arbre binaire. Dans la structure de l'arbre de coupe m�diane, chaque noeud est un rectangle super, la dimension 20 est inf�rieure � la vitesse de vieillissement.

arbre � billes kd-arbre est de rem�dier � la d�faillance de la latitude et de la pr�sente invention, qui est configur� pour traiter le centro�de C et le rayon r de la division de l'espace d'�chantillon, chaque noeud est une hypersph�re.

leaf_size: valeur par d�faut est 30, qui est construit arbre kd et la taille de la bille de l'arbre. Les r�glages affectent la vitesse et la vitesse de la construction de l'arbre de recherche, et affecte �galement la taille de la m�moire n�cessaire pour stocker l'arbre. Nous devons choisir la taille optimale en fonction de la nature du probl�me.

m�trique: une mesure de la distance, la valeur par d�faut est la m�trique de Minkowski, � savoir p = 2 est la distance euclidienne (m�trique euclidienne).

p: formule de distance m�trique. En r�sum�, nous utilisons la distance euclidienne formule m�trique � distance. En outre, il existe d'autres mesures, comme la distance de Manhattan. Ce param�tre par d�faut � 2, qui est, en utilisant la valeur par d�faut de la distance de formule de distance euclidienne m�trique. Il peut �tre mis � 1, l'utilisation de la formule de la distance Manhattan m�trique de distance.

metric_params: d'autres param�tres cl�s de la formule, cela peut �tre tout, vous pouvez utiliser le Aucun par d�faut.

n_jobs: traitement parall�le est pr�vue. La valeur par d�faut est 1, le nombre de travaux parall�les pr�s du point de recherche. Si -1, tous les CPU cores sont utilis�s en parall�le.

KNeighborsClassifier fournit des m�thodes pour nous d'utiliser, comme le montre la figure 3.7.

�3,5 KNeighborsClassifier le proc�d� de la Fig.

Pour des raisons d'espace, comment utiliser chaque fonction, ne sont pas sp�cifiquement expliqu�. Manuel officiel a �t� expliqu� en d�tail, vous pouvez consulter le manuel pour apprendre, nous parlons directement au syst�me de reconnaissance de l'�criture manuscrite num�rique.

hachoir 5.sklearn � petite �chelle

Nous savons que les images num�riques sont l'image binaire 32x32, afin de faciliter le calcul, nous pouvons convertir une image binaire de vecteur est un 32x321x1024.

Pour KNeighborsClassifier entr�e sklearn peut �tre matrice, pas n�cessairement converti en un vecteur, mais pour �crire leur propre avec la correspondance la plus proche du classificateur voisin K-, ici aussi de quantifier le processus. classificateur KNN a ensuite �t� construit en utilisant les classificateurs de faire des pr�dictions. Cr�ation du fichier kNN_test04.py, �crire le code suivant:

Ex�cutez le code, les r�sultats pr�sent�s dans la figure 3.8.

�Figure 3.8 sklearn r�sultats d'exploitation

Le code ci-dessus utilise les param�tres de l'algorithme sont auto, changer les param�tres de l'algorithme de brute, recherche violente, vous constaterez que le temps courir plus, devenir 10s +. N_neighbors changer les param�tres, vous trouverez des valeurs diff�rentes, la pr�cision de d�tection est diff�rent. Vous pouvez essayer de modifier ces param�tres sont d�finis pour approfondir la compr�hension de sa fonction.

IV R�sum�

Les avantages et les inconv�nients 1.kNN algorithme

avantage

Facile � utiliser, facile � comprendre, de haute pr�cision, la maturit� th�orie, les deux peuvent �tre utilis�s pour la classification peut �galement �tre utilis� pour le retour;

Et les donn�es num�riques peuvent �tre utilis�es pour des transactions distinctes;

la complexit� du temps de formation est en O (n), en supposant l'absence de donn�es d'entr�e;

Pas sensible aux valeurs aberrantes

d�faut

Haute complexit� de calcul, une grande complexit� spatiale;

d�s�quilibre �chantillon (nombre �lev� d'�chantillons certaines cat�gories, tandis que le nombre d'autres �chantillons rarement);

En g�n�ral, beaucoup de valeur quand pas, trop de calculs. Mais un seul �chantillon et non trop peu, ou sujettes � une classification erron�e.

Le plus grand inconv�nient est la signification int�rieure des donn�es ne peut �tre donn�e.

2. Autres

A propos kd_tree principe de param�tres de l'algorithme, vous pouvez voir les � m�thodes statistiques Li Hang, � explique le livre;

� propos des m�thodes de mesure de distance, ainsi que la distance Chebyshev, la distance Mahalanobis, la distance Bhattacharyya;

Article suivant explique l'arbre de d�cision, vous �tes invit�s � y participer!

Si vous avez des questions, s'il vous pla�t laisser un message. Si elle est mauvaise, mais regardez aussi me corriger, je vous remercie!

V. R�f�rence Description

Film classement mentionn� dans cet article, les sites de rencontre appariement d�termination de l'effet, des exemples de reconnaissance de l'�criture et des ensembles de donn�es num�riques sont de la � v�ritable apprentissage de la machine, � le plus proche voisin du deuxi�me chapitre.

Le chapitre de partie pr�s de la th�orie de l'algorithme de cet article, la r�f�rence de � m�thodes d'apprentissage statistique Li Accrocher �, le troisi�me chapitre k-voisin le plus proche et � combat l'apprentissage de la machine, � les.

Cliquez sur le coin inf�rieur gauche " Lire l'original � D�partement, peut entrer dans le savoir presque chroniqueur, vous pouvez voir la version compl�te haute d�finition du code

Vous pouvez d�verrouiller plus d'articles de qualit� ~

- FIN -

recrutement sinc�re

Qubits recrutent �diteur / journaliste, bas� � Zhongguancun de Beijing. Nous attendons de talent, des �tudiants enthousiastes de nous rejoindre! D�tails, s'il vous pla�t interface de dialogue qubit num�ro public (QbitAI), r�ponse mot "recrutement".

qubit QbitAI

' � suivre les nouvelles technologies AI dynamiques et de produits

Route de la soie

Apprenez � conna�tre la Chine

� Apprentissage machine r�elle � notes d'�tude: K- le plus proche voisin l'entr�e et le combat (dix mille mots l'article)

plus proche voisin de Un simple

Deux .k- algorithme de correspondance de site de rencontre l'effet r�el des voisins de jugement

Trois, K- plus proche voisin la reconnaissance manuscrite num�rique r�elle de sklearn

IV R�sum�

V. R�f�rence Description