Les produits secs | usage kNN de fantaisie

Technologie AI Revue de presse , Auteur rire Wei Yi, nous savons presque colonnes � partir de code simple (zhuanlan.zhihu.com/skywind3000),AI Technology Review sa r�impression autoris�e. Ce qui suit est le texte:

kNN (k-plus proches voisins) comme un mod�le d'entr�e de gamme, car � la fois simple et fiable, un bon soutien pour le probl�me non lin�aire, bien que la n�cessit� de sauvegarder tous les �chantillons, mais encore actifs dans divers domaines, et de fournir un r�sultat de reconnaissance plus robustes.

Vous pourriez dire, je sais kNN ah, ne pas est de trouver les k plus proches des �chantillons de formation � des �chantillons de test dans l'espace de fonction, puis d�terminer la plupart appartiennent � une cat�gorie, il reconna�tra cette cat�gorie.

Ceci est un livre / pr�sentation sur le r�seau le plus rh�torique kNN, si seulement pour que je ne vous �cris pas l'article. En fait, avec une bonne kNN, il peut vraiment �tre une fleur, plus les choses plus fondamentales et nous devons jouer, est-ce pas?

La premi�re: Classification

�vitez les gens ne savent pas, ou simplement prendre l'id�e de base pour la prochaine classification kNN.

Pour l'�chantillon de test Xu, nous voulons savoir quelle cat�gorie il appartient, au premier cycle pour tous Des �chantillons de formation Identifier � partir de Xu K plus proches voisins (k = 5), et d�termine ensuite les voisins K, dont la plupart appartiennent � la cat�gorie, la cat�gorie en tant que r�sultat de pr�diction des �chantillons d'essai, tel que d�crit dans. La figure 4 est un voisin rouge, 1 il est vert, le juge Xu cat�gorie pour � rouge �.

Le deuxi�me: Retour

Le point �chantillon, tracer une courbe, les points d'�chantillonnage obtenus pour minimiser l'erreur, puis donn�s coordonn�es arbitraires, la courbe de la valeur de retour, appel� la r�gression. Alors, comment ne kNN le retourner?

Vous avez une s�rie d'�chantillons les coordonn�es (xi, yi), puis �tant donn� un point de coordonn�es test de valeurs x, y qui correspondent � trouver la courbe de r�gression. KNN avec elle, la meilleure fa�on est d'enlever la k coordonn�e x de l'�chantillon le plus proche, et leurs valeurs y sont en moyenne:

Le vert est la courbe ajust�e, en utilisant sklearn � l'int�rieur KNeighborsRegressor, vous pouvez voir la r�gression non lin�aire bonne affaire, mais il peut aussi �tre re-optimisation, les voisins k, en fonction de leur test � partir du point de coordonn�es x traitement pond�r� la distance r�ciproque d 1 / d:

w = <1 d �for i in range (k)>

y = somme (<(w �* Y ) Pour i in range (k)>) / somme (w)

Si x et d'un �chantillon co�ncident exactement, di = 0, alors, 1 / d ne parvient pas � l'infini, la valeur y est de prendre directement l'�chantillon, sans tenir compte d'autres points de (sklearn pratique), la valeur Y ainsi obtenue est relativement plus fiables a:

Une telle erreur est beaucoup plus petite, la m�thode de calcul de la moyenne avant ne consid�re pas la valeur de la distance y en uniforme vis� sklearn, la derni�re distance est appel�e poids lourds � distance font.

Ici, l'effet d'ajustement de courbe est tr�s belle, vous faites baisse avec un gradient ou adaptation par moindres carr�s impossible � r�aliser un tel effet, m�me si la r�gression vecteur de soutien SVR ne peut pas faire une telle m�thode � faible taux d'erreur. Si vous vous sentez un peu plus ajust�, vous pouvez ajuster la valeur de K, tels que l'augmentation de la valeur de K, peut rendre la courbe plus lisse nombre.

approche Wi mieux est d'exp (-d), de sorte que d = 0 lorsque la valeur 1, d infini lorsque pr�s de 0:

w �= Math.exp (-d )

Donc, m�me si x et un �chantillon de formation ne co�ncidera pas ou sont tr�s proches de l'infini inflig� wi, alors le droit d'ignorer d'autres �chantillons de poids, afin d'�viter le genre de probl�mes de sklearn rencontr�s qui sont des valeurs aberrantes doivent au-del� du p�rim�tre, courbe sera plus lisse.

Troisi�me: identification d'une seule classe

mais le classement d'une classe / identification: Outliers / d�tection des valeurs aberrantes, ce qui est tr�s utile. Nous partons du principe que l'application a besoin d'identifier cinq geste d'utilisateur diff�rent, le classement g�n�ral ne vous dira quel type d'une action appartiennent � 1-5, mais si l'utilisateur est de faire un geste de fonctionnement non normal, nous devons identifier � ne appartiennent tout type � et ne n�cessitent aucun traitement est effectu� dans le module geste directement ignor�.

La chose la classification traditionnelle est difficile en raison des �chantillons n�gatifs sont infiniment beaucoup, beaucoup � impossible d'�num�rer tout le geste suppl�mentaire, nous ne pouvons pr�lever un �chantillon positif. Ceci est 0-9 et la reconnaissance de l'�criture manuscrite sont les m�mes, par exemple, un utilisateur a �crit une lettre A, nous devons juger une d'une image d'entr�e est pas dans le 0-9, mais en plus nous ne pouvons pas �num�rer tous les �chantillons 0-9 Exceptions possible.

Cette fois-ci identifiant une classe a jou� un r�le de premier plan, nous allons tous les �chantillons 0-9 comme entr�e � �chantillon positif �, si le test lors de la d�tection des valeurs de test de d�tection �galement appartiennent � la m�me cat�gorie, ou appartenant � une cat�gorie n�gative ill�gale. kNN de le faire est tr�s facile, nous utilisons la m�thode d'estimation locale densit� NN-d:

Le proc�d� consiste � traiter l'�chantillon de test z, d'abord trouv� dans l'�chantillon d'apprentissage dans un le plus proche B, calculer z � la distance du point B d1 voisin, puis trouv� de B sur le point le plus proche C dans l'�chantillon de formation, calcul�e distance BC d2, si:

d1 < = Alpha * d2 # alpha prennent g�n�ralement 1

Z �chantillon a ensuite accept� (identifi� comme cat�gorie positif), ou la rejeter (cat�gorie de reconnaissance n�gatif). Cette m�thode est relativement simple, mais si l'�chantillon local trop dense, puis, d2 est tr�s petit, facile � identifier la cat�gorie n�gative a �t� rejet�e. Par cons�quent, une approche plus sophistiqu�e est de trouver le plus r�cent k �chantillon du point B dans les �chantillons de formation C1 - Ck et d2 agenc� de mani�re � la C1 - � la distance moyenne B est Ck. Cette m�thode est appel�e kNN-d, seulement un r�sultat de reconnaissance est choisi parmi C, NN-d sera beaucoup mieux qu'avant.

D'autres extensions, vous pouvez �galement choisir le point B jeme le plus proche z, les r�sultats j obtenus en utilisant la m�thode ci-dessus, le vote final si z est accept�e, appel�e m�thode j-kNN-d, la m�thode ci-dessus mentionn� est j = 1 est un cas particulier.

Proc�d� de d�tection de contraste ONE_CLASS de SVM, (j) kNN-d pr�s de r�sultat de reconnaissance, mais augmente lorsque les dimensions de caract�ristique, la pr�cision de d�tection du SVM ONE_CLASS diminue consid�rablement, et (j) mod�le kNN-d peut �tre mieux r�sultats.

LIBSVM en trois utilisation: la classification, la r�gression, ONE_CLASS (d�tection des valeurs aberrantes), mais aussi la supervision des trois principaux types de probl�mes d'apprentissage, ici nous avons tous r�alis� avec kNN encore, si vous �chantillon �tait pas tr�s grande, ne veulent pas introduire chaque esp�ces d�pendances de package, puis kNN est l'un des plus simples et des alternatives fiables.

Quatri�me: Avec le noyau

Commun�ment appel� kNN bas� sur le noyau, la raison MVB est d'atteindre un plus grand d�veloppement apr�s l'introduction de la fonction du noyau, alors que la fonction SVM n'est pas unique, d'autres mod�les peuvent �galement �tre greff�es noyau, cette m�thode est appel�e � m�thodes nucl�aires �.

kNN est l'�tape la plus critique est de calculer la distance d (xi, xj), cette m�thode pour trouver la distance il y a beaucoup, comme la distance euclidienne traditionnelle:

Ou Manhattan distance:

En fait, la fonction de distance pour faire toute une histoire, donc apr�s l'introduction de la m�thode kNN nucl�aire est �galement un probl�me dans la fonction de la distance.

L'id�e de base est de vecteur caract�ristique de faible dimension est cartographi� de fa�on lin�aire indissociable lin�airement s�parables dans l'espace caract�ristique dimensionnelle (il peut y avoir une dimension infinie), le vecteur x est associ� � un espace de grande dimension appel� (x), la fonction du noyau [Phi] K ( xi, xj) repr�sentent le produit de deux vecteurs espace de grande dimension interne, ou un point produit:

K (xi, xj) = (xi). (xj)

fonctions du noyau populaire et comme SVM il y a si peu, comme le noyau gaussien couramment utilis� (RBF):

noyau polynomiale (POLY):

Et un noyau lin�aire (correspondant aux coordonn�es de points traditionnels europ�ens):

Ensuite, l'espace de grande dimension, la distance entre deux points, apr�s la place de nucl�ation de la distance peut �tre exprim�e comme:

Apr�s une transformation, nous mettons (xi) et (xj) �limin� et complet par rapport � xi, xj fonction du noyau pour exprimer la distance, n'a pas besoin directement xi, xj transform� en espace de grande dimension que rechercher la distance, mais calcul� directement avec la fonction du noyau.

Si vous n'�tes pas familier avec les m�thodes nucl�aires, vous pouvez sauter choisir au hasard une fonction noyau, dans la formule de distance peut �tre utilis�e pour r�soudre deux �chantillons du point de kNN.

Kai Yu a fait valoir une meilleure classificateur kNN bas� sur la m�thode du noyau que la performance du classificateur kNN traditionnel � noyau algorithme du plus proche voisin � (https://link.springer.com/article/10.1023/A:1015244902967) parce que il suffit de changer la mesure de distance pour un moment, de sorte que le temps global et classificateur kNN traditionnel toujours similaire, mais l'effet est beaucoup mieux:

Sur diff�rents ensembles de donn�es, la technologie nucl�aire que la performance traditionnelle kNN kNN peut �tre plus pr�cis et stable, ils utilisent les donn�es US Postal Service et BUPA les donn�es en direct de trouble est valid�, les r�sultats montrent que la nucl�ation avait une pr�cision de classificateur kNN nettement mieux que kNN traditionnelle, et SVM gagner un combat:

De m�me, Shehroz Khan et al., � Noyaux pour une classe la plus proche Classification Neighbour � v�rifier la nucl�ation kNN atteint mieux que SVM capacit� de reconnaissance d'une seule classe sur le probl�me de la classification d'une seule classe sur plusieurs ensembles de donn�es atteint 87% --95% de pr�cision.

Cinqui�me: avec la division des technologies spatiales

Pour l'�chantillon � grande �chelle la performance kNN est pas �lev�, il a introduit un grand nombre de techniques de segmentation de l'espace, comme kdtree:

Une donn�es spatiales est la structure binaire, est tr�s simple � construire ou de s�lectionner un des axes de coupe (les axes de tous les �chantillons de la variance maximale) et les valeurs d'�chantillons sont class�s par l'axe de coordonn�es, qui est d�coup�e en parties de deux bits gauche et droite, puis continuer coupe recursive jusqu'� ce que le noeud courant est seulement un �chantillon jusqu'� pr�sent.

Rechercher des mots sur la premi�re recherche r�cursive les nuds feuilles du point cible z se trouve, un �chantillon du nud contient x comme le � point le plus proche courant �, puis x � la distance z d est le rayon, la port�e r�cursive z de l'arbre entier comme la recherche de centre (Si une sph�re sous-arbre ne coupe pas la port�e et la r�cursivit� n'est pas vers le bas), le point le plus proche doit se situer dans la plage, une fois le point plus proche de trouver instantan�ment plage �troite.

kdtree Il y a beaucoup d'articles en ligne et probl�me d'espace de code ne va pas entrer dans les d�tails, je veux juste souligner que la plupart des kdtree en ligne est de vous aider � trouver le voisin le plus proche, mais r�cents voisins k comment trouver? La plupart des articles ne pas dire une petite partie a dit que c'�tait faux (juste une approximation).

Vous devez maintenir une longueur de la file d'attente prioritaire de K (ou tas maximum), trouver les voisins les plus proches sur la base de l'�chantillon de fr�res et soeurs adjacent est rempli dans la file d'attente jusqu'� ce que la file d'attente est des �chantillons complets k, cette fois � z est centre, �chantillon file d'attente k-i�me le plus proche z est le rayon de l'arbre kd pour faire une plage de recherche (premier point de k doit �tre comprise dans l'intervalle), le processus de recherche continuellement mise � jour et la file d'attente de priorit� en temps voulu en fonction de la derni�re k-th �chantillonner le r�glage de la distance z du rayon.

Ainsi, vous pouvez localiser avec pr�cision le premier k z de l'�chantillon le plus proche. arbre kd et dimensions li�es, lorsque la dimension de l'�chantillon est peu �lev�, arbre kd rapidement, mais apr�s les dimensions d'�chantillonnage �lev�es, la performance arbre kd Commencerons diminu�. Alors que l'arbre kd � calculer que les axes de coordonn�es, il ne convient que pour la coupe dans l'espace euclidien.

Si nous utilisons une m�thode kNN nucl�aire, puis, arbre kd ne serait pas en mesure d'utiliser, parce que les caract�ristiques du temps sont mis en correspondance avec l'espace de Hilbert-dimensionnelle pass�, il peut y avoir une dimension infinie, les arbres kd ont mis � l'�cart.

Nous avons donc besoin m�thode super espace rondelle fendue.

Sixi�me: Super espace sph�re divis�e

En fait sklearn l'int�rieur du ballon-arbre, l'espace est aussi une dichotomie, mais il ne d�pend pas des axes de coordonn�es, la distance entre la solution ne n�cessite que deux �chantillons peuvent �tre construits, ce qui est naturel pour l'introduction de techniques nucl�aires:

Tous les �chantillons commencent � mettre la balle dans un super d�part, trouver un �chantillon lorsque le centre de X0 sph�re, de sorte que tous les autres �chantillons � sa plus courte distance maximale. Ensuite, trouver un point le plus �loign� de x1 x0, x1 pour trouver le point le plus �loign� de x2, puis la sph�re de tous les �chantillons en fonction du nouveau attribu� x1 x1, x2 de la r�cente assign�e � x2, et deux sph�res sous-Construct, puis la m�thode ci-dessus pour r�-ajuster le centre de la sph�re, puis r�cursion, jusqu'� et y compris seulement un �chantillon, il ne coupe plus, kdtree similaire.

Une autre approche consiste � �chantillonner tout au fond des nuds feuilles, chaque nud feuille contient beaucoup d'�chantillons, chemin de coupe pour d�terminer un noeud est le nombre d'�chantillons contenant moins si le seuil est pas coup�, proc�der autrement coupe.

Quand une plage de recherche et kdtree comme le noeud de d�but d�termine d'abord si le point cible sph�re hypersph�re z centr�e intersection cible (si l'ajout de deux rayon sph�rique > = La distance entre les deux balles coeur), saut� si aucune intersection, l'intersection, puis continuer � gauche et � droite du nud est d�termin� � prendre en charge les deux sous-sph�res se croisent, l'intersection, puis l'�tape ci-dessus est r�cursive r�p�t�, jusqu'� atteindre le nud feuille.

Depuis la plage de recherche repose uniquement sur le calcul de la distance, et � la fin il y a plusieurs dimensions du vecteur n'a pas d'importance, il ne faut pas que kdtree comme axes logarithmiques. Ainsi, en plus de la configuration bille arbre point long temps, l'efficacit� globale de plus de kdtree et � vecteur de dimension sup�rieure, la m�me d�gradation des performances que kdtree prend �galement en charge la version de nucl�ation kNN.

Kai Yu, qui a men� une donn�es postales par l'essai, l'augmentation du nombre d'�chantillons, l'irr�gularit� augmente, m�me cartographi� dans un espace de noyau de grande dimension, la situation se produit de fa�on lin�aire ins�parable, la pr�cision du SVM baissera, alors que �quip� sera en mesure de carottage kNN cette fois-ball arbre pour pr�senter une grande pr�cision, alors que les deux bonnes performances des requ�tes.

Septi�me: �chantillon redondant retir�

la performance kNN peut �galement r�duire l'impact en cas de r�sultats de la classification des �chantillons redondants supprimer pour am�liorer les performances, comme le condens� classique algorithme le plus proche Neighbours R�duction des donn�es:

En bref premier point d'�chantillonnage est supprim�, puis d�terminer ce point avec d'autres �chantillons, si le r�sultat est correct, qui est un point redondant peut �tre supprim�, si cela r�serv� incorrect.

Apr�s l'�chantillon apr�s la r�duction et les donn�es d'origine ne sont pas les m�mes, le r�sultat est une solution approch�e pour r�soudre, tant que l'erreur contr�l�e, peut grandement am�liorer les performances de recherche kNN, l'effet est suit comme:

Le point de cercle est enlev� dans l'�chantillon, de gauche � droite peut �tre vu qu'un nombre limit� d'�chantillons sensiblement au niveau des parties de bord sont retenues, le r�sultat est tr�s attrayant.

Comme le devant de la division de la technologie spatiale n'affectera pas les r�sultats de la solution, si grande �chelle kNN g�n�ralement la premi�re sur une boule-arbre, pas assez sur l'�chantillon rapide redondant enlev�. La seule mise en garde est d'�liminer la redondance affectera la reconnaissance d'une classe ou d'autres choses de calcul de densit� d�pendante, besoin de faire un peu de traitement suppl�mentaire.

r�sum� du sujet

Il y a beaucoup d'utilisation prolong�e, comme la recherche avant d'ajouter k plus proches voisins quand une distance d, ne rechercher que des �chantillons dans la distance cible d, qui peut r�soudre un probl�me d'une classe indirecte, si les deux sont tr�s loin de tous les �chantillons, vous pouvez Retour � rien �, la s�lection peut �tre multipli�e par un alpha D est calcul�e en fonction de la densit� moyenne du m�me �chantillon.

Dans la classification, s�lectionner simultan�ment une pluralit� de voisins des r�sultats peut �galement �tre bas�e sur les r�sultats de vote pond�r� en distance, comme la distance r�ciproque mentionn� ci-dessus, ou exp (-D) quand le poids avant le vote.

kNN � cause d'une simple erreur contr�l�e (il existe des preuves), peut traiter les probl�mes non lin�aires, il est toujours actif dans une vari�t� d'applications, il a �galement pr�sent� plus t�t les moyens d'�tendre ses utilisations, la fa�on dont les fonctions du noyau r�duisent son erreur, et comment utiliser l'espace la technologie de segmentation pour am�liorer ses performances.

Bref, bien que tr�s simple, mais il vaut un bon moment, pour obtenir un bon ajout � la biblioth�que classification kNN, r�gression, anomalie reconnaissance, avec la coupe de la sph�re ultra-espace peut faire beaucoup de choses li�es au cluster. Bien utilis�, il ne vous laissera pas tomber, vous pouvez devenir une arme puissante auxiliaire lorsque l'arme principale ne peut pas �tre utilis� � et appel beck.

Cliquez pour lire le texte, voir les �changes technologiques Python groupe de discussion

Route de la soie

Apprenez � conna�tre la Chine

Les produits secs | usage kNN de fantaisie