Li Feifei Président de l'Université de Stanford notes de cours CS231n: K & linéaire classification du plus proche voisin

Lei Feng note de réseau AI Technology Review: Ce cours est Li conférencier Feifei cours Stanford CS231n vision informatique, Zhuhai College de l'Université de Jilin, Zhao Yifan ont été consolidées zone des notes. Remarque Si une erreur, s'il vous plaît laissez-moi savoir. section correspondante présente: une classification du pilote de données d'image: K le plus proche classificateur linéaire voisin. La section précédente: Computer Vision Histoire et introduction

Les photos reviennent pour discuter KNN:

Nous pouvons voir qu'il est en fait pas très bonne performance. Ici, en rouge et vert, la précision de la classification de l'image dépend de la valeur de son voisin le plus proche, vous pouvez voir l'effet de la performance de KNN est pas très bon, mais si vous utilisez une plus grande valeur de K, le résultat de l'opération de vote, il peut atteindre les trois premiers, ou cinq, même toute la gamme de données.

Lorsque vous utilisez cette méthode pour récupérer une donnée adjacente, il est prévu que cela produira une plus grande robustesse au bruit. Il y a une autre option, qui est, quand un algorithme du plus proche voisin K-, déterminer comment les données comparant la valeur de distance par rapport à côté de transmettre différents.

Par exemple, à ce jour, ont montré la distance L1 a été discuté, qui est la somme de la différence absolue entre les pixels, un autre choix commun est la distance L2 est la distance euclidienne, à savoir, en prenant la place de la somme des racines, et ce comme la distance.

Choisissez une mesure de distance différente est en fait un sujet très intéressant, parce que dans des dimensions différentes, faire des hypothèses différentes sur la géométrie ou de la topologie de l'espace sous-jacente prévue dans.

En ce qui concerne la distance L1 et la distance L2 représentée dans ce qui suit sur la base de ce fait, un carré et un cercle autour de l'origine, chaque point sur la L1 sont à égale distance de l'origine du carré de la distance, la distance sera similaire est un cercle, on dirait que vous attendez.

Il a mis en évidence une question intéressante entre les deux méthodes:

  • distance L1 dépend du système de coordonnées de votre choix, si vous choisissez la distance entre l'axe L1, le point va changer, changer aucun effet sur la distance axe L2, quelle que soit la façon dont le type de coordonnées, une distance L2 est déterminée valeur.

  • Si vous entrez dans un certain nombre de vecteurs de caractéristiques, certaines des valeurs dans le vecteur il y a une tâche importante, L1 peut être plus approprié.

  • Mais si c'est juste un vecteur commun d'un espace qui ne connaît pas la signification des différents éléments, alors L2 serait plus approprié pour certains.

Un autre point:

En utilisant différentes mesures de distance, K- classificateur voisin le plus proche peut être généralisé à de nombreux types de données, plutôt qu'un vecteur, non seulement l'image. Par exemple, supposons que vous voulez classer le texte, alors seulement besoin de spécifier une fonction de distance KNN qui permet de mesurer la distance entre deux mots ou deux mots. Ainsi, en spécifiant simplement une mesure de distance différente, il peut très bien être utilisé dans l'algorithme pratiquement tout type de données.

Choisissez une mesure de distance différente est une question intéressante en géométrie.

La gauche peut voir un ensemble de distances L1, L2 de la droite est utilisée.

Comme on peut le voir, le classificateur limite de décision est en fait une grande différence:

  • L1 tend à frontière de décision avec l'axe, car la L1 en fonction du choix des coordonnées;

  • L2 sorte de la distance et les coordonnées ne sera pas affectée, mais la frontière placé là où il est le plus naturel.

Comment déterminer ces paramètres en fonction des questions et des données ultra?

Sélectionnez une grande précision peut être donné l'ensemble de la formation, les paramètres les plus performants super. Ceci est en fait une très mauvaise idée, ne le faites pas.

Par exemple, avant que l'algorithme de classification voisin le plus proche K-, en supposant que K = 1, classez toujours parfaitement les données de formation, donc si cette stratégie toujours choisir K = 1, mais comme on le voit dans le cas avant, dans la pratique K prend une valeur plus grande, bien que la formation se concentrera sur les points de données erronées, mais pour le mieux n'a pas été vu dans l'ensemble de la formation de la performance de classification des données, dans la finale à l'apprentissage de la machine, soucieux de ne pas adapter l'ensemble de la formation possible, mais de rendre les données inconnues classificateur en dehors de l'ensemble de la formation sur une meilleure performance.

Une autre idée est de diviser les données en deux parties, l'ensemble de la formation, une autre partie de l'ensemble de test, l'algorithme de formation avec des paramètres différents dans le jeu super formation, le classificateur formé est utilisé dans un ensemble de test, puis sélectionnez une groupe a montré les meilleurs paramètres de super sur l'ensemble de test.

Cela semble être une stratégie raisonnable, mais en fait est très mauvais. Parce que le but est de comprendre comment les performances de l'algorithme d'apprentissage machine, la méthode est juste un ensemble de test des estimations qui montrent comment l'algorithme sur les données n'a pas rencontré, si différents paramètres tels une stratégie différente de l'algorithme ultra-formation, puis sélectionnez le plus performant des paramètres super-ensemble sur le test, il est susceptible de sélectionner un groupe d'hyper-paramètres, laissez l'algorithme sur cet ensemble de jeux de tests de bons résultats, mais les performances de ce groupe de jeu de test ne peut pas être représentée à l'autorité invisible sur les données de performance.

pratique plus courante consiste à séparer les données en trois groupes: la majorité de l'ensemble de la formation et un ensemble de validation, un ensemble de test. , Exécutée sur l'ensemble de la formation différents paramètres de formation ultra-évaluation sur l'ensemble de validation, puis sélectionnez un ensemble de paramètres pour évaluer la meilleure, puis mettre cet ensemble de données dans l'ensemble de test pour une course, est d'écrire du papier données, ce sont les performances de l'algorithme sur les nouvelles données ne se voit pas.

Il y a une méthode conçue paramètre ultra est la validation croisée.

Plus couramment utilisé sur les petits ensembles de données, comment couramment utilisé dans l'étude approfondie. L'idée est de supprimer l'ensemble des données de test, l'ensemble du jeu de test de rétention de données utilisée pour la dernière dans le cadre de, pour le reste des données est divisé en plusieurs parties, dans ce cas, chacun d'eux à son tour comme l'ensemble de validation.

Après validation croisée, de sorte qu'une carte sera:

L'axe des abscisses représente la valeur du paramètre classificateur voisin le plus proche K- K, l'axe y représente la différence de précision de classification des données K. Dans cet exemple, avec une 5 fois la validation croisée, ce qui signifie que pour chaque valeur K de l'algorithme sont fait cinq tests pour savoir comment se comporter.

Utiliser la validation croisée K fois pourrait être une bonne façon de le quantifier, il peut être observé la performance de l'algorithme de variance sur un ensemble différent de validation, en même temps, conduira non seulement à mieux connaître, mais aussi pour voir l'effet de l'algorithme de distribution.

En fait, KNN est rarement utilisé dans la classification d'images, y compris les raisons de tous les problèmes mentionnés. Tout d'abord, il est une très longue durée de fonctionnement pendant le test, et il ne correspond pas aux exigences mentionnées juste, un autre problème est que, comme la distance euclidienne ou distance L1 une telle mesure utilisée dans l'image de comparaison est vraiment pas approprié. Cette fonction vectorisé pas de distance appropriée indique le degré de similitude entre l'image visuelle.

La figure figure à gauche et à droite trois filles après des photos de différents traitements, s'ils calculent la distance euclidienne et uvres d'art, sera la même réponse, qui n'a pas voulu. L2 peut le sentir ne rentre pas dans l'image entre la perception visuelle des différences.

Il y a aussi un problème appelé malédiction de la dimensionnalité, si vous vous souvenez de la description des voisins K, il est un peu comme un point de formation de l'espace de l'échantillon en morceaux, ce qui signifie que si vous voulez avoir un meilleur résultat de la classification, les données peuvent nécessiter une formation intensive répartis dans l'espace. Dans le cas contraire, le point le plus proche de la distance réelle peut être très loin.

Le problème est, vous voulez être densément répartis dans l'espace de données, des moyens de formation que les données de façon exponentielle.

Résumé:

Nous présentons les idées de base KNN font la classification d'images, avec l'ensemble de la formation d'images et l'étiquette correspondante, on peut prédire l'ensemble de test de classification des données.

Ce qui suit décrit le réseau de neurones, le réseau de neurones sera généralement assimilé à jouer haut.

Il peut être combiné différents types de composants de réseau neuronal ensemble pour construire autre réseau de convolution grand, l'un des blocs de construction de base qui se voit dans une étude approfondie des différents types d'applications. Certains laboratoires de recherche des légendes d'images tels exemples se rapportant à la nature modulaire des réseaux de neurones vient.

Une image d'entrée et délivre une description descriptive de la phrase de l'image. Un tel travail est effectué par une convolution image réseau de neurones d'intérêt et une préoccupation que la langue du réseau de neurones récurrent composé de ces deux réseaux sur le dernier train pour obtenir un système super puissant pour faire grand chose.

De tels paramètres linéaires modèle de classificateur est le plus exemple simple:

Paramètre du modèle a en fait deux parties différentes à cette image comme un exemple, un groupe de chats gauche, il y a un paramètre de poids ensemble, communément appelé W, parfois appelé . Maintenant écrire certaines fonctions incluent les données d'entrée x et les paramètres thetav, correspondra à une sortie numérique 10 ICRA-10 en 10 catégories correspondant aux points correspondants. D'après la description ci-dessus, par exemple, une plus grande fraction du chat, et x est plus susceptible d'entrer dans la surface du chat.

Dans le dernier set paramètres aucun algorithme voisin, il a remplacé normalement réservé à tous les types de jeu de formation et utilisé dans l'essai. Mais maintenant, dans une approche paramétrique, les données de formation seront résumées et toutes les connaissances nécessaires pour utiliser ces paramètres W, dans un temps de test, les données de formation proprement dite n'est plus nécessaire, seulement besoin d'utiliser le paramètre W, ce qui rend le modèle plus efficace et peut même fonctionner sur les petits appareils tels que les téléphones mobiles.

étude approfondie, toute la description sont sur la structure correcte de la fonction F peut être préparé par l'imagination des formes différentes fonctions, avec des poids complexes et des données de combinaison, qui peuvent correspondre à différentes architectures de réseau neuronal.

Par conséquent, F (X) = Wx est un moyen simple classificateur linéaire, si l'équation ci-dessus peut dimensionner hors de la solution, à condition que la valeur de l'image d'entrée est de 32 * 32 * 3, puis de les amener à des valeurs qui se développe dans un 3072 vecteur colonne à long terme, vous voulez venir à marquer 10 classe. Pour cette image, veulent obtenir les 10 derniers chiffres, pour donner les scores correspondants pour chaque catégorie, qui est, est maintenant 10 W * 3072 matrice, X est la matrice de 3072 * 10, et donc, une fois les deux phases se multiplient, nous donnerons un vecteur de colonne, un score de 10 catégories.

Habituellement ajouter un terme de biais, il est souvent un vecteur de 10 éléments, il ne Interagir avec les données de formation, mais seulement à certaines des données indépendamment de la valeur de décalage.

Voici un exemple de simple. La gauche est une image simple, de sorte que le travail est le classificateur linéaire 2 * 2 dessin d'image dans un vecteur de colonne avec quatre éléments.

L'hypothèse ici que trois cas, la matrice de poids est maintenant 4 * 3, peut être comprise comme méthode de classification presque linéaire de correspondance de gabarit, chaque rangée de la matrice correspond à une image modèle. Le produit ou le produit scalaire des rangs de la matrice d'entrée, pour obtenir ainsi des pixels de l'image. Le calcul du produit scalaire peut être obtenu entre la matrice et les images à base de pixels, il existe une similitude, le décalage des données d'échelle en regard de chaque classe et une quantité de décalage de polarisation.

Si elle est basée sur cette perspective de mise en correspondance de modèle, pensez classificateur, en fait, vous pouvez prendre le vecteur de ligne de la matrice de poids, et de les restaurer sous forme d'images. Dans cet exemple, à un bon linéaire classificateur sur l'image d'apprentissage, la partie inférieure de l'ensemble de données d'apprentissage est un vecteur ligne de la matrice de pondération correspondant à la visualisation dépendant de la classe 10 des résultats.

Par exemple, l'avion par les classes moyennes semblent bleu modèle similaire marbré graphiques fond bleu et la composition, qui produit un avion classificateur linéaire peut être à la recherche graphique et le sentiment point bleu comme modèle, et ensuite faire ces actes ce classement est plus comme un avion. La catégorie de voiture du modèle peut être vu au milieu d'une tache rouge comme des objets, ainsi que dans la partie supérieure du pare-brise est un point bleu comme des objets.

Mais ceux-ci semblent étranges, ce n'est pas une chose réelle, donc il y a un problème, classificateur linéaire ne peut apprendre un modèle pour chaque catégorie, cette catégorie s'il y avait un certain type de variante, il va tenter de obtenir la moyenne de toutes ces différentes variantes, et utiliser un seul modèle pour identifier chacune de ces catégories.

Un autre point de vue sur le classificateur:

Retour à l'image, comme un point de l'espace et des hautes latitudes du concept peut être considéré de chaque image sont espace de grande dimension un point, et maintenant ce classificateur est une tentative de classificateur linéaire pour tirer sur la surface de ces limites de décision linéaire de diviser une classe et les autres catégories restantes. Dans le coin supérieur gauche, a vu le plan de l'échantillon utilisé pour la formation, de formation, cette classification tentera de tracer une ligne droite pour diviser cet avion bleu et d'autres catégories.

Si vous regardez le processus de formation, les lignes commenceront au hasard, puis transformer rapidement une tentative de séparer les données zone correcte.

Mais lorsque l'espace de grande dimension à partir du point de vue du classificateur linéaire, classificateur linéaire peut voir les problèmes qui peuvent survenir à nouveau:

Pour construire un échec complet de classificateur linéaire de l'échantillon de données ne sont pas difficiles. A gauche, considérons un ensemble de données de deux catégories, toutes ces données peuvent ou partiellement artificielle. Ensemble de données a deux rouge et le bleu, le bleu et le nombre de pixels dans l'image, cela est supérieur à 0 et est un nombre impair, un nombre quelconque de pixels plus grand que l'image de la propriété de la catégorie rouge 0.

Si vous avez vraiment de dessiner ces différents domaines de la prise de décision, vous pouvez voir les pixels bleus dans la catégorie bizarre a deux quadrants dans l'avion, ou même deux quarts de cercle opposés. Donc, il n'y a aucun moyen de tracer une ligne droite à une division distincte du bleu et rouge, c'est le sort d'un classificateur linéaire.

D'autres cas difficiles à résoudre classificateur linéaire est un problème multi-classification. Du côté droit, il peut être présent dans la catégorie bleue trois quarts de cercle différents, et tous les autres sont une autre catégorie. Donc, pour quelque chose comme les chevaux vus dans les exemples précédents, bien sûr, il y aura des cas dans la réalité, dans les chevaux de l'espace de pixels, il peut sembler une tête à gauche, une autre tête regardant vers la droite. Il n'y a pas de bonne façon de tracer une limites linéaires entre ces deux catégories.

Lorsque plusieurs données de modalité, qui est où le classificateur linéaire peut avoir des difficultés.

Il y a beaucoup de classificateur linéaire de problèmes, mais il est un algorithme super simple, facile à utiliser et à comprendre.

(Fin)

Le Japon continue boum! Plus NMD R2 PK Japon version couleur!
Précédent
drapeau de nuit, les enfants défient Sud 100 victoires consécutives, a perdu l'engagement d'aller défier un stimulus de mouvement particulier
Prochain
« Fer de la honte Honte poing »: un doux euphémisme, rire avec condescendance sur elle!
La voiture de route la plus forte réelle / 911 le plus rapide a dévoilé 911 GT2 RS
« Dragon Ball Z combattant » en même temps comment capturer les hard-core gamers et de l'anime fans?
Non terminé mère école primaire cultiver fille talentueuse, les quatre mots sont la clé ......
Pensez-vous que la deuxième vague de Vans x ARACHIDES seulement quatre paires de chaussures si simple! ? Maintenant, la série de produits uniques ne libèrent pas le clapot main trop tard!
2019 la plupart des compagnies de voyage de confiance de Chongqing (attractions) ont publié conjointement la Déclaration de 3,15 crédit
Recommandation de vacances: Pourquoi sommes-nous sur la « Répondre 1988 » ne se lasse jamais!
ARM publié le premier support multi-threading véhicules autonomes noyau Cortex-A65AE
Sélectionnez une difficulté croissante! KITH x NIKE deuxième vague de l'âme forte entrant, le léopard ou noir? Ceci est un problème!
Avantages de vieilles photos que vous avez vu quelques-unes, UZI est un mince garçon ressemblance DGDP sourire en coin
« L'histoire en forme de l'eau » capture du lion de Venise, laissez-nous dans le monstre « gyroscopique » labyrinthe it!
14188 yuans! Huissier MacBook Pro mis à jour: 8ème génération U six curs, clavier papillon mieux