Rectifie Perceptron (Perceptron de)

Perceptron (Perceptron) est une classification de seconde classe modèle de classification linéaire, qui est un exemple du vecteur de caractéristique d'entrée, la sortie des instances de la classe, en prenant des valeurs de +1 et -1 deux. Perceptron dans l'espace d'entrée correspondant aux exemples positifs et négatifs est divisé en deux modèle discriminant hyperplan de séparation appartient. Perceptron apprentissage destiné à obtenir des données de formation pour la séparation divisée linear hyperplan, introduit pour cette fonction de perte de classification erronée sur la base de la minimisation de la fonction de perte en utilisant une méthode de descente de gradient, on obtient perceptron modèle. Perceptron algorithme d'apprentissage est simple et facile à réaliser les avantages de la forme originale et est divisé en double forme. Perceptron est la base du réseau de neurones et de support vector machine.

Dessiner attention: il est tout simplement un modèle linéaire d'une classification dichotomique, perceptron l'apprentissage se fait par l'ensemble de données de formation, obtenu modèle Perceptron, les paramètres du modèle qui est requis.

perceptron Modèle

  • De l'espace d'entrée à l'espace de sortie comme une fonction appelée perceptron:

poids connus w (poids) ou le vecteur de poids, b est appelée le décalage (biais).

  • modèle principe perceptron: pour chaque poids d'attribut w, du produit des poids et des sommes poids des valeurs d'attribut, cette valeur et une valeur de seuil (0/1) sont comparés, il peut être déterminé si un travail dans cet exemple, le candidat.

  • Perceptron interprétation géométrique: équations linéaires représente une géométrie de classifieur linéaire: ligne, plan, hyperplan.

  • Rn correspondant à l'espace de fonctionnalité dans un hyperplan S, où w est le vecteur hyperplan normale , b est l'hyperplan d'interception. L'espace de fonction hyperplane est divisée en deux parties, deux parties des points situés sont divisés en types positifs et négatifs. Ainsi, un hyperplan de séparation hyperplan est appelé S (séparation des hyperplans).

Lei Feng réseau REMARQUE: Par exemple, dans le cas d'un plan à deux dimensions, la limite est une ligne droite, y = WTX, la valeur limite correspondante y est égal à 0, ce cas est pour cette ligne, la ligne de division est procédé W vecteur.

Perceptron est une étude rapide, et pourquoi il est rectifie?

1. En supposant que les ensembles linéairement séparables de données cible d'apprentissage perceptif est d'obtenir un ensemble d'apprentissage peuvent être des exemples positifs et négatifs Exemples de points séparés complètement correct points hyperplan. Pour trouver l'hyperplan, à savoir la détermination perceptron paramètres du modèle w, b, une stratégie d'apprentissage est déterminée, à savoir la définition de (expérience) fonction de perte et de minimiser la fonction de perte.

Une fonction de perte de la sélection naturelle est le nombre total de points mal classés, mais pas la fonction de perte w, b est continuellement fonction différentiables, l'optimisation est pas facile. Une autre option est la fonction de perte pour calculer les points distance totale hyperplan mal classés. l'entrée de bit de X0X0 à la distance spatiale S hyperplan dans un quelconque de:

De tout point à l'hyperplan

Perte de signe définition de la fonction Perceptron (w.x + b) apprendre à (focus):

Fonction de perte

Une perte de fonction de l'échantillon particulier, les erreurs de classification lorsque la fonction est une fonction linéaire de w et b, et est égal à 0 lorsqu'il est correctement classé, de sorte que lorsque la fonction de perte w et b en continu fonction différentiable.

Plan clé: stratégie d'apprentissage Perceptron est l'hypothèse que la perte d'espace fonction sélectionnée smallest paramètres du modèle de Perceptron w et b, qui est, le modèle Perceptron.

2. algorithme d'apprentissage Perceptron dans la résolution des problèmes d'optimisation Perceptron fonction de perte, l'optimisation de la méthode est une méthode de descente de gradient stochastique.

algorithme d'apprentissage:

Entrée: données d'apprentissage T, le taux d'apprentissage

Sortie: w, b; perceptron modèle f (x) = signe (+ w.x b)

(1) sélectionner la valeur initiale w0, b0

(2) mise au point sur les données d'apprentissage pour sélectionner (xi, yi)

(3) Si yi (w.xi + b) (4) Allez à (2), jusqu'à ce qu'il n'y a pas de point de consigne de formation mal classés (mauvaise classification répétera point a été mis à jour)

Sélectionnez une w0 hyperplane, b0w0, b0, puis en utilisant une méthode de descente de gradient pour minimiser la fonction objectif en continu

pente

Classification erronée d'un point sélectionné de façon aléatoire (xi, yi) (xi, yi), de w, b est mise à jour:

Où est la taille de pas, aussi connu comme le taux d'apprentissage. Une telle fonction itérative de perte attendue L (w, b) diminue de façon continue jusqu'à ce que 0.

Cet algorithme d'apprentissage d'explication intuitive: quand une instance de classe de manière erronée classé, à savoir, sur le mauvais côté de l'hyperplan de séparation, la valeur d'ajustement w, b de la partie mobile de l'hyperplan de séparation à un point de tri, afin de réduire la classification erronée du point à l'hyperplan, l'hyperplan jusqu'après le point qu'il est classé par erreur correctement classé.

  • Dans un premier temps, juste un peu, les deux premiers fils de même type à savoir le vecteur normal pour obtenir un classement initial en tant que plan vertical (ligne)

Initiale (Source: cours National Taiwan University Professeur Lin)

  • Lorsqu'une erreur est détectée, la correction par le début de la rotation, être triés optimisé

  • jusqu'à ce qu'il ne cesse de tester des erreurs

enfin

Mais l'algorithme PLA vraiment arrêter?

Examiner deux cas: les données linéairement séparables, les données linéairement inséparable

Remarque PLA condition d'arrêt est que toutes les données classifiées sont correctes, les données sont clairement pas le temps PLA linéaire peut pas être arrêté, alors nous pouvons utiliser l'algorithme Pocket utilisant trouver avide une bonne idée.

données linéairement séparables:

Il doit être parfait w (appelé Wf), de sorte que tous (xi, yi), yi = signe (* wf xi) trouvé:

Les éléments suivants se sont révélés être des données en temps linéaire, simple perceptron algorithme converge. (Ceci est selon la définition Lin, je me sens relativement clair, vous pouvez voir un chapitre détaillé « méthode d'apprentissage statistique »)

Cosinus de l'angle et de la quantité de vecteur est non supérieur à 1, la valeur de T se trouve limitée. T = 1, à savoir, 1 volume des deux vecteurs coïncide avec le vecteur, nous avons prouvé algorithme de simples PLA peut ainsi converger.

Données linéaire inséparables:

Algorithme de poche Lorsque les données n'est pas linéaire en temps partagé (présence de bruit), un algorithme simple PLA ne peut évidemment pas converger. Nous devons discuter comment obtenir des résultats similaires. Nous voulons faire le droit dans la mesure du possible, tous les résultats, à savoir:

Wg est à la recherche d'un problème NP-dur! trouver que des solutions approximatives. L'algorithme est le suivant:

Algorithme Pocket

La différence entre l'APL et simple: un nombre limité d'itérations (définie à l'avance), l'erreur aléatoire de trouver des points de données (au lieu de bouclage), que lorsque le meilleur wg nouvellement acquis w obtenir encore mieux qu'avant, est mis à jour wg (je me réfère ici aux bons points en moins d'erreurs). En raison de la comparaison avec les précédents taux d'erreur est calculé après wg w pour décider de la mise à jour wg, de sorte que l'algorithme de poche pour être moins efficace que la méthode simple de PLA.

référence:

« Méthodes d'apprentissage statistique » Chapitre II « pierre angulaire de l'apprentissage de la machine » de l'Université nationale de Taiwan, 8, 9

Lei Feng réseau (numéro public: Lei Feng net) Lecture connexe:

Machine Tongguo à partir de zéro pour obtenir un modèle de perception, j'ai appris ces

À partir de concepts mathématiques, l'article vous emmène à comprendre ce qui est Perceptron

[72] Huang Zhimin Q: les pratiques d'exploitation des données Nouvelles
Précédent
Les géants de l'innovation révolutionnaire MEMS
Prochain
Zhang Yang est actuellement les meilleurs films, pour voir à quel point le plaisir?
De pauvres Bijie City « transformation » pour voir comment la pauvreté de précision pratique Hengda
Dajiang Spark drone officiellement sorti! Le contrôle gestuel permet histoire à distance
Lourd! OPPO a annoncé les brevets de charge VOOC ouverture flash, OPPO R17 secondes Pro changer Pikachu
Corona système de surveillance de la technologie de synchronisation de réseau en ligne basé sur la perte
« La mort de la réincarnation d'essai finale » version chinoise de la date de sortie en édition limitée est déterminée à envoyer l'oreiller héroïne
Huawei MateBook 13 version plus petite taille que le nouveau MacBook Air 6%
« Master 2 mégarde » retourner aussi incroyable que c'était-il?
Conception et mise en uvre du système GCPLC basé K60
Après avoir étudié les politiques, les données du marché et des consommateurs, nous voulons donner « cigarette électronique » Cette prise de verser l'eau froide
Guards Dieu pour Munich Electronics Show: différents types de capteurs aveugle noir et brillant!
Nouvel An chinois dans leur maison de ville d'origine? Le premier à comprendre l'évolution réelle des prix