Par la pratique de l'analyse en profondeur PCA r�duction de dimensionnalit�

Vue d'ensemble

Cet article pr�sente une m�thode principale de r�duction de dimension, PCA (analyse en composantes principales, analyse en composantes principales). la r�duction de dimensionnalit� pour r�pondre � trois questions:

la r�duction de dimensionnalit� peut att�nuer la mal�diction du probl�me de dimensionnalit�;
la r�duction de dimensionnalit� permet la perte d'informations tout en r�duisant au minimum les donn�es compress�es;
Que la structure Appr�ci� de donn�es est difficile plusieurs centaines de dimensions, petite visualisation des donn�es de dimension plus facile � comprendre.

Ici, du profil, �tape calcul�e, la compr�hension du r�le des applications de r�duction de dimensionnalit� PCA dans trois domaines.

profil PCA

Pour comprendre l'extraction de caract�ristiques et de traiter des probl�mes de vecteurs de caract�ristiques de grande dimension, il est souvent facile de tomber dans la mal�diction de la dimensionnalit�. Avec l'augmentation des dimensions de l'ensemble de donn�es, le nombre d'�chantillons requis algorithme d'apprentissage augmente de fa�on exponentielle. Dans certaines applications, rencontr� une telle grande quantit� de donn�es est tr�s n�gatif et apprendre de grands ensembles de donn�es n�cessite plus de m�moire et de puissance de traitement. En outre, avec l'augmentation de la dimension, des donn�es sparsity augmente. Les m�mes ensembles de donn�es explorer ax�es sur l'exploration plus difficile que dans les m�mes donn�es rares dans l'espace vectoriel de grande dimension.

analyse en composantes principales, �galement appel� Karhunen - Lufkin transformer (Karhunen-Loeve) , Il est une technique utilis�e pour explorer la structure des donn�es de grande dimension. PCA est g�n�ralement utilis� pour explorer et visualiser des ensembles de donn�es de grande dimension. Peut aussi �tre utilis� pour la compression de donn�es, pr�-traitement de donn�es. PCA peut �tre corr�l�e peut avoir synth�tique variable dimensionnelle lin�aire variable ind�pendante faible dimension, appel�e composante principale (composants principaux). Les nouvelles donn�es de faible dimension de collecte des variables de r�tention des donn�es brutes que possible.

Les donn�es de projection de l'APC en une r�duction de la dimension du sous-espace de faible dimension r�alis�s. Par exemple, les points de donn�es en deux dimensions est de r�duire les dimensions de la saillie dans une ligne, pour chaque �chantillon ensemble de donn�es peut �tre repr�sent�e par une valeur, pas de deux valeurs. ensemble de donn�es en trois dimensions peut �tre r�duite � deux dimensions, la variable est mis en correspondance � un plan. En g�n�ral, l'ensemble de donn�es peut �tre r�duit sous-espace NN dimensions en kk par cartographie, dans lequel kn.

Si vous �tes un photographe de brochure d'outils de jardinage, vous photographiez une bouilloire. La bouilloire est en trois dimensions, mais l'image est � deux dimensions, afin de mieux d�montrer pleinement la bouilloire au client, vous devez tirer quelques photos sous diff�rents angles. La figure est que vous prenez de quatre directions Photos:

La premi�re figure � l'arri�re de la bouilloire peut �tre vu, mais pas l'avant. La deuxi�me carte est tourn� en avant, vous pouvez voir le bec, cette image peut �tre le premier tableau fournit des informations manquantes, mais le pot pour le voir. De la vue de dessus en troisi�me position ne peut pas voir la hauteur du pot. La quatri�me carte est ce que vous voulez vraiment, la hauteur de la bouilloire, la partie sup�rieure du bec et le pot sont clairement visibles.

PCA conception semblable � cela, il est possible de cartographier les ensembles de donn�es de grande dimension � l'espace de faible dimension en m�me temps, autant que possible de conserver plusieurs variables. ensembles de donn�es de l'APC rotation align� avec son composant principal, la variable la plus retenus � la premi�re composante principale. Supposons que nous ayons un ensemble de donn�es comme indiqu� ci-dessous:

Ensemble de donn�es ressemble � une ellipse allong�e � plat allant de l'origine dans le coin sup�rieur droit. Pour r�duire les dimensions de l'ensemble des donn�es, il faut pointer en une ligne trac�e. La figure est deux lignes de l'ensemble de donn�es peut �tre mis en correspondance, la ligne de correspondance o� le changement maximal de l'�chantillon?

De toute �vidence, les �chantillons sont mis en correspondance avec les changements de ligne en pointill�s noirs est beaucoup plus grande que la carte pour changer les lignes en pointill�s rouges. En fait, c'est la premi�re composante principale de la ligne pointill�e noire. Le second composant doit �tre orthogonale � la premi�re composante principale, qui est la deuxi�me composante principale doit �tre statistiquement ind�pendant, il appara�t dans une direction perpendiculaire � la premi�re composante principale, illustr�e comme suit:

Chacun des composants derri�re principale conservera autant des autres variables, la seule exigence est que chacun n�cessite un composant principal et les composants principaux orthogonaux pr�c�dents. En supposant maintenant que l'ensemble de donn�es est trois looks de nuage de points comme dimensions un disque en rotation le long d'un axe.

Ces points peuvent �tre faites par la rotation du disque, et transform� en une transformation � deux dimensions. Maintenant, ces points ressemblaient � un ovale, il n'y a pas de variables fondamentales sur la troisi�me dimension, il peut �tre ignor�. Lorsque la variance de l'ensemble de donn�es sur les diff�rentes dimensions de la r�partition in�gale , PCA est le plus utile. (Si elle est un ensemble de coquille en forme sph�rique de donn�es, PCA ne peut fonctionner efficacement � cause de la variance dans chaque direction sont �gaux, pas perdu beaucoup de dimension de l'information ne peut �tre ignor�).

�tape de calcul PCA

PCA est important de comprendre les concepts de base sont les trois suivants: La variance, covariance et de la matrice de covariance

variance (Variance) est une mesure du degr� de dispersion d'un groupe de donn�es. La variance est le carr� de la diff�rence entre chaque �chantillon et la moyenne de l'�chantillon et moyen:

covariance (Covariance) est une mesure de l'�volution de deux variables de degr� de synchronisation, qui est une mesure du degr� de d�pendance lin�aire de deux variables.

Si la covariance de deux variables est 0, les deux ind�pendants lin�aire est consid�r� comme statistiquement significatif. Notez que deux variables ind�pendantes ne sont pas totalement ind�pendants, mais il n'y a pas de corr�lation lin�aire seulement. Il est calcul� comme suit:

Si la covariance est sup�rieur � 0 indique une variable est une autre variable augmente va augmenter, � savoir une corr�lation positive, la covariance est inf�rieure � 0 indique une augmentation de la variable est une autre variable diminue, � savoir n�gatif.

matrice de covariance (Matrice de covariance) � partir du jeu de donn�es de vingt-deux composition variable de covariance. (I, j) (i, j) i�me �l�ment de la matrice est un ensemble de donn�es et les �l�ments ii jj covariance. Par exemple, la matrice de covariance des donn�es en trois dimensions comme suit:

Calculons la table matrice de covariance de donn�es:

Les paquets numpy python calculer la moyenne et covariance:

importer numpy comme np

X = , , , >

imprimer (np.mean (X, axe = 0))

imprimer (np.cov (np.array (X) .T))

Moyenne de trois variables �chantillons obtenus ont �t� 2.125,0.075 et -1,275; matrice de covariance:

vecteurs propres et valeurs propres

vecteur Ayant une taille (Magnitude) et l'orientation (direction) des concepts g�om�triques.

vecteurs propres (Eigenvector) est un vecteur non nul d�riv� de la matrice satisfait la formule suivante:

O� v est le vecteur de caract�ristique, A est une matrice carr�e, est la valeur propre. Apr�s une direction caract�ristique de vectorisation reste inchang�, mais sa taille est chang� plusieurs valeurs propres. C'est un vecteur caract�ristique apr�s la multiplication d'une matrice �gale des vecteurs de caract�ristique mise � l'�chelle isom�trique (mise � l'�chelle). Eigen mot allemand signifiant � ... ou ... appartenance exclusive (appartenant ou propre �) �, la matrice et les donn�es vecteurs propres vecteur ensemble appartenant � la structure d�crite.

Vecteurs et valeurs propres ne peuvent �tre d�riv�s de la place, et pas tous les valeurs propres de vecteur de caract�ristiques et de la matrice. S'il y a une matrice de vecteurs propres et valeurs propres, il a une paire de chaque dimension de vecteurs de caract�ristiques et valeurs propres. Le composant principal de la matrice est la matrice de covariance des vecteurs propres et des valeurs propres obtenues selon la taille de l'esp�ce correspondante. est le plus grand des valeurs propres premi�re composante principale, la deuxi�me plus grande valeur propre est la deuxi�me composante principale, et ainsi de suite.

Le calcul de la matrice suivant des valeurs et vecteurs propres:

AA est multipli�e par la formule qui pr�c�de vecteur propre doit �tre �gale � la valeur caract�ristique multipli�e par des vecteurs propres. Nous avons �tabli l'�quation caract�ristique pour r�soudre:

Comme on peut le voir � partir de l'�quation caract�ristique, la matrice unit� et le produit de la matrice des valeurs propres de la matrice est d�terminant de 0, � savoir:

Deux valeurs propres sont �gales � -1. Maintenant solution de vecteur propre valeur caract�ristique. Le = -1 en:

trop:

Donc, il y a:

Toute l'�quation satisfait

vecteur non nul (prise

) Peut �tre utilis� comme vecteurs de caract�ristiques:

PCA exige l'unit� des vecteurs propres, � savoir la norme L2

1 est �gal � des vecteurs caract�ristiques.

Ainsi, l'unit� sont les vecteurs propres:

Ici, vous pouvez v�rifier le nombre de main du vecteur caract�ristique est correct par numpy. fonction eig renvoie les valeurs propres et les vecteurs propres de tuples:

> > > importer numpy comme np

> > > w, v = np.linalg.eig (np.array (, >))

> > > print ( 'valeurs caract�ristiques: {} \ n {}: vecteurs propres'. Format (w, v))

Sortie (diff�rence ici est une valeur caract�ristique, en raison de la pr�cision de python de compilateur de donn�es � virgule flottante dues):

Eigenvalue:

: 0,707106780,70710678 vecteurs propres 0.707106780,70710678

avec la r�duction de la dimension PCA

Utilisons m�thode PCA � des donn�es en deux dimensions dans le tableau en bas � unidimensionnelle:

PCA premi�re �tape consiste � soustraire la moyenne de l'�chantillon avec les donn�es �chantillon:

, On calcule ensuite les donn�es principales composantes. Rappelons que Le composant principal de la matrice est que les vecteurs propres de la matrice de covariance obtenues par la valeur caract�ristique correspondant � la taille de tri. Un composant principal peut �tre calcul�e par deux m�thodes: La premi�re m�thode consiste � calculer la matrice de covariance de donn�es. La matrice de covariance est une matrice carr�e, on peut calculer les valeurs propres et vecteurs propres � l'aide de la m�thode pr�c�dente. La deuxi�me m�thode consiste � trouver la racine carr�e des valeurs propres et des vecteurs propres de la matrice de covariance en utilisant une d�composition en valeurs singuli�res (d�composition en valeurs singuli�res) de la matrice de donn�es. Nous avons d'abord introduit la premi�re m�thode, puis introduit PCA obtenir scikit-learn, qui est la deuxi�me m�thode. Explication de la matrice de covariance desdits ensembles de donn�es comme suit:

Avec le proc�d� expliqu� pr�c�demment, et 0.033981231,25057433 valeurs propres, vecteurs propres unit�s sont les suivants:

nous carte Voici les donn�es au composant principal. La premi�re composante principale est le vecteur propre correspondant � la plus grande valeur propre, donc nous devons construire une matrice de transformation, les vecteurs propres de chaque colonne est un composant principal. Si nous voulons d�poser des donn�es 5 dimensions en trois dimensions, alors nous le ferons avec une matrice de transformation de la matrice en 3 dimensions. Dans cet exemple, nous allons dans nos donn�es en deux dimensions est mis en correspondance en une dimension, nous avons besoin que d'utiliser la premi�re composante principale de la matrice caract�ristique de transformation de vecteur. Enfin, nous utilisons la matrice de donn�es droite multiplication matrice de transformation. Voici les premiers r�sultats de la cartographie des composants principaux:

matrice numpy est obtenue en appelant le paquet est suit comme:

importer numpy comme np

x = np.mat (,

x = x.T

T = x - x.mean (axe = 0)

C = np.cov (x.T)

w, v = np.linalg.eig (C)

v_ = np.mat (v ) # correspondant � chaque valeur de caract�ristique de chaque vecteur de colonne de la matrice de caract�ristiques

v_ = v_.T # d�faut vecteur ligne stock�e, convertie en la forme d'un vecteur colonne formule

y = T * v_

impression (y)

L'utilisation PCA

La visualisation de donn�es de grande dimension

Deux ou trois dimensions donn�es plus facilement visualis�es en mode d�couverte. Un des ensembles de donn�es de grande dimension ne peuvent pas �tre repr�sentation graphique, mais nous pouvons le mettre par une m�thode de visualisation de donn�es en deux dimensions ou en trois dimensions pour la r�duction de dimensionnalit�. Fisher1936 50 Donn�es �chantillon (donn�es Iris): Setosa, Virginica, versicolor. Est une mesure de variables explicatives p�tales (p�tales) et s�pales (s�pales) longueur et la largeur, la r�ponse est une sorte de fleurs. Iris ensemble de donn�es est souvent utilis� pour tester le mod�le de classification, scikit-learn est aussi. Permettent de d�finir les donn�es de l'iris vers le bas pour faciliter la visualisation des donn�es en deux dimensions:

% En ligne Matplotlib

matplotlib.pyplot importation comme plt

de PCA d'importation sklearn.decomposition

de sklearn.datasets load_iris d'importation

Tout d'abord, nous importons l'ensemble de donn�es de l'iris et estimateur PCA. Le nombre de param�tres � base de super-PCA en tant que composant principal, et l'autre comme l'estimateur, la matrice de donn�es de retour de l'APC avec la r�duction de la dimension fit_transform ():

data = load_iris ()

y = data.target

X = data.data

pca = PCA (n_components = 2)

reduced_X = pca.fit_transform (X)

Enfin, nous avons mis les graphismes dessin�s:

red_x, red_y = ,

blue_x, blue_y = ,

green_x, green_y = ,

for i in range (len (reduced_X)):

si y �== 0:

red_x.append (reduced_X )

red_y.append (reduced_X )

Elif y �== 1:

blue_x.append (reduced_X )

blue_y.append (reduced_X )

autre:

green_x.append (reduced_X )

green_y.append (reduced_X )

plt.scatter (red_x, red_y, c = 'r', marqueur = 'x')

plt.scatter (blue_x, blue_y, c = 'b', marqueur = 'D')

plt.scatter (green_x, green_y, c = 'g', marqueur = '')

plt.show ()

R�duction des donn�es dimensionnelles comme repr�sent� sur la Fig. Chaque jeu de donn�es avec trois classes diff�rentes de symboles. A partir de ces donn�es, la figure � deux dimensions, il est clair qu'il existe une classe de chevauchement avec les deux autres classes sont compl�tement s�par�es. Ce r�sultat peut nous aider � choisir un mod�le de classification.

reconnaissance faciale

Maintenant, laissez-la reconnaissance faciale de l'utilisation PCA pour r�soudre un probl�me. reconnaissance faciale est une t�che de classification supervis�e pour des photographies reconnaissent quelqu'un. Dans cet exemple, nous utilisons le AT & T Notre base de donn�es Cambridge Laboratories of Faces ensemble de donn�es ( les donn�es chaque jeu contient 40 individuels 10 photos personne. Les photos ont �t� prises dans diff�rentes conditions d'�clairage, chaque photo look diff�rent. Photographie en noir et blanc d'une dimension de 92 x 112 pixels. Bien que ces images ne sont pas grandes, mais l'agencement selon l'intensit� de pixel pour chaque vecteur de caract�ristique d'image a (92 x 112 =) 10304 dimension. Ces donn�es de grande dimension formation peut prendre plusieurs �chantillons afin d'�viter surajustement. Et nous taille de l'�chantillon est pas grande, tout ce que nous calculons quelques-uns des principaux ingr�dients utilis�s PCA pour repr�senter ces images.

Nous pouvons mettre la force des photos de pixels de la matrice dans un vecteur, tous les vecteurs de formation des photos de construire une matrice. Chaque image est une combinaison lin�aire des composantes principales de l'ensemble de donn�es. Dans la th�orie de la reconnaissance des visages, ce composant principal appel� Eigenfaces (eigenfaces). Eigenfaces peuvent �tre consid�r�s comme faisant partie de la normalisation du visage. Chaque ensemble de donn�es de visage peut �tre g�n�r�e par une combinaison d'un visage sortie standard ou qui est la plus importante approximation d'une combinaison lin�aire des eigenfaces.

de os � pied d'importation, chemin

importer numpy comme np

Mahotas importation comme mh

de train_test_split import sklearn.cross_validation

de cross_val_score import sklearn.cross_validation

de l'�chelle des importations sklearn.preprocessing

de PCA d'importation sklearn.decomposition

de r�gression logistique d'importation sklearn.linear_model

de sklearn.metrics classification_report d'importation

X =

y =

Let photos de mise en tableau numpy, puis les convertir en matrice pixel vecteur:

pour chemin_r�p, dir_names, file_names � pied ( 'C: / Users / EHL / Desktop / premier blog / att_faces /'):

#walk fonction () est le chemin absolu et le stockage de donn�es, tout en faisant attention � la direction de la barre oblique.

pour fn file_names:

si fn == 'pgm':

IMAGE_FILENAME = path.join (dir_path, fn)

X.append (�chelle (mh.imread (IMAGE_FILENAME, as_grey = True) .reshape (10304) .astype ( 'float32')))

y.append (dir_path)

X = np.array (X)

Nous avons ensuite recoup�es avec la mise en place de formation et de test, avec l'ensemble de la formation sur PCA:

X_train, X_test, y_train, y_test = train_test_split (X, y)

pca = PCA (n_components = 150)

Nous mettons tous les �chantillons jusqu'� 150 dimensions, et puis la formation d'un classificateur de r�gression logistique. Ensemble de donn�es comprend 40 classes, scikit-learn politique sous-jacente automatiquement cr�� par l'un par rapport � l'ensemble classificateur binaire:

X_train_reduced = pca.fit_transform (X_train)

X_test_reduced = pca.transform (X_test)

print ( 'la dimension originale des donn�es de formation est: {}'. Format (X_train.shape))

imprimer ( 'r�duction de la dimension PCA apr�s l'ensemble des donn�es de formation est: {}'. Format (X_train_reduced.shape))

classificateur = r�gression logistique ()

exactitudes = cross_val_score (classificateur, X_train_reduced, y_train)

Dimensions de donn�es du jeu de la formation d'origine sont les suivants: (300, 10304) apr�s que les donn�es de jeu de formation � la r�duction de la dimension PCA: (300, 150)

Enfin, nous utilisons l'ensemble validation crois�e et un test pour �valuer la performance du classificateur. classificateur indice d'�valuation compl�te moyenne (score F1) est 0,88, mais besoin de passer plus de temps de formation dans l'application d'exemple plus de formation peut �tre plus lente.

print ( 'pr�cision validation crois�e est: {} \ n {}. (Format np.mean (exactitudes), exactitudes))

classifier.fit (X_train_reduced, y_train)

pr�dictions = classifier.predict (X_test_reduced)

print (classification_report (y_test, pr�visions))

Les r�sultats finaux:

r�sum�

Cet article d�crit le probl�me de la r�duction de la PCA dimensionnalit�. donn�es de grande dimension ne peuvent pas �tre facilement visible. Estimateur formation des ensembles de donn�es de grande dimension, les dimensions aussi une catastrophe possible. Soulager ces probl�mes par l'analyse en composantes principales, les variables pertinentes peuvent expliquer les ensembles de donn�es de grande dimension en cartographiant les donn�es dans un sous-espace de faible dimension, la r�duction de dimensionnalit� lin�airement ind�pendante dans un ensemble de donn�es de faible dimension. Enfin, avec l'expansion de l'APC � quatre dimensions des iris �tablies en donn�es visuelles en deux dimensions, PCA et utilis� dans un syst�me de reconnaissance faciale.

Route de la soie

Apprenez � conna�tre la Chine

Par la pratique de l'analyse en profondeur PCA r�duction de dimensionnalit�