th�se 3138 Les mots, lorsque l'apprentissage tout au long attendu 20 Minutes ou plus

les donn�es de commande de visualisation d'un regard. Cependant, les donn�es avec succ�s la visualisation souvent difficile � r�aliser. En outre, plus le public pr�sente ces de visualisation des donn�es, il faut plus de temps et d'efforts.

Nous savons tous comment faire des diagrammes � barres, des diagrammes de dispersion et histogrammes, mais ne faites attention � ne pas les embellir. Cela endommagerait la fiabilit� de nos pairs et ses sup�rieurs dans l'esprit de pratiquement.

En outre, la r�utilisation du code est �galement tr�s important. Vous ne voulez pas des ensembles de donn�es d'acc�s � partir de z�ro, non? Certains utilisent de pouvoir graphique r�utilisable pour trouver les informations que vous voulez plus rapidement.

Ici implique trois outils de visualisation pratiques:

� Classification de motifs de corr�lation

� La matrice de Scatterplot

Utiliser la classification Seaborn parcelles commentaires et dispersion des annotations

Dans l'ensemble, cela vous apprendra � faire une bonne mine et utilis� dans le tableau.

Cet article utilisera les ensembles de donn�es compl�tes FIFA 2019 sur les joueurs Kaggle, la derni�re version de la base de donn�es contient des informations d�taill�es sur chaque joueur, y compris l'enregistrement.

�tant donn� que l'ensemble de donn�es a plusieurs colonnes, nous nous concentrons uniquement sur un sous-ensemble des cat�gories sont r�pertori�es et colonne continue.

importer numpy comme np

pandas g�ants importation comme pd

Seaborn d'importation comme sns

matplotlib.pyplot importation comme plt

% En ligne Matplotlib

# Nous n'avez probablement pas besoin des Quadrillage. Avons-nous? Si oui commenter cette ligne

sns.set (style = "ticks")

player_df = pd.read_csv ( "../ entr�e / data.csv")

numcols = <

�� Dans l'ensemble �,

�� Potentiel �,

'Croisement', 'de finition', 'ShortPassing', 'Dribbler', 'LongPassing', 'BallControl', 'acc�l�ration',

�'SprintSpeed', 'Agilit�', 'Endurance',

�� Valeur �, � salaire �>

catcols =

# Les colonnes sous-ensemble

player_df = player_df

# Quelques lignes de donn�es

player_df.head (5)

Les statistiques des joueurs

Bien que ces donn�es est bien form�, mais parce que les salaires et la valeur de la colonne sont en euros et contient la cha�ne n�cessite un pr�traitement afin de leur permettre de fournir une valeur pour une analyse ult�rieure.

def wage_split (x):

�essayez:

�retour int (x.split ( "K") )

�sauf:

�return 0

player_df = player_df appliquer (lambda x: wage_split (x)).

def value_split (x):

�essayez:

�si 'M' en x:

�flotteur de retour (x.split ( "M") )

�elif 'K' en x:

�flotteur de retour (x.split ( "K") ) / 1000

�sauf:

�return 0

player_df = player_df appliquer. (lambda x: value_split (x))

classification de motifs de corr�lation

En termes simples, la corr�lation est une mesure de la fa�on dont deux variables se d�placent ensemble.

Par exemple, dans la vie r�elle, les revenus et les d�penses, il a �t� positivement corr�l�e � l'augmentation d'une variable � une autre variable augmente.

L'utilisation des jeux vid�o et le rendement scolaire corr�lation n�gative, ce qui signifie moins d'une augmentation variable dans une autre variable.

Donc, si les pr�visions avec la variable cible est positivement ou n�gativement corr�l�e, la variable aura la valeur de la recherche.

Les corr�lations entre les diff�rentes variables �tudi�es tr�s significatives pour la compr�hension des donn�es.

Utilisez Seaborn peut facilement cr�er un tr�s bon diagramme.

corr = player_df.corr ()

g = sns.heatmap (corr, vmax = 0,3, centre = 0,

�carr� = True, = 0,5 largeurs de ligne, cbar_kws = { "psy": 0,5}, Annot = True, fmt = '2f.', CMAP = 'coolwarm')

sns.despine ()

g.figure.set_size_inches (14,10)

plt.show ()

Toutes les variables cat�goriques vont tous?

Avez-vous remarqu� des questions pour moi?

Il y a un probl�me, parce que le dessin uniquement la corr�lation entre la s�quence num�rique calcul�e.

Si la variable cible est un club ou une position, ce qui se passerait?

Si vous voulez une corr�lation entre trois situations diff�rentes, il peut �tre calcul� en utilisant la m�trique de corr�lation suivante.

1. La valeur de la variable

Cette variable peut �tre obtenue par voie de corr�lation de Pearson, une mesure de la fa�on dont deux variables se d�placent ensemble, dans la gamme de .

2. variables

Utilisez le coefficient V de Cramer pour classer les cas. Les coefficients sont li�s entre deux variables discr�tes, et les variables utilis�es conjointement avec deux ou plusieurs niveaux. Il est �galement une mesure de la sym�trie, parce que l'ordre est variables non pertinentes, � savoir, Clem (A, B) == Clem (B, A).

Par exemple, dans le jeu de donn�es, et la nationalit� du Club doit avoir une connexion.

Sch�ma de pile disponible pour v�rifier, cela est une excellente fa�on de comprendre la r�partition entre les variables et variables, parce qu'il ya beaucoup de nationalit�s et clubs dans les donn�es, donc en utilisant un sous-ensemble des donn�es.

Gardez seulement les meilleures �quipes (FC Porto r�servations juste pour obtenir l'�chantillon plus diversifi�) et la nationalit� la plus commune.

les pr�f�rences du club refl�te en grande partie la � nationalit� �: Apprendre l'ancienne aide � pr�dire ce dernier.

La figure montre que les joueurs anglais sont plus susceptibles de jouer pour Chelsea ou Manchester United, plut�t qu'� Barcelone, le Bayern Munich ou le FC Porto.

De m�me, le coefficient Clem V capture �galement les m�mes informations.

Si la proportion de toutes nationalit�s club a des joueurs du m�me coefficient Cramer V est �gal � z�ro.

Si, par exemple, tous les joueurs anglais � Manchester United ont jou� chacun des joueurs du club pr�f�rent une seule nationalit�, le coefficient Cramer V == 1, pour tous les joueurs allemands de l'efficacit� du Bayern Munich et ainsi de suite.

Dans tous les autres cas, la plage �tait .

3. variables quantitatives et qualitatives

Le rapport d'utilisation continue des cas de classification pertinents.

Dans le cas ne comporte pas trop de math�matiques, cette variable est utilis�e pour mesurer le degr� de dispersion.

Si on leur donne un num�ro, vous pouvez trouver sa cat�gorie?

Par exemple, supposons que l'ensemble de donn�es a � SprintSpeed � et � Position � deux classement, puis:

Gardien: 58 (De Gea), 52, 58 (M Neuer.), 43 (G Buffon.) (T Courtois).

D�fenseur: 68 (D Godin.), 59 (V Kompany.), 73 (S Umtiti.), 75 (M Benatia).

Forward: 91 (C.Ronaldo), 94 (G Bale.), 80 (S.Aguero), 76 (R Lewandowski).

A partir du r�sultat, ces chiffres un bon indicateur de la position qu'ils sont, donc la corr�lation est tr�s �lev�.

Si un sprint joueur des vitesses de plus de 85, le joueur est sans aucun doute l'avant.

Ce rapport est �galement entre.

Cette ex�cution de code est pris dython paquet, le code ne sera pas beaucoup, les r�sultats finaux sont les suivants:

player_df = player_df.fillna (0)

r�sultats = associations (player_df, nominal_columns = catcols, return_results = true)

Classification vs, classement par rapport � la valeur, la valeur par rapport � la valeur, ces cartes font plus int�ressant.

Belle, est-ce pas?

Il suffit de regarder les donn�es, vous pouvez avoir tant de connaissances du football, tels que:

� La position du joueur est fortement corr�l�e � la capacit� de ruisseler. Messi ne peut pas laisser la lire!

� Dribble plus pertinente que la valeur de passage et maniement du ballon. Les r�gles passent toujours, comme passe de Neymar.

� � Club � et � revenu � a une corr�lation �lev�e et pr�visible.

� � Corps � et � jouer pieds de pr�f�rences � sont fortement corr�l�s. Est-ce que cela signifie que si un joueur est mince, il est possible de jouer avec son pied gauche comme? Il ne peut pas avoir une signification pratique, il faut une enqu�te plus approfondie.

�De plus, gr�ce � ce graphique simple, vous pouvez trouver beaucoup d'informations d�crit ci-dessus, qu'on ne voit pas dans le sch�ma typique de corr�lation des variables non cat�gorique.

�tude approfondie de ce tableau, vous pouvez obtenir des r�sultats plus significatifs, mais le point est que nous pouvons rendre les cartes plus facile de trouver une sorte de droit dans la vie r�elle.

matrice Scatterplot

Bien que ce qui pr�c�de a parl� de beaucoup de pertinence, mais il est un indicateur d'un volage, pour que nous puissions comprendre, nous examinons un exemple.

� Anscombe Quartet � est presque approch�e par la composition d'ensemble de donn�es de corr�lation quatre 1, mais avec des distributions de donn�es tr�s diff�rentes, et pr�sente des effets tr�s diff�rents lors de l'�laboration.

Anscombe quartet: Pertinence volage

Par cons�quent, le dessin parfois des donn�es devient critique, et la n�cessit� de voir la distribution seule.

Maintenant, il y a beaucoup de colonnes de l'ensemble de donn�es, les graphiques tout serait tr�s laborieux.

En fait, seulement quelques lignes de code peuvent �tre r�solus.

filtered_player_df = player_df . isin (< 'FC Barcelone', 'Paris Saint-Germain',

�'Manchester United', 'Manchester City', 'Chelsea', 'Real Madrid', 'FC Porto', 'FC Bayern M�nchen'>)) &

�(Player_df . Isin (< 'Angleterre', 'Br�sil', 'Argentine',

�'Br�sil', 'Italie', 'Espagne', 'Allemagne'>))

�>

# Une seule ligne pour cr�er pairplot

g = sns.pairplot (filtered_player_df >)

Tr�s bien, vous pouvez voir beaucoup d'informations sur ce chiffre.

� Les salaires et les valeurs sont fortement corr�l�es.

� La plupart des autres valeurs sont �galement pertinentes, mais � potentiel � et � valeur � que la tendance n'est pas rare. On peut voir quand il atteint un certain seuil de potentiel, comment la valeur cro�t de fa�on exponentielle. Cette information est utile pour la mod�lisation, vous pouvez �tre sur le � potentiel � pour le convertir pour le rendre plus pertinent?

Attention: Il n'y a pas de colonne de classement!

Sur cette base, nous pouvons faire mieux? Toujours possible.

g = sns.pairplot (filtered_player_df >, la teinte = 'Club')

Beaucoup d'informations sur la carte, il suffit d'ajouter les param�tres � de teinte � variables � club � au can �.

� La r�partition des salaires FC Porto a tendance � �tre moins de cette fin du salaire.

� Le chiffre ne peut pas voir les joueurs Porto valeur de distribution forte, les joueurs du FC Porto sont toujours � la recherche d'opportunit�s.

Beaucoup rose Point (au nom de Chelsea) sur la forme de diagramme d'un groupe � potentiel � et � salaire �. Chelsea ont beaucoup de bas salaires �lev�s joueurs potentiels, ont besoin d'une plus grande attention.

�galement obtenir des informations sur le salaire / valeur sous-graphe.

salaire annuel de 500000 points bleu est Messi. De plus, plus pr�cieux que Messi point orange est Neymar.

Bien que cette technique ne permet pas de r�soudre les probl�mes de classification, mais il y a d'autres fa�ons d'�tudier la r�partition des variables, m�me si un cas.

Cat�gories Scatter

Comment voir la relation entre la classification et les donn�es num�riques?

Entrez simplement le nom, entrez la dispersion de classification parcelle de l'image. Un ensemble de points trac�s pour chaque cat�gorie, est l�g�rement dispers� dans l'axe des y, pour la visualisation.

Ceci est la m�thode privil�gi�e que nous tirons actuellement cette relation.

g = sns.swarmplot (y = "Club",

�x = 'salaire',

�data = filtered_player_df,

�# Diminuer la taille des points pour �viter l'encombrement

�size = 7)

# Retirez le haut et la ligne droite dans le graphique

sns.despine ()

g.figure.set_size_inches (14,10)

plt.show ()

Cat�gories Scatter

Pourquoi ne pas tracer la bo�te il? Median O�? Vous pouvez dessiner en sortir? Bien s�r. Au sommet d'un graphique � barres couverture, vous obtenez un graphique de bonne mine.

g = sns.boxplot (y = "Club",

�x = 'salaire',

�data = filtered_player_df, whis = np.inf)

g = sns.swarmplot (y = "Club",

�x = 'salaire',

�data = filtered_player_df,

�# Diminuer la taille des points pour �viter l'encombrement

�size = 7, color = 'noir')

# Retirez le haut et la ligne droite dans le graphique

sns.despine ()

g.figure.set_size_inches (12,8)

plt.show ()

Int�ressant libre + boxplot scattergramme

Eh bien, on peut voir sur le graphique et quelques statistiques de chaque point de distribution, et peut comprendre clairement les �carts de salaires.

Figure point de droite est Lionel Messi, de cette fa�on, il ne serait pas illustr� par le texte ci-dessous le tableau.

Ce chiffre peut �tre utilis� pour les pr�sentations, si le patron demande Macy �crit sur ce graphique, vous pouvez ajouter un commentaire des images.

max_wage = filtered_player_df.Wage.max ()

max_wage_player = filtered_player_df . Les valeurs

g = sns.boxplot (y = "Club",

�x = 'salaire',

�data = filtered_player_df, whis = np.inf)

g = sns.swarmplot (y = "Club",

�x = 'salaire',

�data = filtered_player_df,

�# Diminuer la taille des points pour �viter l'encombrement

�size = 7, color = 'noir')

# Retirez le haut et la ligne droite dans le graphique

sns.despine ()

# Annoter. Xy pour coordonner. Max_wage est x et 0 est y. Dans la fourchette est comprise y parcelle de 0 � 7 pour chaque niveau

# Xytext pour les coordonn�es de l'endroit o� je veux mettre mon texte

plt.annotate (s = max_wage_player,

�xy = (max_wage, 0),

�xytext = (500,1),

�# Shrink la fl�che pour �viter l'occlusion

�arrowprops = { 'facecolor': 'gris', 'largeur': 3, 'r�tr�cir': 0,03},

�backgroundcolor = 'blanc')

g.figure.set_size_inches (12,8)

plt.show ()

Statistiques et groupes de points annot�s, peuvent �tre utilis�s pour la parole.

� Regardez le tableau ci-dessous du FC Porto, le budget salarial est si faible, il est difficile, et d'autres �quipes � revenu �lev� qui sont en concurrence.

� Real Madrid et Barcelone ont beaucoup de joueurs tr�s bien pay�s.

� Le salaire m�dian le plus �lev� de Manchester United.

� Manchester United et Chelsea se concentrent sur l'�galit�, de nombreux salaires des joueurs sont similaires.

� Bien que plus d'attention, mais le grand �cart salarial Lionel Messi et Neymar.

On peut voir, dans ce monde fou, juste une surface normale.

Cet article explique le calcul de la corr�lation entre la lecture et les types de variables, une corr�lation entre la valeur des donn�es de dessin, et en utilisant la corr�lation de diagramme de dispersion de la classification �tablie entre les donn�es num�riques et des donn�es de classification. Il est int�ressant, vous pouvez empiler dans un �l�ment graphique dans le Seaborn.

pouces Message attention

Ensemble, nous partageons l'apprentissage et le d�veloppement de l'IA sec

Amnesty International salue l'attention de la pendaison toute la plate-forme de la classe m�diatique � lecture technique de base �

Route de la soie

Apprenez � conna�tre la Chine

FIFA donn�es des joueurs pour d�finir un exemple, D�taill� 3 grandes capacit�s visuelles de frais

classification de motifs de corr�lation

matrice Scatterplot

Cat�gories Scatter