Exclusive | PySpark lire un bloc de donn�es texte (avec des exemples)

Auteur: Kislay Keshari

Traduction: Yang Ji

Comment� par: Ni Xiao Ran

Cet article sur 1900 mots Il a recommand� la lecture de 8 minutes.

Dans cet article, nous allons explorer le concept de trames de donn�es, et comment ils travaillent ensemble pour aider � l'analyste de donn�es PySpark pour interpr�ter de grands ensembles de donn�es.

trame de donn�es est de mot � la mode industrie moderne. Les gens ont tendance � �tre utilis� dans plusieurs langues d'analyse de donn�es populaires en elle, comme Python, Scala, et R. Alors pourquoi tout le monde l'utilise souvent le fait? Le regard de d�posons sur les raisons de donn�es PySpark bo�te tutoriel. Dans cet article, je vais discuter des sujets suivants:

Qu'est-ce qu'un cadre de donn�es?
Pourquoi avons-nous besoin de la trame de donn�es?
Les caract�ristiques de la trame de donn�es
trame de donn�es de source de donn�es PySpark
Cr�er une zone de donn�es
instance de bo�te de donn�es PySpark: Coupe du Monde de la FIFA, Super Hero

Qu'est-ce qu'un cadre de donn�es?

Il est une structure de donn�es g�n�ralis�e sur une trame de donn�es, une table dans la nature. Il est une structure multi-ligne, chaque ligne contient � son tour un certain nombre de points d'observation. La m�me ligne peut contenir plusieurs types de formats de donn�es (h�t�rog�n�it�), et la m�me colonne peut �tre du m�me type de donn�es (homog�n�it�). En plus des donn�es elle-m�me est typiquement trame de donn�es comprend en outre des donn�es de d�finition de m�ta-donn�es; par exemple, le nom des colonnes et des lignes.

On peut dire que la trame de donn�es ne sont pas autre chose, juste une structure de donn�es � deux dimensions similaires � la table SQL ou un tableur. Continuons � comprendre � la fin pourquoi la trame de donn�es PySpark.

Pourquoi avons-nous besoin de la trame de donn�es?

1. La structure de traitement et des donn�es semi-structur�es

trame de donn�es est con�u pour g�rer cette De grandes quantit�s de donn�es structur�es ou semi-structur�es . Chaque �l�ment a �t� plac� dans la zone d'observation de donn�es d'allumage dans chaque nom de colonne, comme Apache Spark con�u pour aider � comprendre la structure de la trame de donn�es, mais aussi permet d'optimiser l'algorithme de recherche de trame de donn�es d'allumage. Il peut �galement g�rer les donn�es de grandeur PB.

2. D�biter

Interface Frame programme d'application de donn�es (IPA) M�thode support pour les donn�es rang�es � d�membrement �, y compris par le nom ou la position de � Requ�te �, les filtres colonne et ligne de cellules, et analogues. Les statistiques sont g�n�ralement complexit� tr�s salissant en m�me temps il y a beaucoup de valeur de donn�es manquantes ou erron�es et au-del� de la gamme classique. Par cons�quent, une caract�ristique tr�s importante de la trame de donn�es est de g�rer visuellement les donn�es manquantes.

3. Sources de donn�es

trame de donn�es pour soutenir une grande vari�t� de formats de donn�es et les sources de donn�es que nous allons faire dans le contenu ult�rieur PySpark tutoriel bo�te de donn�es recherche approfondie. Ils peuvent importer des donn�es est jamais la m�me source de donn�es.

4. Prise en charge multi-langue

Il fournit une API pour soutenir diff�rents langages de programmation tels que Python, R, Scala, Java, de cette fa�on, il sera facilement programm� par des personnes d'origines diff�rentes � utiliser.

Les caract�ristiques de la trame de donn�es

trame de donn�es est en fait distribu� , Ce qui en fait une structure de donn�es ayant une tol�rance aux pannes et une haute disponibilit�.
�valuation paresseuse Il est une strat�gie calcul�e, et que si vous utilisez sont �valu�s � la valeur des expressions poissons, afin d'�viter les doubles comptages. Spark moyens d'�valuation paresseuse que sa mise en uvre ne peut �tre un certain comportement est d�clench�. Dans Spark, la conversion des donn�es d'�valuation paresseuse se produit.
trame de donn�es est en fait immutable . Parce immuable, ce qui signifie qu'une fois qu'il est cr�� sur son statut d'objet Il ne peut pas �tre modifi� . Mais nous pouvons appliquer une m�thode de conversion pour convertir sa valeur, comme RDD de conversion (Resilient Distribu� Dataset) est.

trame de donn�es source de donn�es

Il y a plusieurs fa�ons de cr�er une trame de donn�es en PySpark dans:

de deux CSV, JSON, XML, fichiers de parquet ou de donn�es de charge. Egalement existant RDD Ou toute autre donn�e de cr�ation de bases de donn�es, tels que ruche ou Cassandra . Vous pouvez �galement charger des donn�es de syst�me de fichiers HDFS ou local.

Cr�er une zone de donn�es

Continuons ce tutoriel trame de donn�es PySpark pour apprendre comment cr�er une trame de donn�es.

Nous allons cr�er une instance des employ�s et D�partement:

Ensuite, nous allons cr�er une instance de DepartmentWithEmployees par les employ�s et les minist�res.

Utilisons ces lignes pour cr�er une trame de donn�es objet:

trames de donn�es PySpark Exemple 1: jeux de donn�es du Monde FIFA

Ici, nous utilisons les ensembles de donn�es des participants de la Coupe du Monde de la FIFA. Nous allons charger le fichier au format CSV cette source de donn�es � un objet de bo�te de donn�es, et ensuite nous allons apprendre � utiliser diff�rentes m�thode de conversion de donn�es dans ce cadre de donn�es.

1. Lecture des donn�es du fichier CSV

Les donn�es de charge Let � partir d'un fichier CSV. Ici, nous allons utiliser les donn�es ainsi spark.read.csv de charge dans un objets (dataframe de fifa_df) dans. Code est la suivante:

spark.read.format

2. Structure de trame de donn�es

Regardez la structure, qui est, la structure de donn�es de cet objet de trame de donn�es, nous allons utiliser la m�thode printSchema. Cette m�thode retourne aux diff�rentes colonnes de donn�es d'informations sur le bloc notre objet, y compris le type de donn�es et chaque colonne qui peuvent �tre des valeurs nulles contraintes.

3. Le nom et le num�ro de la colonne (ligne et colonne)

Quand nous voulons examiner les donn�es de chaque nom de colonne objet de zone, le nombre de lignes ou colonnes, nous utilisons la m�thode suivante:

4. Description de la colonne sp�cifi�e

Si nous regardons un r�sum� de la bo�te de donn�es de la colonne sp�cifi�e de l'information, nous allons d�crire la m�thode utilis�e. Cette m�thode fournit un r�sum� statistique des informations que nous sp�cifi�e dans la colonne, si vous ne sp�cifiez pas de nom de la colonne, il fournira des informations statistiques sur l'objet de trame de donn�es.

5. Rechercher plusieurs colonnes

Si nous nous interrogeons sur plusieurs donn�es bo�te de la colonne sp�cifi�e, on peut utiliser la m�thode de s�lection.

6. requ�tes ne r�p�tez pas le combo multi-colonnes

7. Filtrer les donn�es

Pour filtrer les donn�es selon les conditions sp�cifi�es, nous utilisons la commande du filtre. Voici nos termes match ID �gal � 1096, mais nous devons calculer sont filtr�s plusieurs enregistrements ou lignes sur.

8. Les donn�es de filtre (multi-param�tre)

Nous pouvons filtrer nos donn�es en fonction de crit�res multiples (AND ou OR grammaire):

9. Le tri des donn�es (le TriPar)

m�thode OrderBy que nous utilisons pour trier les donn�es. par d�faut Spark ordre croissant, mais nous pouvons le changer en ordre d�croissant.

Exemple 2 bloc de donn�es PySpark: superhero ensemble de donn�es

1. Charger donn�es

Ici, nous allons utiliser la charge de donn�es sur un exemple similaire de la m�thode:

2. Projection de donn�es

3. Packet Data

GroupBy cadre est utilis� pour des donn�es en paquets sur la base de la colonne sp�cifi�e. Ici, nous serons bas�s sur le nombre de lignes de colonnes course de groupe de trames de donn�es, puis calculer chaque paquet (en utilisant la m�thode de comptage), de sorte que nous pouvons conna�tre le nombre d'enregistrements dans une course particuli�re.

4. ex�cuter des requ�tes SQL

Nous pouvons �galement interroger directement l'instruction SQL transmise � la zone de donn�es, pour lesquelles vous devez cr�er une table � partir de la trame de donn�es en utilisant la m�thode registerTempTable, puis utilisez sqlContext.sql () pour transmettre des requ�tes SQL.

Ici, notre tutoriel de trame de donn�es PySpark est termin�e.

J'esp�re que ce tutoriel bo�te de donn�es PySpark, votre trame de donn�es � ce PySpark ont d�j� une id�e approximative, et de savoir pourquoi il sera utilis� dans l'industrie ainsi que ses caract�ristiques. F�licitations, vous n'�tes plus un cadre de donn�es novice it!

Titre original: PySpark dataframe Tutoriel: Introduction � DataFrames

Lien original: https: //dzone.com/articles/pyspark-dataframe-tutorial-introduction-to-datafra

Introduction Traducteur

Ji Yang, Suzhou, une soci�t� informatique directeur technique depuis plus de 20 ans, est maintenant principalement responsable de projet Java et la gestion des programmes. Pour les grandes analyse des donn�es et des projets d'exploration de donn�es pour essayer, mais ont aucune chance et les donn�es. Actuellement en cours d'exploration et d'apprentissage, a �galement signal� un certain nombre de cours en ligne, dans l'espoir d'avoir une meilleure compr�hension des donn�es sc�narios de mod�lisation. Vous ne pouvez pas devenir un g�ant, je veux juste �tre debout sur les �paules de g�ants compr�hension des donn�es scientifiques, ce monde int�ressant.

Reproduit s'il vous pla�t sp�cifier les donn�es d'envoi THU

Le personnel d'exploitation: Ran Colline

Route de la soie

Apprenez � conna�tre la Chine

Exclusive | PySpark lire un bloc de donn�es texte (avec des exemples)