Exclusive | PySpark lire un bloc de données texte (avec des exemples)

Auteur: Kislay Keshari

Traduction: Yang Ji

Commenté par: Ni Xiao Ran

Cet article sur 1900 mots Il a recommandé la lecture de 8 minutes.

Dans cet article, nous allons explorer le concept de trames de données, et comment ils travaillent ensemble pour aider à l'analyste de données PySpark pour interpréter de grands ensembles de données.

trame de données est de mot à la mode industrie moderne. Les gens ont tendance à être utilisé dans plusieurs langues d'analyse de données populaires en elle, comme Python, Scala, et R. Alors pourquoi tout le monde l'utilise souvent le fait? Le regard de déposons sur les raisons de données PySpark boîte tutoriel. Dans cet article, je vais discuter des sujets suivants:

  • Qu'est-ce qu'un cadre de données?
  • Pourquoi avons-nous besoin de la trame de données?
  • Les caractéristiques de la trame de données
  • trame de données de source de données PySpark
  • Créer une zone de données
  • instance de boîte de données PySpark: Coupe du Monde de la FIFA, Super Hero

Qu'est-ce qu'un cadre de données?

Il est une structure de données généralisée sur une trame de données, une table dans la nature. Il est une structure multi-ligne, chaque ligne contient à son tour un certain nombre de points d'observation. La même ligne peut contenir plusieurs types de formats de données (hétérogénéité), et la même colonne peut être du même type de données (homogénéité). En plus des données elle-même est typiquement trame de données comprend en outre des données de définition de méta-données; par exemple, le nom des colonnes et des lignes.

On peut dire que la trame de données ne sont pas autre chose, juste une structure de données à deux dimensions similaires à la table SQL ou un tableur. Continuons à comprendre à la fin pourquoi la trame de données PySpark.

Pourquoi avons-nous besoin de la trame de données?

1. La structure de traitement et des données semi-structurées

trame de données est conçu pour gérer cette De grandes quantités de données structurées ou semi-structurées . Chaque élément a été placé dans la zone d'observation de données d'allumage dans chaque nom de colonne, comme Apache Spark conçu pour aider à comprendre la structure de la trame de données, mais aussi permet d'optimiser l'algorithme de recherche de trame de données d'allumage. Il peut également gérer les données de grandeur PB.

2. Débiter

Interface Frame programme d'application de données (IPA) Méthode support pour les données rangées « démembrement », y compris par le nom ou la position de « Requête », les filtres colonne et ligne de cellules, et analogues. Les statistiques sont généralement complexité très salissant en même temps il y a beaucoup de valeur de données manquantes ou erronées et au-delà de la gamme classique. Par conséquent, une caractéristique très importante de la trame de données est de gérer visuellement les données manquantes.

3. Sources de données

trame de données pour soutenir une grande variété de formats de données et les sources de données que nous allons faire dans le contenu ultérieur PySpark tutoriel boîte de données recherche approfondie. Ils peuvent importer des données est jamais la même source de données.

4. Prise en charge multi-langue

Il fournit une API pour soutenir différents langages de programmation tels que Python, R, Scala, Java, de cette façon, il sera facilement programmé par des personnes d'origines différentes à utiliser.

Les caractéristiques de la trame de données

  • trame de données est en fait distribué , Ce qui en fait une structure de données ayant une tolérance aux pannes et une haute disponibilité.
  • évaluation paresseuse Il est une stratégie calculée, et que si vous utilisez sont évalués à la valeur des expressions poissons, afin d'éviter les doubles comptages. Spark moyens d'évaluation paresseuse que sa mise en uvre ne peut être un certain comportement est déclenché. Dans Spark, la conversion des données d'évaluation paresseuse se produit.
  • trame de données est en fait immutable . Parce immuable, ce qui signifie qu'une fois qu'il est créé sur son statut d'objet Il ne peut pas être modifié . Mais nous pouvons appliquer une méthode de conversion pour convertir sa valeur, comme RDD de conversion (Resilient Distribué Dataset) est.

trame de données source de données

Il y a plusieurs façons de créer une trame de données en PySpark dans:

de deux CSV, JSON, XML, fichiers de parquet ou de données de charge. Egalement existant RDD Ou toute autre donnée de création de bases de données, tels que ruche ou Cassandra . Vous pouvez également charger des données de système de fichiers HDFS ou local.

Créer une zone de données

Continuons ce tutoriel trame de données PySpark pour apprendre comment créer une trame de données.

Nous allons créer une instance des employés et Département:

Ensuite, nous allons créer une instance de DepartmentWithEmployees par les employés et les ministères.

Utilisons ces lignes pour créer une trame de données objet:

trames de données PySpark Exemple 1: jeux de données du Monde FIFA

Ici, nous utilisons les ensembles de données des participants de la Coupe du Monde de la FIFA. Nous allons charger le fichier au format CSV cette source de données à un objet de boîte de données, et ensuite nous allons apprendre à utiliser différentes méthode de conversion de données dans ce cadre de données.

1. Lecture des données du fichier CSV

Les données de charge Let à partir d'un fichier CSV. Ici, nous allons utiliser les données ainsi spark.read.csv de charge dans un objets (dataframe de fifa_df) dans. Code est la suivante:

spark.read.format

2. Structure de trame de données

Regardez la structure, qui est, la structure de données de cet objet de trame de données, nous allons utiliser la méthode printSchema. Cette méthode retourne aux différentes colonnes de données d'informations sur le bloc notre objet, y compris le type de données et chaque colonne qui peuvent être des valeurs nulles contraintes.

3. Le nom et le numéro de la colonne (ligne et colonne)

Quand nous voulons examiner les données de chaque nom de colonne objet de zone, le nombre de lignes ou colonnes, nous utilisons la méthode suivante:

4. Description de la colonne spécifiée

Si nous regardons un résumé de la boîte de données de la colonne spécifiée de l'information, nous allons décrire la méthode utilisée. Cette méthode fournit un résumé statistique des informations que nous spécifiée dans la colonne, si vous ne spécifiez pas de nom de la colonne, il fournira des informations statistiques sur l'objet de trame de données.

5. Rechercher plusieurs colonnes

Si nous nous interrogeons sur plusieurs données boîte de la colonne spécifiée, on peut utiliser la méthode de sélection.

6. requêtes ne répétez pas le combo multi-colonnes

7. Filtrer les données

Pour filtrer les données selon les conditions spécifiées, nous utilisons la commande du filtre. Voici nos termes match ID égal à 1096, mais nous devons calculer sont filtrés plusieurs enregistrements ou lignes sur.

8. Les données de filtre (multi-paramètre)

Nous pouvons filtrer nos données en fonction de critères multiples (AND ou OR grammaire):

9. Le tri des données (le TriPar)

méthode OrderBy que nous utilisons pour trier les données. par défaut Spark ordre croissant, mais nous pouvons le changer en ordre décroissant.

Exemple 2 bloc de données PySpark: superhero ensemble de données

1. Charger données

Ici, nous allons utiliser la charge de données sur un exemple similaire de la méthode:

2. Projection de données

3. Packet Data

GroupBy cadre est utilisé pour des données en paquets sur la base de la colonne spécifiée. Ici, nous serons basés sur le nombre de lignes de colonnes course de groupe de trames de données, puis calculer chaque paquet (en utilisant la méthode de comptage), de sorte que nous pouvons connaître le nombre d'enregistrements dans une course particulière.

4. exécuter des requêtes SQL

Nous pouvons également interroger directement l'instruction SQL transmise à la zone de données, pour lesquelles vous devez créer une table à partir de la trame de données en utilisant la méthode registerTempTable, puis utilisez sqlContext.sql () pour transmettre des requêtes SQL.

Ici, notre tutoriel de trame de données PySpark est terminée.

J'espère que ce tutoriel boîte de données PySpark, votre trame de données à ce PySpark ont déjà une idée approximative, et de savoir pourquoi il sera utilisé dans l'industrie ainsi que ses caractéristiques. Félicitations, vous n'êtes plus un cadre de données novice it!

Titre original: PySpark dataframe Tutoriel: Introduction à DataFrames

Lien original: https: //dzone.com/articles/pyspark-dataframe-tutorial-introduction-to-datafra

Introduction Traducteur

Ji Yang, Suzhou, une société informatique directeur technique depuis plus de 20 ans, est maintenant principalement responsable de projet Java et la gestion des programmes. Pour les grandes analyse des données et des projets d'exploration de données pour essayer, mais ont aucune chance et les données. Actuellement en cours d'exploration et d'apprentissage, a également signalé un certain nombre de cours en ligne, dans l'espoir d'avoir une meilleure compréhension des données scénarios de modélisation. Vous ne pouvez pas devenir un géant, je veux juste être debout sur les épaules de géants compréhension des données scientifiques, ce monde intéressant.

Reproduit s'il vous plaît spécifier les données d'envoi THU

Le personnel d'exploitation: Ran Colline

Pourquoi ne peut-Eve les lumières de la nuit du Nouvel An? Réveillon du Nouvel An pour voir l'inventaire folk exquis
Précédent
La bénédiction de mot à la fin ne peut pas coller à l'envers? jour Réveillon du Nouvel An pour voir le tabou populaire dix
Prochain
Analyse d'un million de données d'emplois que j'ai trouvé ......
C-1 se vouant à briser l'embarras! il y a 3 ans, le plus fort en Europe 8 détachement, ils ne faisaient que maintenant pas gagné
Collection | AI, l'apprentissage en profondeur, les réseaux de neurones, un grand mémoire de données (pièce jointe)
Longmen Zhen | oncle il au printemps, Anderson en finale cheval noir
1 étoile a débuté deux minutes lore! Ancien champion du monde a attendu 274 jours, battant le record de 23 ans d'embarras
Harvard en Mars pour commencer les implants cérébraux de primate expérience, l'interface cerveau-ordinateur brillant avenir
A propos tensorflow, 9 choses que vous devez savoir ce (avec le code et les liens)
quatre premiers buts du monde dans la débandade 92 bouleversé! 31 ans super sommet fou de l'aide étrangère deux buteur hat-trick +
« L'histoire des plus bondés, » l'avènement de décrochage Nouvel An chinois! recomptage Pig huit coups
qualification européenne big froid! runner-up du monde a été le premier 52 du monde renversé, les généraux Barcelone yeux ternes
Le garçon des bidonvilles à la valeur de neuf milliards de dollars américains, WhatsApp co-fondateur Jan Koum contre-attaque avec la vie d'entreprise
13 carte mobile pour vous aider à bien comprendre la chaîne de Markov, PCA et probabilité conditionnelle!