R paquet de début (ressource ci-jointe) pour le nettoyage des données

Auteur: Anna Kayfitz, PDG de StrategicDB Corp

Traduction: Gu Yuhua

Commenté par: Yang Guang

Cet article sur 1700 Word, lecture recommandée 5 minutes.

Assurez-vous que les données doivent toujours être données scientifiques propre et bien rangé de workflow première et la plus importante partie.

nettoyage des données est l'une des tâches les plus importantes et temps de scientifiques de données. Ci-dessous la partie supérieure des données de nettoyage de l'ensemble de R.

Chaque jour, des millions ou des milliards d'éléments de données pour entrer dans votre entreprise, qui Inévitablement, il y a un certain manque la qualité nécessaire pour établir le modèle d'affaires efficace des éléments de données. Toutefois, afin d'assurer que les données doivent toujours être données scientifiques propres et bien rangé de workflow première et la plus importante partie. Parce que sans elle, vous serez difficile de voir le contenu important, et peut-être en raison de la duplication des données, des anomalies de données ou pour des raisons de l'absence d'informations pour prendre les mauvaises décisions.

R, peut être appliquée en tant que calcul statistique open source et le langage graphique, est l'un des plus courante et la plupart des données puissants outils de programmation. R fournit tous les outils nécessaires à la création d'un des projets scientifiques de données, mais quelle que soit l'utilisation de tout outil, il ne peut être fait avec les informations qu'il fournit des données égales reçues. Mais avoir ces outils, l'environnement de R, il existe de nombreuses bibliothèques pour le traitement et l'exploitation des données avant tout projet commence.

Les données explorer

La plupart des outils dont vous avez déjà importé pour l'exploration de la série de données existe déjà dans la plate-forme de R.

Abstract (données)

Cette commande aperçu simplement pratique de tous les attributs de données, chacun montre d'attributs au minimum, maximum, médiane, les catégories moyennes et intermédiaires. Ceci est un trouvé un bon moyen rapide d'anomalies de données potentielles.

Ensuite, vous pouvez utiliser l'histogramme pour mieux comprendre la distribution des données. Cet affichage visuel a pas aberrant ensemble de données ou un nombre de lignes que vous observez en particulier souhaitable.

paquet plyr

Vous devez installer le paquet plyr pour créer un histogramme en utilisant la fonction standard R pour installer la bibliothèque.

Install.packages ( "plyr") Bibliothèque (plyr) Hist (YOUR_DATASET_NAME)

Cela peut créer des données visuels pour identifier rapidement les anomalies. boîte de visualisation figure utilise le même paquet, mais divisé en quartiles pour la détection des valeurs aberrantes. Les deux combinés vont bientôt dire si vous avez besoin de la collecte de données limite ou l'utiliser que dans certaines parties d'un algorithme ou une modélisation statistique.

Corriger l'erreur

R Il y a plusieurs façons de corriger les erreurs de données prédéfinis, tels que la conversion d'une valeur, tout comme la logique d'utilisation simple dans Excel ou SQL, par exemple as.charater () convertit une colonne de chaîne.

Cependant, si vous voulez commencer à être plus histogrammes ou des parcelles de boîte vu par erreur, vous pouvez sélectionner un autre logiciel pour le faire.

package stringr

stringr peut aider à nettoyer les données de plusieurs façons différentes, y compris les espaces et le remplacement des mots de finition inutiles. Ce sont la structure assez de code standard str_trim (YOUR_DATA_FIELD), il supprime uniquement les espaces.

Mais comment pouvons-nous éliminons l'histogramme anormal nous dire? Il faut plus compliqué que cela, mais comme un exemple de base, nous pouvons dire R remplacer toutes les valeurs aberrantes dans notre champ avec la valeur de ce champ. Cela mettra tout ensemble et éliminer les préjugés anormaux.

valeur manquante

Vérifiez les données incomplètes dans le R et le champ est effectuée, et une opération très simple. Par exemple, cette fonction permettra d'éliminer complètement le manque de données dans la colonne de la valeur sélectionnée.

Na.omit (YOUR_DATA_COLUMN)

Il dispose d'une option similaire pour remplacer la valeur de blanc égal à 0 ou N / A, en fonction du type de terrain, et d'améliorer la cohérence de l'ensemble de données.

package tidyr

tidyr package conçu pour organiser vos données. Il fonctionne en identifiant ensemble de données variables, en utilisant les outils fournis et les déplacer pour recueillir ou de la colonne a trois fonctions principales (), séparé () et la diffusion ().

Recueillir fonction () en utilisant une pluralité de colonnes et les recueillir dans une paire de valeurs de clé. Par exemple, supposons que vous avez les scores de test des données.

recueillir la collecte de la fonction de conversion en colonnes disponibles pour terminer.

Maintenant, nous sommes vraiment en mesure d'analyser les résultats des tests. fonctions seul et de diffusion similaires font des choses, une fois que vous avez le paquet, vous pouvez explorer, mais éventuellement besoin de vos données.

Voici quelques autres paquets commentaires peuvent être utiles pour le nettoyage des données dans R:

  • paquet Purr

ronronnement emballage spécialement conçu pour la réduction des données. Il plyr package est très similaire, bien plus, mais certains utilisateurs pensent juste qu'il est plus facile à utiliser, fonctionnel et plus standardisé.

  • package sqldf

R De nombreux utilisateurs sont plus habitués à utiliser le langage SQL au lieu de coder R. Cette fonction vous permet d'écrire le code SQL pour sélectionner vos éléments de données de studio R

  • package Janitor

Le package peut trouver des doublons par plusieurs colonnes, et de créer facilement une colonne amies de votre cadre de données. Il a même une fonction get_dupes (), utilisés pour trouver des doublons dans des données à plusieurs lignes. Si vous voulez une déduplication des données de manière plus avancée, par exemple, pour trouver différentes combinaisons ou l'utilisation de la logique floue, vous devrez peut-être voir l'outil de déduplication.

  • package splitstackshape

Ceci est un paquet plus ancien, utilisé colonne de trame de données de valeurs séparées par des virgules. Enquête ou prêt pour l'analyse de texte.

R a un grand nombre de logiciels, nous avons seulement gratté la surface de ce qu'il peut faire. Avec la nouvelle bibliothèque a vu le jour, il est très important d'étudier avant de commencer de nouveaux projets et d'obtenir les bonnes bibliothèques.

Ressources d'apprentissage:

  • En ligne et sur le Web: l'analyse, l'exploration de données, la science des données, l'éducation d'apprentissage machine
  • https://www.kdnuggets.com/education/online.html
  • L'analyse des données scientifiques, l'exploration de données et de logiciels d'apprentissage de la machine
  • https://www.kdnuggets.com/software/index.html

Articles connexes:

  • Ne pas être analysé dans le vide
  • https://www.kdnuggets.com/2019/02/mode-dont-do-analysis-vacuum.html
  • R et Python centre du Jupyter
  • https://www.kdnuggets.com/2019/02/running-r-and-python-in-jupyter.html
  • 2018 la science des données et l'intelligence artificielle avant que les sept paquets R
  • https://www.kdnuggets.com/2019/01/vazquez-2018-top-7-r-packages.html

A propos de l'auteur:

Anna Kayfitz , StrategicDB Corp chef de la direction, la société est une entreprise de nettoyage de données et d'analyse. Elle est titulaire d'un MBA de la Schulich School of Business, avant de créer StrategicDB, il a travaillé pendant 10 ans dans l'analyse des données et le marketing.

Titre original:

Top packages R pour le nettoyage des données

Lien original:

https://www.kdnuggets.com/2019/03/top-r-packages-data-cleaning.html

Introduction Traducteur

Gu Yuhua, Imperial et IE Business Diplômé, est maintenant stagiaire de conseil SxGroup. Chaleureuse et vivante, positive et optimiste, enthousiaste au sujet des données scientifiques.

- FIN -

attention Tsinghua - données Académie des sciences de Qingdao plate-forme publique micro-canal officiel " données d'envoi THU « Sisters et n ° » Les données envoyées THU « Pour plus de conférences et de bien-être contenu de qualité.

Les Etats-Unis fondit de fleurs! Aoyama pas désolé pour moi ~
Précédent
GitHub Wanxing des ressources d'apprentissage machine chinoise: la feuille de route, de la vidéo, des livres électroniques, des recommandations d'apprentissage
Prochain
Liu Wan se lever tôt! James a publié aujourd'hui une promenade vidéo seul
la plus riche identité de femme de Hubei ouvert au public!
Les bonnes données d'achat des fonds levés par semaine: 30 nouveaux fonds pour augmenter l'échelle 13369000000
Position dernière tête privée change ce secteur est « acheter un niveau record. »
actions ST de grande limite de zone! une surveillance stricte des municipalités du signal pour libérer vous l'avez reçu?
famille royale britannique et les Pères de l'Église comptaient sur l'agression sexuelle de 20 ans en fait une centaine de garçons, an et demi à la sortie de prison
Flottant dans la villa de l'océan, la moitié immergé dans la moitié dans l'eau, Tyran exclusive
37 ans star de cinéma de Hong Kong Fala Chen et de la France remarient son mari, la cause de l'amour double récolte
activités thaïlandaises de fées de fruits, voir slogans chinois sur un stand de fruits, les amis: faire leur propre!
Western Association Returned Scholars rapatriés mission de service expert pour frapper Wangmo comté dans la ville de Guizhou est facile à mener des activités de recherche dans la lutte contre la pauv
Kua Météo | wow! semaine de l'eau de pluie à usage privé? Chérir! 100 jours de l'été à venir +
"modèles d'explosion Fonds" apparaît = signal de correction A-part?