R paquet de d�but (ressource ci-jointe) pour le nettoyage des donn�es

Auteur: Anna Kayfitz, PDG de StrategicDB Corp

Traduction: Gu Yuhua

Comment� par: Yang Guang

Cet article sur 1700 Word, lecture recommand�e 5 minutes.

Assurez-vous que les donn�es doivent toujours �tre donn�es scientifiques propre et bien rang� de workflow premi�re et la plus importante partie.

nettoyage des donn�es est l'une des t�ches les plus importantes et temps de scientifiques de donn�es. Ci-dessous la partie sup�rieure des donn�es de nettoyage de l'ensemble de R.

Chaque jour, des millions ou des milliards d'�l�ments de donn�es pour entrer dans votre entreprise, qui In�vitablement, il y a un certain manque la qualit� n�cessaire pour �tablir le mod�le d'affaires efficace des �l�ments de donn�es. Toutefois, afin d'assurer que les donn�es doivent toujours �tre donn�es scientifiques propres et bien rang� de workflow premi�re et la plus importante partie. Parce que sans elle, vous serez difficile de voir le contenu important, et peut-�tre en raison de la duplication des donn�es, des anomalies de donn�es ou pour des raisons de l'absence d'informations pour prendre les mauvaises d�cisions.

R, peut �tre appliqu�e en tant que calcul statistique open source et le langage graphique, est l'un des plus courante et la plupart des donn�es puissants outils de programmation. R fournit tous les outils n�cessaires � la cr�ation d'un des projets scientifiques de donn�es, mais quelle que soit l'utilisation de tout outil, il ne peut �tre fait avec les informations qu'il fournit des donn�es �gales re�ues. Mais avoir ces outils, l'environnement de R, il existe de nombreuses biblioth�ques pour le traitement et l'exploitation des donn�es avant tout projet commence.

Les donn�es explorer

La plupart des outils dont vous avez d�j� import� pour l'exploration de la s�rie de donn�es existe d�j� dans la plate-forme de R.

Abstract (donn�es)

Cette commande aper�u simplement pratique de tous les attributs de donn�es, chacun montre d'attributs au minimum, maximum, m�diane, les cat�gories moyennes et interm�diaires. Ceci est un trouv� un bon moyen rapide d'anomalies de donn�es potentielles.

Ensuite, vous pouvez utiliser l'histogramme pour mieux comprendre la distribution des donn�es. Cet affichage visuel a pas aberrant ensemble de donn�es ou un nombre de lignes que vous observez en particulier souhaitable.

paquet plyr

Vous devez installer le paquet plyr pour cr�er un histogramme en utilisant la fonction standard R pour installer la biblioth�que.

Install.packages ( "plyr") Biblioth�que (plyr) Hist (YOUR_DATASET_NAME)

Cela peut cr�er des donn�es visuels pour identifier rapidement les anomalies. bo�te de visualisation figure utilise le m�me paquet, mais divis� en quartiles pour la d�tection des valeurs aberrantes. Les deux combin�s vont bient�t dire si vous avez besoin de la collecte de donn�es limite ou l'utiliser que dans certaines parties d'un algorithme ou une mod�lisation statistique.

Corriger l'erreur

R Il y a plusieurs fa�ons de corriger les erreurs de donn�es pr�d�finis, tels que la conversion d'une valeur, tout comme la logique d'utilisation simple dans Excel ou SQL, par exemple as.charater () convertit une colonne de cha�ne.

Cependant, si vous voulez commencer � �tre plus histogrammes ou des parcelles de bo�te vu par erreur, vous pouvez s�lectionner un autre logiciel pour le faire.

package stringr

stringr peut aider � nettoyer les donn�es de plusieurs fa�ons diff�rentes, y compris les espaces et le remplacement des mots de finition inutiles. Ce sont la structure assez de code standard str_trim (YOUR_DATA_FIELD), il supprime uniquement les espaces.

Mais comment pouvons-nous �liminons l'histogramme anormal nous dire? Il faut plus compliqu� que cela, mais comme un exemple de base, nous pouvons dire R remplacer toutes les valeurs aberrantes dans notre champ avec la valeur de ce champ. Cela mettra tout ensemble et �liminer les pr�jug�s anormaux.

valeur manquante

V�rifiez les donn�es incompl�tes dans le R et le champ est effectu�e, et une op�ration tr�s simple. Par exemple, cette fonction permettra d'�liminer compl�tement le manque de donn�es dans la colonne de la valeur s�lectionn�e.

Na.omit (YOUR_DATA_COLUMN)

Il dispose d'une option similaire pour remplacer la valeur de blanc �gal � 0 ou N / A, en fonction du type de terrain, et d'am�liorer la coh�rence de l'ensemble de donn�es.

package tidyr

tidyr package con�u pour organiser vos donn�es. Il fonctionne en identifiant ensemble de donn�es variables, en utilisant les outils fournis et les d�placer pour recueillir ou de la colonne a trois fonctions principales (), s�par� () et la diffusion ().

Recueillir fonction () en utilisant une pluralit� de colonnes et les recueillir dans une paire de valeurs de cl�. Par exemple, supposons que vous avez les scores de test des donn�es.

recueillir la collecte de la fonction de conversion en colonnes disponibles pour terminer.

Maintenant, nous sommes vraiment en mesure d'analyser les r�sultats des tests. fonctions seul et de diffusion similaires font des choses, une fois que vous avez le paquet, vous pouvez explorer, mais �ventuellement besoin de vos donn�es.

Voici quelques autres paquets commentaires peuvent �tre utiles pour le nettoyage des donn�es dans R:

paquet Purr

ronronnement emballage sp�cialement con�u pour la r�duction des donn�es. Il plyr package est tr�s similaire, bien plus, mais certains utilisateurs pensent juste qu'il est plus facile � utiliser, fonctionnel et plus standardis�.

package sqldf

R De nombreux utilisateurs sont plus habitu�s � utiliser le langage SQL au lieu de coder R. Cette fonction vous permet d'�crire le code SQL pour s�lectionner vos �l�ments de donn�es de studio R

package Janitor

Le package peut trouver des doublons par plusieurs colonnes, et de cr�er facilement une colonne amies de votre cadre de donn�es. Il a m�me une fonction get_dupes (), utilis�s pour trouver des doublons dans des donn�es � plusieurs lignes. Si vous voulez une d�duplication des donn�es de mani�re plus avanc�e, par exemple, pour trouver diff�rentes combinaisons ou l'utilisation de la logique floue, vous devrez peut-�tre voir l'outil de d�duplication.

package splitstackshape

Ceci est un paquet plus ancien, utilis� colonne de trame de donn�es de valeurs s�par�es par des virgules. Enqu�te ou pr�t pour l'analyse de texte.

R a un grand nombre de logiciels, nous avons seulement gratt� la surface de ce qu'il peut faire. Avec la nouvelle biblioth�que a vu le jour, il est tr�s important d'�tudier avant de commencer de nouveaux projets et d'obtenir les bonnes biblioth�ques.

Ressources d'apprentissage:

En ligne et sur le Web: l'analyse, l'exploration de donn�es, la science des donn�es, l'�ducation d'apprentissage machine
https://www.kdnuggets.com/education/online.html
L'analyse des donn�es scientifiques, l'exploration de donn�es et de logiciels d'apprentissage de la machine
https://www.kdnuggets.com/software/index.html

Articles connexes:

Ne pas �tre analys� dans le vide
https://www.kdnuggets.com/2019/02/mode-dont-do-analysis-vacuum.html
R et Python centre du Jupyter
https://www.kdnuggets.com/2019/02/running-r-and-python-in-jupyter.html
2018 la science des donn�es et l'intelligence artificielle avant que les sept paquets R
https://www.kdnuggets.com/2019/01/vazquez-2018-top-7-r-packages.html

A propos de l'auteur:

Anna Kayfitz , StrategicDB Corp chef de la direction, la soci�t� est une entreprise de nettoyage de donn�es et d'analyse. Elle est titulaire d'un MBA de la Schulich School of Business, avant de cr�er StrategicDB, il a travaill� pendant 10 ans dans l'analyse des donn�es et le marketing.

Titre original:

Top packages R pour le nettoyage des donn�es

Lien original:

https://www.kdnuggets.com/2019/03/top-r-packages-data-cleaning.html

Introduction Traducteur

Gu Yuhua, Imperial et IE Business Dipl�m�, est maintenant stagiaire de conseil SxGroup. Chaleureuse et vivante, positive et optimiste, enthousiaste au sujet des donn�es scientifiques.

- FIN -

attention Tsinghua - donn�es Acad�mie des sciences de Qingdao plate-forme publique micro-canal officiel " donn�es d'envoi THU � Sisters et n � � Les donn�es envoy�es THU � Pour plus de conf�rences et de bien-�tre contenu de qualit�.

Route de la soie

Apprenez � conna�tre la Chine

R paquet de d�but (ressource ci-jointe) pour le nettoyage des donn�es