Introduction Python API base de données d'apprentissage automatique UCI

Auteur: Tirthajyoti Sarkar

Traduction: Wang Yutong

Relecture: Ding Nanya

Cet article sur 2600 mots Il a recommandé la lecture de 9 minutes.

Cet article vous guidera à travers la base de données API Python UCI, le démantèlement et expliquer le code par des cas concrets.

Cet article décrit comment introduire une API simple et intuitive pour la bibliothèque d'apprentissage automatique UCI. Les utilisateurs peuvent visualiser des ensembles de données prennent cette description, l'ensemble des données de recherche d'intérêt, et même télécharger la tâche de classification de taille de l'ensemble de données ou d'apprentissage machine.

introduction

bibliothèque d'apprentissage automatique UCI est un artefact dans le domaine de l'apprentissage machine. Pour les débutants et avancés, il est comme un magasin. Empirique base de données de l'algorithme d'analyse sera, pour l'apprentissage de la machine d'affaires et générateur de données de connaissances ensemble. En 1987, l'Université de Californie, Irvine David Aha et ses étudiants ont créé le site dans les archives du formulaire. Depuis lors, les étudiants, les enseignants et les chercheurs du monde entier comme leur principale source d'ensembles de données d'apprentissage de la machine. En signe de l'impact du document, qui a été cité plus de 1000 fois, ce qui en fait l'un des plus cité de la science informatique 100 « papier. »

UCI lien ci-joint:

En revanche, le portail utilisateur pour manipuler du temps, parce que l'ensemble de données ne sont pas intéressés par une API simple et intuitive ou télécharger liens, vous devez sauter plusieurs pages pour aller à la page originale où les données cibles. De plus, si votre machine pour un type spécifique de tâche d'apprentissage (comme la régression ou la classification) sont intéressés et que vous souhaitez télécharger tous les ensembles de données correspondant à la tâche, il est difficile de réaliser grâce à des commandes simples.

Je suis heureux de vous présenter une simple et API intuitive pour le site UCI ML, les utilisateurs peuvent facilement trouver la description du jeu de données, rechercher des données particulières définies qui les intéressent, ou même par tâche d'apprentissage classification de la taille ou à la machine pour télécharger l'ensemble de données.

Télécharger ici

Ceci est autorisé par le MIT Python 3.6 bibliothèque open source, qui fournit des fonctions et des méthodes, de sorte que les utilisateurs à l'aide de données UCI ML définies de manière interactive. La page Github suivante vous pouvez télécharger / copier / base de code distinct.

Github ci-joint: https://github.com/tirthajyoti/UCI-ML-API Forfaits nécessaires

Exécutez ce code ne nécessite que Python package de trois largement utilisé. Pour faciliter l'installation de ces dispositifs de soutien, les fichiers setup.bash et INSTALL.BAT sont inclus dans mon repo. Il suffit de le lancer dans shell Linux / Windows en!

  • pandas
  • beautifulsoup 4
  • demandes
Comment exécutez-vous?

Tout d'abord, assurez-vous que vous êtes connecté au réseau! Ensuite, il suffit de télécharger / Github cloné dans le repo, assurez-vous que l'installation de plusieurs paquets.

git clone https://github.com/tirthajyoti/UCI-ML-API.git{your_local_directory}

Ensuite, allez clonée Git et exécutez la commande suivante your_local_directory sur le terminal.

python Main.py

puis ouvre un menu qui vous permet d'effectuer diverses tâches. menus Capture d'écran sont les suivants:

fonctionnalités actuellement pris en charge et fonctions

Les fonctions suivantes sont actuellement utilisés (à savoir, la figure ci-dessus 1-9)

1.  Crawl l'ensemble du site pour construire une base de données locale, qui comprend le nom de jeu de données, la description et l'URL.

2.  Explorer le site entier pour construire une base de données locale, qui comprend le nom de jeu de données, la taille et les tâches d'apprentissage machine.

3.  Rechercher et télécharger un ensemble de données particulier.

4.  Plusieurs ensembles de données avant le téléchargement.

5. Afficher les noms de tous les ensembles de données.

6.  Affiche une brève description de tous les ensembles de données.

7.  Description d'une ligne et un lien vers cette ensembles de données de recherche de la page (pour plus d'informations).

8.  La taille de l'ensemble de données de jeu de données de téléchargement.

9. Télécharger le jeu de données en fonction des tâches d'apprentissage de la machine qui lui sont associées.

Cas (recherche et télécharger un ensemble de données)

Par exemple, si vous voulez télécharger le fameux jeu de données Iris, sélectionnez simplement le 3, entrez le nom de l'option de stockage de base de données locale dans le menu (afin de rechercher plus rapidement). Iris ensemble de données peuvent être téléchargées et stockées dans un fichier nommé dossier « Iris »!

Case (ensemble de données comprend la recherche de mots clés)

Si vous sélectionnez l'option 7, la recherche avec des mots clés, obtenir les noms de tous les ensembles de données (même partielle) chaîne de recherche correspond à un bref résumé. Vous pouvez également obtenir des liens pour chaque page de résultats, afin d'explorer davantage les données en fonction des besoins. La capture d'écran ci-dessous est l'utilisation de mots-clés Cancer résultats pour la recherche.

Si vous souhaitez ouvrir un nouveau chemin

Si vous voulez éviter cette API simple d'utilisation, et d'utiliser les fonctions de base, il est également possible. A la suite du processus général, d'abord importer les paquets nécessaires.

de UCI_ML_Functions importer * pandas géants à l'importation comme pd

read_dataset_table (): des données de lecture établies à partir de l'URL et un traitement ultérieur des données ultérieures de lavage et de classification.

url: https://archive.ics.uci.edu/ml/datasets.html

clean_dataset_table (): lave-ensemble de données d'origine (objets de bloc de données (trame de données)) et renvoie les données. L'observation de supprimer des données traitées contient des valeurs d'offres. Et supprimer la colonne « tâche par défaut », qui est utilisé pour afficher les ensembles de données associées à une foule de tâches d'apprentissage.

build_local_table (nom de fichier = Aucun, msg_flag = True): lire le site Web UCI ML et l'utilisation du nom, la taille, les tâches ML, type de données et d'autres informations pour construire la table locale.

  • nom de fichier: L'utilisateur peut sélectionner le nom du fichier. Si non sélectionné, puis sélectionnez un nom par défaut ( « UCI table.csv »)
  • msg_flag: La complexité des informations de contrôle (la verbosité)

build_dataset_list () informations grab ensemble de données UCI ML de la page une liste et de construire toutes les informations de données.

build_dataset_dictionary (): informations grab page ensembles de données UCI ML, et de construire le dictionnaire (dictionnaire) contient tous les nom de l'ensemble des données et la description. De plus, les données correspondantes sont également définies pour générer un identifiant unique, les besoins de chaîne d'identification à télécharger pour télécharger le fichier de données. Dans ce cas, le nom commun ne fonctionne pas.

build_full_dataframe (): Construction d'une trame de données qui contient toutes les informations (dataframe), y compris le lien URL pour le téléchargement de données.

build_local_database (nom de fichier = Aucun, msg_flag = True): lire le site Web UCI ML et de construire une base de données locale avec les informations suivantes: nom, résumé, URL de la page de données.

  • nom de fichier: Par nom de fichier sélectionné par l'utilisateur. Si non sélectionné, le programme sélectionnera un nom par défaut ( « UCI database.csv »)
  • msg_flag: Complexité de l'information de commande (la verbosité)

return_abstract (nom, local_database = Aucun, msg_flag = False): par les descriptions d'une ligne (et des liens Web vers plus d'informations) rechercher un nom donné, renvoie le jeu de données particulier.

  • local_database: Nom de base de données (fichier CSV) stocké localement, soit dans le même répertoire qui contient des informations sur tous les ensembles de données sur le repo UCI ML
  • msg_flag: La complexité des informations de contrôle (la verbosité)

describe_all_dataset (msg_flag = False): la fonction build_dataset_dictionary appel et afficher tous les ensembles de données décrits.

print_all_datasets_names (msg_flag = False): appels de fonction build_dataset_dictionary et affiche le nom de tous les ensembles de données.

extract_url_dataset (jeu de données, msg_flag = False): identifiant de jeu de données donné, cette fonction extrait l'URL de la page où les données brutes réelles.

download_dataset_url (URL, répertoire, msg_flag = False, download_flag = True): tous les fichiers d'une URL donnée dans le lien pour le téléchargement.

  • msg_flag: Complexité de l'information de commande (la verbosité)
  • download_flag: La valeur par défaut est vrai. Si vous définissez sur False, mais non seulement de créer un répertoire à télécharger (pour tester)

download_datasets (num = 10, local_database = Aucun, msg_flag = True, download_flag = True): ensembles de données de téléchargement et les mettre dans un ensemble de données appelé répertoire local. Par défaut, seuls les 10 premiers ensembles de données de téléchargement. Les utilisateurs peuvent sélectionner le nombre d'ensembles de données à télécharger.

  • msg_flag: La complexité des informations de contrôle (la verbosité)
  • download_flag: La valeur par défaut est vrai. Si elle est définie sur False, puis créez seulement un répertoire mais ne commencez pas à télécharger (à des fins de test)

download_dataset_name (nom, local_database = Aucun, msg_flag = True, download_flag = True): Les données téléchargées définies nom spécifié.

  • local_database: Nom de base de données (fichier CSV) stocké localement, qui contient le nom et les URL sur le référentiel de l'UCI ML pour tous les ensembles de données dans le même répertoire
  • msg_flag: des informations de commande de la complexité (la verbosité)
  • download_flag: La valeur par défaut est vrai. Si elle est définie sur False, puis créez seulement un répertoire mais ne commencez pas à télécharger (à des fins de test)

download_datasets_size (size = 'Small', local_database = Aucun, local_table = Aucun, msg_flag = False, download_flag = True): standard 'taille' Télécharger tous les jeux de satisfaire données.

  • taille: Taille l'utilisateur souhaite télécharger l'ensemble de données. Il peut être l'une des valeurs suivantes: 'Small', 'Medium', 'Large', 'Extra Large'.
  • local_database: Nom de base de données (fichier CSV) stocké localement, qui contient le nom et les URL sur le référentiel de l'UCI ML pour tous les ensembles de données dans le même répertoire.
  • local_table: Nom de base de données (fichier CSV) stocké localement, qui contiennent des informations sur les caractéristiques de tous les ensembles de données sur le repo UCI ML dans le même répertoire, à savoir le type de tâche d'apprentissage de la machine et le nombre d'ensembles de données échantillons à effectuer.
  • msg_flag: La complexité des informations de contrôle (verbosité).
  • download_flag: La valeur par défaut est True. Si elle est définie sur False, puis créez uniquement le répertoire sans téléchargement (pour des fins de test).

download_datasets_task (task = 'Classification', local_database = Aucun, local_table = Aucun, msg_flag = False, download_flag = true): l'utilisateur souhaite télécharger tous les ensembles de données en ligne avec tâche standard ML.

  • tâche: L'utilisateur souhaite télécharger l'ensemble des données des tâches d'apprentissage de la machine. tâche peut être l'une des valeurs suivantes: « Classification », « systèmes » Recommender, « régression », « Autre / inconnu », « clustering », « Découverte causales »
  • local_database: nom de base de données (fichier CSV) stocké localement, qui contient le nom et les URL sur le référentiel de l'UCI ML pour tous les ensembles de données dans le même répertoire
  • local_table: Nom de base de données (fichier CSV) stocké localement, qui contiennent des informations sur les caractéristiques de tous les ensembles de données sur le repo UCI ML dans le même répertoire, la tâche d'apprentissage de la machine est le numéro de l'échantillon et le type d'exécution de jeu de données
  • msg_flag: La complexité des informations de contrôle (la verbosité)
  • download_flag: La valeur par défaut est True. Si elle est définie sur False, puis créez uniquement le répertoire sans téléchargement (pour des fins de test)

Titre original:

L'introduction d'un simple et API Python intuitif pour référentiel d'apprentissage automatique UCI

Lien original:

https://www.codementor.io/tirthajyotisarkar/introducing-a-simple-and-intuitive-python-api-for-uci-machine-learning-repository-p8dfargnt

Introduction Traducteur

Wang Yutong , Les statistiques UIUC pour la maîtrise, les statistiques de premier cycle professionnel, l'accent mis actuellement sur l'amélioration des compétences de codage. applications de conversion théoriques, la peur des données, continuent d'évoluer.

- FIN -

attention Tsinghua - données Académie des sciences de Qingdao plate-forme publique micro-canal officiel " données d'envoi THU « Sisters et n ° » Les données envoyées THU « Pour plus de conférences et de bien-être contenu de qualité.

Six mois R & D « annexion » cent milliards marché, l'article explique les télécommunications Facebook rêve
Précédent
avions de transport de voyageurs américains super-grande vitesse ont cassé les photos HTT-hyun
Prochain
La raison en est que la récession allemande grave pollution de l'air, comme les Chinois? !
Une fête des gens de soleil sont en visite ici le temple, se sentent le goût authentique du Shandong
Coupe du monde - tir de masse Ozil en Allemagne 6-0 huit victoires consécutives Rush tir de masse Crawford 2-1 Angleterre
Tiercé gagnant pas Gif briser la porte Hengda, Zahavi ne veut pas se lever sur l'herbe!
Le cadeau du Nouvel An: 365 concept apprentissage machine, « résistant à la déchirure, » la vente de calendrier édition limitée AI
Madden! Répression policière anti-émeute française gilet jaune vidéo de sortie
Nouvelles | Semaine Creative Design Chengdu cinquième succès de fin montant total du chiffre d'affaires plus 1191000000 yuans
Wushi Chun: « livres » a pris la bonne voie, a capturé l'essence, TOUT EN m'a touché
Jinsha rivière jusqu'au lac du tremblement de terre, ils ont été témoins du changement et inchangé
La plantation à la cueillette de goûter le goût de ma mère, Wuhan des centaines de femmes chefs d'entreprise qui a établi la plate-forme
école d'affaires chinois à Milan classes de combat, renforcer le combat, pour faire ses camarades, passer à travers les contacts
Coupe du monde - Robben a cassé les Pays-Bas 3-1 C Lo aide Belgique 2-1 Portugal 1-0 France 0-0