Bibliothèque de développement pour les données scientifiques et a recommandé l'AI: Python, R 7 chacun

Lei Feng réseau par AI Technology Review: L'écrivain Favio Vázquez est un des scientifiques des données, des physiciens et des ingénieurs informaticiens, depuis le début de 2018, il a commencé à écrire et à publier « La science des données et l'intelligence artificielle Weekly Digest: Python & R » série d'articles, les scientifiques de données, peut vraiment aider ils accomplissent mieux les tâches des meilleures bibliothèques de développement, les projets open source, ainsi que l'outil de package d'installation. Avec la fin de l'année, les lecteurs Favio Vázquez devraient également être tenus de l'inventaire d'une série d'articles dans la bibliothèque de développement du langage Python / R 7. Lei Feng réseau AI Technology Review compilé comme suit.

avant-propos

Si vous avez toujours été préoccupé par moi, vous saurez cette année, je commencé à écrire « la science des données et le traitement hebdomadaire AI Résumé: Python & R » (Weekly Digest pour la science des données et AI: Python & R) série, dans ces articles, J'ai énuméré aidera les scientifiques à mieux les données que nous accomplissons diverses tâches dans les meilleures bibliothèques de développement, les projets open source, ainsi que l'outil de package d'installation.

Battement de coeur sur un grand nombre d'utilisateurs (https://heartbeat.fritz.ai/) a apporté un soutien à ces résumés, et ils ont suggéré que je choisirai les développeurs vraiment changer ou d'améliorer la façon dont nous travaillons cette année de ces sommaire bibliothèque, créez une liste de bibliothèques de développement « le meilleur » de.

Résumé avant si vous voulez lire, peut être consulté à l'adresse suivante:

https://www.getrevue.co/profile/favio

Avertissement: Cette liste est basée sur mes bibliothèques de l'article personnel de développement Replay et installer des paquets, dans une certaine mesure, ils appliquent aux programmeurs, des scientifiques de données et les amateurs de l'intelligence artificielle, qui ont été créés un peu d'avant 2018, mais S'ils ont encore la tendance, aussi, il peut être considéré comme utiliser.

TOP 7 R pour la bibliothèque de développement des langues

7. AdaNet- offrent l'assurance d'apprentissage rapide, souple AutoML

Ouvrez adresse source: https: //github.com/tensorflow/adanet

ADAnet est un poids léger, cadre extensible tensorflow AutoML peut être utilisé ADAnet algorithme (Cliquez ici pour les documents: ADAnet: apprentissage adaptatif structurel de réseaux de neurones artificiels, https: //arxiv.org/abs/1607.01097) pour former et depuis le déploiement du réseau de neurones approprié. ADAnet intègre plusieurs sous-réseaux pour apprendre, afin de réduire la complexité inhérente à la conception du réseau de neurones efficace.

Ce forfait peut vous aider à choisir la meilleure architecture de réseau de neurones pour réaliser l'algorithme d'auto-applicable à l'architecture neuronale comme sous-réseau d'apprentissage intégré.

Nous devons d'abord comprendre la tensorflow avant d'utiliser ce paquet, car il implémente l'interface tensorflow estimateur. Ensuite, il peut être une formation conditionnée, l'évaluation, la prévision et des services qui mènent à l'aide de la programmation d'apprentissage de la machine.

Entre la capacité de faire ce modèle d'intégration entre la performance sur l'ensemble de la formation et sa généralisation à des données invisibles - vous pouvez créer une intégration de réseau de neurones, cette bibliothèque de développement peut aider à optimiser vos objectifs de formation de trouver un équilibre.

6. TPOT- machine à apprendre à optimiser l'utilisation de l'outil de programmation génétique flux de travail d'apprentissage machine automatique Python

Ouvrez adresse source: https: //github.com/EpistasisLab/tpot

Dans un résumé avant la (https://heartbeat.fritz.ai/weekly-digest-for-data-science-and-ai-python-and-r-volume-6-830ed997cf07), j'ai parlé de Python domaine de l'apprentissage machine automatique pour une bonne bibliothèque de développement --Auto-Keras. Permettez-moi maintenant à une autre machine pour l'apprentissage automatique outil très intéressant.

Cet outil est appelé l'optimisation des flux de travail (arbre basé pipeline outil d'optimisation, TPOT) représentation arborescente, il est une grande bibliothèque de développement. Il est essentiellement un outil d'apprentissage automatique de la machine Python, en utilisant la programmation génétique de l'apprentissage de la machine afin d'optimiser le flux de travail.

TPOT peut réaliser la sélection des fonctionnalités, la sélection de modèles et d'autres fonctions automatisées pour construire un grand nombre de tâches. Heureusement, si vous êtes un étudiant de la machine Python, tout le code généré TPOT connaissez-vous - parce qu'il a été créé le scikit-learn.

Tout ce qu'il fait est en explorer intelligemment des milliers de flux de travail possibles pour trouver le meilleur pour les données, qui mieux l'apprentissage de la machine travail automatiser la partie la plus pénible, après quoi il trouvera qu'ils coulent générer du code Python, puis le suivant, vous pouvez bricoler avec le flux de travail.

Il fonctionne comme suit:

Pour plus de détails TPOT, vous pouvez lire cette série d'articles écrits par d'autres auteurs:

  • Matthew Mayo, https: //www.kdnuggets.com/2018/01/managing-machine-learning-workflows-scikit-learn-pipelines-part-4.html

  • Randy Olson, https: //www.kdnuggets.com/2016/05/tpot-python-automating-data-science.html

5.SHAP-- approche unifiée à l'interprétation des modèles d'apprentissage automatique de sortie

Ouvrez adresse source: https: //github.com/slundberg/shap

des modèles d'apprentissage machine interprétation souvent pas facile, mais il est très important pour toute une gamme d'applications commerciales. Heureusement, il y a une très bonne bibliothèque de développement peut aider à expliquer le modèle d'apprentissage de la machine. Dans de nombreuses applications, nous avons besoin de savoir, de comprendre ou de vérifier comment utiliser les variables d'entrée dans le modèle, et la façon dont les variables d'entrée affectant les prévisions du modèle final.

SHAP (Shapley additif eXPlicaTions) est une approche unifiée à l'interprétation des résultats du modèle de l'apprentissage de la machine, la théorie des jeux et de l'interprétation partielle associera certaines des méthodes précédentes et un système unifié et fondé sur l'interprétation, représentent la seule possible cohérente, locale précise dans lequel les procédés de propriété additifs.

Disponible à l'adresse suivante SHAP lire plus d'informations:

https://github.com/slundberg/shap#sample-notebooks

4.Optimus-- utiliser Python, Spark peut être facilement fait un travail rapide de flux de données scientifiques

Ouvrez adresse source: https: //github.com/ironmussa/Optimus

Honnêtement, Optimus a développé cette bibliothèque est comme mon propre enfant. Jusqu'à présent, je l'ai passé beaucoup de temps à développer cette bibliothèque est très heureux de pouvoir montrer la deuxième version de Optimus pour vous.

Optimus V2 spécialement développé pour le nettoyage des données simplifiées, son API est la conception très simple pour les novices, avant d'utiliser les développeurs de pandas sera très familier avec eux. Spark dataframe Optimus développé des fonctions de propriété et une augmentation .Rows .cols de.

En raison de l'arrière-Optimus peut utiliser Spark, tensorflow et Keras, vous pouvez utiliser Optimus à nettoyer, préparer et analyser les données, créer des profils et des graphiques, et l'apprentissage de la machine d'exécution, l'apprentissage en profondeur, et qui sont tous distribués peuvent exécuter .

Pour nous, Optimus est très facile à utiliser. Il est comme avec un point de caractéristiques dplyr, reliées par Keras et version évoluée Spark de pandas géants. Vous pouvez utiliser le code pour créer le travail Optimus sur votre machine locale, mais simplement changer la commande, le code peut être exécuté sur un cluster local ou d'un nuage.

Pour aider à chaque étape du cycle des données scientifiques, j'ai développé beaucoup de fonctionnalités intéressantes pour Optimus.

En tant que bibliothèque de soutenir le développement de méthodes agiles de données scientifiques, Optimus peut dire être parfait, car il peut aider à presque toutes les étapes du traitement de données, et il peut être facilement connecté avec d'autres bibliothèques et outils de développement.

Si vous souhaitez en savoir plus sur les méthodes agiles, vous pouvez voir à l'adresse suivante:

https://www.business-science.io/business/2018/08/21/agile-business-science-problem-framework.html

3.spaCy-- combinée avec les bibliothèques de traitement du langage naturel de qualité industrielle développé en Python et Cython

Adresse projet: https: //spacy.io/

Spacy faire le développement du produit réel de travail réel, collection et d'autres opinions réelles pour la conception d'aide aux développeurs, il vous aidera à maximiser les économies de temps. La bibliothèque de développement est facile à installer, et son API est très simple et efficace. Nous aimons Spacy comparé au traitement du langage naturel « Ruby » (Ruby) sur la piste.

Spacy est la meilleure façon d'apprendre la profondeur de la préparation du texte, il peut être tensorflow, PyTorch, scikit-learn, Gensim Python bonne IA et d'autres bibliothèques de développement de l'écosystème en toute transparence interopérer. Vous pouvez utiliser Spacy, créer facilement des modèles de langage statistiques sophistiqués pour tous les types de problèmes PNL.

2.jupytext-- Jupyter équivalent notebooks documents Markdown, Julia, scripts Python ou R de

Ouvrez adresse source: https: //github.com/mwouts/jupytext

Pour moi, jupytext est l'un des meilleurs package d'installation annuelle, il est très important pour le travail de nos scientifiques de données. En fait, nous travaillons tous sur Jupyter et d'autres types de bloc-notes, mais nous utilisons aussi PyCharm tels que IDE pour compléter la partie la plus centrale du projet.

Les bonnes nouvelles sont que lorsque vous utilisez jupytext, vous permet d'IDE favori dans le projet proposé du script et le testerons général coup d'il ouvert au format Jupyter. Jupyter exécuter le bloc-notes, vous pouvez générer la sortie, les États-.ipynb dit, en même temps ou dans le script ou la sortie habituelle sous la forme traditionnelle de l'ordinateur portable Jupyter pour enregistrer et partager votre travail.

La carte suivante se déplaçant sur l'affichage du flux de travail peut utiliser ce paquet pour faire toutes sortes de choses:

1.Charify- scientifiques pour rendre les données plus facile de créer des bibliothèques de développement Python graphiques

Ouvrez adresse source: https: //github.com/chartify/chartify

Pour moi, année Chartify pour les bibliothèques de développement Python classé au premier rang des bibliothèques de développement. Si vous êtes engagé dans le travail lié à Python, vous pouvez passer beaucoup de temps pour créer le graphique approprié dans la tentative. Heureusement, nous avons un Seaborn similaire ce bibliothèques de développement peut faciliter notre travail, mais leur problème est que son graphique n'est pas dynamique. Après cela, nous avons un Bokeh ces grandes bibliothèques de développement, mais l'utiliser pour créer des graphiques interactifs est une chose très ennuyeux. Si vous voulez en savoir plus sur les Bokeh et graphiques interactifs pour les données scientifiques, peuvent lire l'excellent article écrit par William Koehrsen:

  • https://towardsdatascience.com/data-visualization-with-bokeh-in-python-part-one-getting-started-a11655a467d4

  • https://towardsdatascience.com/data-visualization-with-bokeh-in-python-part-ii-interactions-a4cf994e2512

  • https://towardsdatascience.com/data-visualization-with-bokeh-in-python-part-ii-interactions-a4cf994e2512

Chartify fondée sur Bokeh, mais il vaut mieux que d'utiliser Bokeh créer des graphiques interactifs beaucoup plus simples. Chartify de propre description de l'auteur:

Pourquoi Chartify?

  • formats de données d'entrée compatibles: passer moins de conversion de format de données de temps peut commencer à traiter les données sur le graphique, la fonction graphique utilisent tous le même format des données d'entrée est structuré.

  • styles par défaut intelligents: les opérations nécessitant peu définies par l'utilisateur, vous pouvez créer graphique de bonne mine.

  • Simple API: API nous essayons de faire intuitive d'apprendre autant que possible.

  • Flexibilité: Chartify fondée sur Bokeh, donc si vous avez besoin de plus de contrôle sur l'opération, vous pouvez compter sur Bokeh de l'API.

TOP 7 R pour la bibliothèque de développement des langues

7.infer- inférence statistique amicale tidyverse pour le package d'installation de langage R

Ouvrez adresse source: https: //github.com/tidymodels/infer

inférence statistique est inférence ou l'utilisation de l'analyse des données pour en déduire la nature des processus sous-jacents distribution de probabilité. déduisent l'objectif du package d'installation est d'utiliser le cadre de la conception tidyverse cohérente syntaxe d'expression statistique pour effectuer l'inférence statistique.

Si vous souhaitez en savoir plus sur déduisent, vous pouvez voir à l'adresse suivante:

https://infer.netlify.com/index.html

6. Outils de données janitor- de langage simple nettoyage R

Ouvrez adresse source: https: //github.com/sfirke/janitor

nettoyage des données est une zone proche relation avec moi. Tout le long, je suis développement d'un outil --Optimus orienté langage Python avec mon équipe de fer-AI (https://iron-ai.com/) ensemble, vous pouvez ici (https: // hioptimus. com /) pour plus d'informations sur Optimus est.

Cependant, je vous donne maintenant des outils sur l'affichage est une fonction simple peut être une donnée très puissant nettoyage --janitor outil.

Il a essentiellement trois fonctions principales:

  • Parfait pour data.frame format nom de la colonne

  • La création et mise en une, deux ou trois tables de fréquence des variables, comme une table optimisée, et

  • Des enregistrements en double portion isolée

Pendant ce temps, il est également orienté package d'installation tidyverse (https://github.com/tidyverse/tidyverse/blob/master/vignettes/manifesto.Rmd). En particulier, il est dans le% > Quand elle est réalisée avec un conduit de bonne performance%, et par readr (https://github.com/tidyverse/readr) et lavé deux paquets readxl données entrantes (https://github.com/tidyverse/readxl) fait optimisation.

5.Esquisse-- utilisation ggplot2 cartographie plug-in rstudio

Ouvrez adresse source: https: //github.com/dreamRs/esquisse

Ce plugin vous permet d'installer le package en utilisant la visualisation de données ggplot2 pour rechercher de manière interactive pour ces données. Il vous permet de dessiner le graphique à barres, des diagrammes de dispersion et histogrammes, et délivre ensuite le graphique ou un code Récupéré pour générer un graphique.

4.DataExplorer- récupération automatique des données et des outils de traitement

Ouvrez adresse source: https: //github.com/boxuancui/DataExplorer

analyse exploratoire des données (analyse exploratoire des données, EDA, https: //en.wikipedia.org/wiki/Exploratory_data_analysis) est de créer une étape critique de modèle d'analyse de données / prédiction. Dans ce processus, l'analyste / modeleur d'abord regarder les données, puis faire des hypothèses et des décisions relatives à l'étape suivante. Cependant, EDA Ce processus est parfois très gênant. DataExplorer le package d'installation de langage R destiné à la plupart des traitement et la visualisation des données automatisée, permettant aux utilisateurs de se concentrer sur le point de vue extraction de recherche et de données.

Si vous voulez en savoir plus sur DataExplorer vous pouvez voir à l'adresse suivante:

https://boxuancui.github.io/DataExplorer/articles/dataexplorer-intro.html

3.Sparklyr- le R-interface pour Apache Spark

Ouvrez adresse source: https: //github.com/rstudio/sparklyr

Sparklyr les fonctions suivantes:

  • R et atteindre Spark de connexion ( a. package d'installation Sparklyr fournir un back-end dplyr complète (https://github.com/tidyverse/dplyr).

  • filtrage d'allumage et des ensembles de données d'agrégation, et ensuite les amener à la R pour l'analyse et la visualisation.

  • Spark MLlib utilisation des bibliothèques de développement de l'apprentissage machine ( pour effectuer un apprentissage automatique des algorithmes distribués dans R.

  • Créer une extension d'appel API Spark ( et fournit une interface pour le package d'installation de Spark.

Si vous voulez en savoir plus sur Sparklyr vous pouvez voir à l'adresse suivante:

https://spark.rstudio.com/mlib/

Pour R outils de workflow voix centrée sur 2.Drake- pour la reproductibilité, package calcul haute performance

Ouvrez adresse source: https: //github.com/ropensci/drake

projet de programmation Drake

Avec le texte cartes: (Drake est comment faire les programmeurs: ne pas vraiment le programme, mais peut prendre 30 minutes pour discuter avec d'autres à jouer un nom variable)

Blague, mais ce qui est vraiment le nom du package d'installation appelé Drake!

Drake est un grand paquet, je sera publié après une analyse détaillée de ses articles, restez à l'écoute!

Drake est utilisé dans une des tâches basées sur les données des outils de gestion de flux de travail commun. Lorsque la cible de dépendance à l'égard des données au milieu du changement, il peut reconstruire des données sur ces cibles intermédiaires tandis que, lorsque les résultats sont venus, il saute le travail.

En outre, tous les travaux sont terminés du début à des données d'analyse et des flux de travail complet peut être efficacement exprimé qu'ils ont des rapports sexuels maintenant complexes.

Reproductibilité, une bonne gestion et le suivi de l'expérience pour détecter facilement d'autres travaux et l'analyse, il est nécessaire. Dans le domaine des données scientifiques, Drake est très important, vous pouvez aller à l'adresse suivante En savoir plus sur la boîte à outils:

Zach Scott:

  • https://towardsdatascience.com/data-sciences-reproducibility-crisis-b87792d88513

  • https://towardsdatascience.com/toward-reproducibility-balancing-privacy-and-publication-77fee2366eee

Et je l'ai écrit un article:

https://towardsdatascience.com/manage-your-machine-learning-lifecycle-with-mlflow-part-1-a7252c859f72

Drake peut vous aider à réaliser automatiquement:

1. Par rapport au processus de démarrage précédent de la partie modifiée;

2. sauter le reste.

1.DALEX- explication descriptive de l'apprentissage machine (eXPlicaTions descriptif apprentissage artificiel)

Ouvrez adresse source: https: //github.com/pbiecek/DALEX

modèles d'interprétation d'apprentissage de la machine ne sont pas toujours facile, mais il est très important pour toute une gamme d'applications commerciales. Heureusement, il y a une très bonne bibliothèque de développement peut aider à expliquer le modèle d'apprentissage de la machine.

https://github.com/thomasp85/lime

(Soit dit en passant, parfois en utilisant la visualisation de simple ggplot peut vous aider à mieux expliquer ce modèle, Matthew Mayo avait une très bonne présentation dans son article écrit :. Https: //www.kdnuggets. com / 2017/11 / interprétation machine modèles-apprentissage-overview.html)

Dans de nombreuses applications, nous avons besoin de savoir, de comprendre ou de vérifier comment utiliser les variables d'entrée dans le modèle, et la façon dont les variables d'entrée affectant les prévisions du modèle final. DALEX est d'aider à expliquer le modèle complexe est un ensemble d'uvres outils.

via: https = gi //heartbeat.fritz.ai/top-7-libraries-and-packages-of-the-year-for-data-science-and-ai-python-r-6b7cca2bf000 :? 27d5c4b5f4ef, Lei Feng réseau AI Technology compilé examen.

voyages Spring Poppins comment peut-moins ces images artefact
Précédent
« Justice League » a toujours eu le sentiment que ce qui manquait!
Prochain
Attendez une nouvelle génération de la détermination BMW X3 sens intérieur / Récupération de la présence
Sneaky faire un autre disque, cos Kasha a rouler, le nom ne garantit pas le grand frère de femmes?
La naissance de ce film tous les départements, sont signe de progrès social!
Dans les coulisses Riccardo Tisci x nouvelle vague marque Nike de joint, qui entrera l'argent pour commencer votre liste?
Hanami est le ressort de boîte imprimée temps Shu et « neige » Man Shan Li Hua lovable
soleil Bellona selon les États-Unis, enfant du Sud plus d'un mot offensent la crème, était tirer le noir?
« Bête sauvage »: « SPL » de l'équipe, toujours au-dessus du niveau
Or adidas rare NMD R1 été exposé? ! Un tel sentiment de gaz fluorescent montrer que vous pouvez encore tenir?
La marque de voiture chinoise nouvelle, vous savez que vous comptez une vache!
UZI sont montés à bord de l'influence sociale de la liste des stars du sport, au troisième rang, amis, rire athlète de bain?
Lenovo Z5 jeu Pro, commentaires appareil photo
Les anciennes et les nouvelles versions de « Assassiner sur l'Orient Express » 10 contraste!