Biblioth�que de d�veloppement pour les donn�es scientifiques et a recommand� l'AI: Python, R 7 chacun

Lei Feng r�seau par AI Technology Review: L'�crivain Favio V�zquez est un des scientifiques des donn�es, des physiciens et des ing�nieurs informaticiens, depuis le d�but de 2018, il a commenc� � �crire et � publier � La science des donn�es et l'intelligence artificielle Weekly Digest: Python & R � s�rie d'articles, les scientifiques de donn�es, peut vraiment aider ils accomplissent mieux les t�ches des meilleures biblioth�ques de d�veloppement, les projets open source, ainsi que l'outil de package d'installation. Avec la fin de l'ann�e, les lecteurs Favio V�zquez devraient �galement �tre tenus de l'inventaire d'une s�rie d'articles dans la biblioth�que de d�veloppement du langage Python / R 7. Lei Feng r�seau AI Technology Review compil� comme suit.

avant-propos

Si vous avez toujours �t� pr�occup� par moi, vous saurez cette ann�e, je commenc� � �crire � la science des donn�es et le traitement hebdomadaire AI R�sum�: Python & R � (Weekly Digest pour la science des donn�es et AI: Python & R) s�rie, dans ces articles, J'ai �num�r� aidera les scientifiques � mieux les donn�es que nous accomplissons diverses t�ches dans les meilleures biblioth�ques de d�veloppement, les projets open source, ainsi que l'outil de package d'installation.

Battement de coeur sur un grand nombre d'utilisateurs (https://heartbeat.fritz.ai/) a apport� un soutien � ces r�sum�s, et ils ont sugg�r� que je choisirai les d�veloppeurs vraiment changer ou d'am�liorer la fa�on dont nous travaillons cette ann�e de ces sommaire biblioth�que, cr�ez une liste de biblioth�ques de d�veloppement � le meilleur � de.

R�sum� avant si vous voulez lire, peut �tre consult� � l'adresse suivante:

https://www.getrevue.co/profile/favio

Avertissement: Cette liste est bas�e sur mes biblioth�ques de l'article personnel de d�veloppement Replay et installer des paquets, dans une certaine mesure, ils appliquent aux programmeurs, des scientifiques de donn�es et les amateurs de l'intelligence artificielle, qui ont �t� cr��s un peu d'avant 2018, mais S'ils ont encore la tendance, aussi, il peut �tre consid�r� comme utiliser.

TOP 7 R pour la biblioth�que de d�veloppement des langues

7. AdaNet- offrent l'assurance d'apprentissage rapide, souple AutoML

Ouvrez adresse source: https: //github.com/tensorflow/adanet

ADAnet est un poids l�ger, cadre extensible tensorflow AutoML peut �tre utilis� ADAnet algorithme (Cliquez ici pour les documents: ADAnet: apprentissage adaptatif structurel de r�seaux de neurones artificiels, https: //arxiv.org/abs/1607.01097) pour former et depuis le d�ploiement du r�seau de neurones appropri�. ADAnet int�gre plusieurs sous-r�seaux pour apprendre, afin de r�duire la complexit� inh�rente � la conception du r�seau de neurones efficace.

Ce forfait peut vous aider � choisir la meilleure architecture de r�seau de neurones pour r�aliser l'algorithme d'auto-applicable � l'architecture neuronale comme sous-r�seau d'apprentissage int�gr�.

Nous devons d'abord comprendre la tensorflow avant d'utiliser ce paquet, car il impl�mente l'interface tensorflow estimateur. Ensuite, il peut �tre une formation conditionn�e, l'�valuation, la pr�vision et des services qui m�nent � l'aide de la programmation d'apprentissage de la machine.

Entre la capacit� de faire ce mod�le d'int�gration entre la performance sur l'ensemble de la formation et sa g�n�ralisation � des donn�es invisibles - vous pouvez cr�er une int�gration de r�seau de neurones, cette biblioth�que de d�veloppement peut aider � optimiser vos objectifs de formation de trouver un �quilibre.

6. TPOT- machine � apprendre � optimiser l'utilisation de l'outil de programmation g�n�tique flux de travail d'apprentissage machine automatique Python

Ouvrez adresse source: https: //github.com/EpistasisLab/tpot

Dans un r�sum� avant la (https://heartbeat.fritz.ai/weekly-digest-for-data-science-and-ai-python-and-r-volume-6-830ed997cf07), j'ai parl� de Python domaine de l'apprentissage machine automatique pour une bonne biblioth�que de d�veloppement --Auto-Keras. Permettez-moi maintenant � une autre machine pour l'apprentissage automatique outil tr�s int�ressant.

Cet outil est appel� l'optimisation des flux de travail (arbre bas� pipeline outil d'optimisation, TPOT) repr�sentation arborescente, il est une grande biblioth�que de d�veloppement. Il est essentiellement un outil d'apprentissage automatique de la machine Python, en utilisant la programmation g�n�tique de l'apprentissage de la machine afin d'optimiser le flux de travail.

TPOT peut r�aliser la s�lection des fonctionnalit�s, la s�lection de mod�les et d'autres fonctions automatis�es pour construire un grand nombre de t�ches. Heureusement, si vous �tes un �tudiant de la machine Python, tout le code g�n�r� TPOT connaissez-vous - parce qu'il a �t� cr�� le scikit-learn.

Tout ce qu'il fait est en explorer intelligemment des milliers de flux de travail possibles pour trouver le meilleur pour les donn�es, qui mieux l'apprentissage de la machine travail automatiser la partie la plus p�nible, apr�s quoi il trouvera qu'ils coulent g�n�rer du code Python, puis le suivant, vous pouvez bricoler avec le flux de travail.

Il fonctionne comme suit:

Pour plus de d�tails TPOT, vous pouvez lire cette s�rie d'articles �crits par d'autres auteurs:

Matthew Mayo, https: //www.kdnuggets.com/2018/01/managing-machine-learning-workflows-scikit-learn-pipelines-part-4.html
Randy Olson, https: //www.kdnuggets.com/2016/05/tpot-python-automating-data-science.html

5.SHAP-- approche unifi�e � l'interpr�tation des mod�les d'apprentissage automatique de sortie

Ouvrez adresse source: https: //github.com/slundberg/shap

des mod�les d'apprentissage machine interpr�tation souvent pas facile, mais il est tr�s important pour toute une gamme d'applications commerciales. Heureusement, il y a une tr�s bonne biblioth�que de d�veloppement peut aider � expliquer le mod�le d'apprentissage de la machine. Dans de nombreuses applications, nous avons besoin de savoir, de comprendre ou de v�rifier comment utiliser les variables d'entr�e dans le mod�le, et la fa�on dont les variables d'entr�e affectant les pr�visions du mod�le final.

SHAP (Shapley additif eXPlicaTions) est une approche unifi�e � l'interpr�tation des r�sultats du mod�le de l'apprentissage de la machine, la th�orie des jeux et de l'interpr�tation partielle associera certaines des m�thodes pr�c�dentes et un syst�me unifi� et fond� sur l'interpr�tation, repr�sentent la seule possible coh�rente, locale pr�cise dans lequel les proc�d�s de propri�t� additifs.

Disponible � l'adresse suivante SHAP lire plus d'informations:

https://github.com/slundberg/shap#sample-notebooks

4.Optimus-- utiliser Python, Spark peut �tre facilement fait un travail rapide de flux de donn�es scientifiques

Ouvrez adresse source: https: //github.com/ironmussa/Optimus

Honn�tement, Optimus a d�velopp� cette biblioth�que est comme mon propre enfant. Jusqu'� pr�sent, je l'ai pass� beaucoup de temps � d�velopper cette biblioth�que est tr�s heureux de pouvoir montrer la deuxi�me version de Optimus pour vous.

Optimus V2 sp�cialement d�velopp� pour le nettoyage des donn�es simplifi�es, son API est la conception tr�s simple pour les novices, avant d'utiliser les d�veloppeurs de pandas sera tr�s familier avec eux. Spark dataframe Optimus d�velopp� des fonctions de propri�t� et une augmentation .Rows .cols de.

En raison de l'arri�re-Optimus peut utiliser Spark, tensorflow et Keras, vous pouvez utiliser Optimus � nettoyer, pr�parer et analyser les donn�es, cr�er des profils et des graphiques, et l'apprentissage de la machine d'ex�cution, l'apprentissage en profondeur, et qui sont tous distribu�s peuvent ex�cuter .

Pour nous, Optimus est tr�s facile � utiliser. Il est comme avec un point de caract�ristiques dplyr, reli�es par Keras et version �volu�e Spark de pandas g�ants. Vous pouvez utiliser le code pour cr�er le travail Optimus sur votre machine locale, mais simplement changer la commande, le code peut �tre ex�cut� sur un cluster local ou d'un nuage.

Pour aider � chaque �tape du cycle des donn�es scientifiques, j'ai d�velopp� beaucoup de fonctionnalit�s int�ressantes pour Optimus.

En tant que biblioth�que de soutenir le d�veloppement de m�thodes agiles de donn�es scientifiques, Optimus peut dire �tre parfait, car il peut aider � presque toutes les �tapes du traitement de donn�es, et il peut �tre facilement connect� avec d'autres biblioth�ques et outils de d�veloppement.

Si vous souhaitez en savoir plus sur les m�thodes agiles, vous pouvez voir � l'adresse suivante:

https://www.business-science.io/business/2018/08/21/agile-business-science-problem-framework.html

3.spaCy-- combin�e avec les biblioth�ques de traitement du langage naturel de qualit� industrielle d�velopp� en Python et Cython

Adresse projet: https: //spacy.io/

Spacy faire le d�veloppement du produit r�el de travail r�el, collection et d'autres opinions r�elles pour la conception d'aide aux d�veloppeurs, il vous aidera � maximiser les �conomies de temps. La biblioth�que de d�veloppement est facile � installer, et son API est tr�s simple et efficace. Nous aimons Spacy compar� au traitement du langage naturel � Ruby � (Ruby) sur la piste.

Spacy est la meilleure fa�on d'apprendre la profondeur de la pr�paration du texte, il peut �tre tensorflow, PyTorch, scikit-learn, Gensim Python bonne IA et d'autres biblioth�ques de d�veloppement de l'�cosyst�me en toute transparence interop�rer. Vous pouvez utiliser Spacy, cr�er facilement des mod�les de langage statistiques sophistiqu�s pour tous les types de probl�mes PNL.

2.jupytext-- Jupyter �quivalent notebooks documents Markdown, Julia, scripts Python ou R de

Ouvrez adresse source: https: //github.com/mwouts/jupytext

Pour moi, jupytext est l'un des meilleurs package d'installation annuelle, il est tr�s important pour le travail de nos scientifiques de donn�es. En fait, nous travaillons tous sur Jupyter et d'autres types de bloc-notes, mais nous utilisons aussi PyCharm tels que IDE pour compl�ter la partie la plus centrale du projet.

Les bonnes nouvelles sont que lorsque vous utilisez jupytext, vous permet d'IDE favori dans le projet propos� du script et le testerons g�n�ral coup d'il ouvert au format Jupyter. Jupyter ex�cuter le bloc-notes, vous pouvez g�n�rer la sortie, les �tats-.ipynb dit, en m�me temps ou dans le script ou la sortie habituelle sous la forme traditionnelle de l'ordinateur portable Jupyter pour enregistrer et partager votre travail.

La carte suivante se d�pla�ant sur l'affichage du flux de travail peut utiliser ce paquet pour faire toutes sortes de choses:

1.Charify- scientifiques pour rendre les donn�es plus facile de cr�er des biblioth�ques de d�veloppement Python graphiques

Ouvrez adresse source: https: //github.com/chartify/chartify

Pour moi, ann�e Chartify pour les biblioth�ques de d�veloppement Python class� au premier rang des biblioth�ques de d�veloppement. Si vous �tes engag� dans le travail li� � Python, vous pouvez passer beaucoup de temps pour cr�er le graphique appropri� dans la tentative. Heureusement, nous avons un Seaborn similaire ce biblioth�ques de d�veloppement peut faciliter notre travail, mais leur probl�me est que son graphique n'est pas dynamique. Apr�s cela, nous avons un Bokeh ces grandes biblioth�ques de d�veloppement, mais l'utiliser pour cr�er des graphiques interactifs est une chose tr�s ennuyeux. Si vous voulez en savoir plus sur les Bokeh et graphiques interactifs pour les donn�es scientifiques, peuvent lire l'excellent article �crit par William Koehrsen:

https://towardsdatascience.com/data-visualization-with-bokeh-in-python-part-one-getting-started-a11655a467d4
https://towardsdatascience.com/data-visualization-with-bokeh-in-python-part-ii-interactions-a4cf994e2512
https://towardsdatascience.com/data-visualization-with-bokeh-in-python-part-ii-interactions-a4cf994e2512

Chartify fond�e sur Bokeh, mais il vaut mieux que d'utiliser Bokeh cr�er des graphiques interactifs beaucoup plus simples. Chartify de propre description de l'auteur:

Pourquoi Chartify?

formats de donn�es d'entr�e compatibles: passer moins de conversion de format de donn�es de temps peut commencer � traiter les donn�es sur le graphique, la fonction graphique utilisent tous le m�me format des donn�es d'entr�e est structur�.
styles par d�faut intelligents: les op�rations n�cessitant peu d�finies par l'utilisateur, vous pouvez cr�er graphique de bonne mine.
Simple API: API nous essayons de faire intuitive d'apprendre autant que possible.
Flexibilit�: Chartify fond�e sur Bokeh, donc si vous avez besoin de plus de contr�le sur l'op�ration, vous pouvez compter sur Bokeh de l'API.

TOP 7 R pour la biblioth�que de d�veloppement des langues

7.infer- inf�rence statistique amicale tidyverse pour le package d'installation de langage R

Ouvrez adresse source: https: //github.com/tidymodels/infer

inf�rence statistique est inf�rence ou l'utilisation de l'analyse des donn�es pour en d�duire la nature des processus sous-jacents distribution de probabilit�. d�duisent l'objectif du package d'installation est d'utiliser le cadre de la conception tidyverse coh�rente syntaxe d'expression statistique pour effectuer l'inf�rence statistique.

Si vous souhaitez en savoir plus sur d�duisent, vous pouvez voir � l'adresse suivante:

https://infer.netlify.com/index.html

6. Outils de donn�es janitor- de langage simple nettoyage R

Ouvrez adresse source: https: //github.com/sfirke/janitor

nettoyage des donn�es est une zone proche relation avec moi. Tout le long, je suis d�veloppement d'un outil --Optimus orient� langage Python avec mon �quipe de fer-AI (https://iron-ai.com/) ensemble, vous pouvez ici (https: // hioptimus. com /) pour plus d'informations sur Optimus est.

Cependant, je vous donne maintenant des outils sur l'affichage est une fonction simple peut �tre une donn�e tr�s puissant nettoyage --janitor outil.

Il a essentiellement trois fonctions principales:

Parfait pour data.frame format nom de la colonne
La cr�ation et mise en une, deux ou trois tables de fr�quence des variables, comme une table optimis�e, et
Des enregistrements en double portion isol�e

Pendant ce temps, il est �galement orient� package d'installation tidyverse (https://github.com/tidyverse/tidyverse/blob/master/vignettes/manifesto.Rmd). En particulier, il est dans le% > Quand elle est r�alis�e avec un conduit de bonne performance%, et par readr (https://github.com/tidyverse/readr) et lav� deux paquets readxl donn�es entrantes (https://github.com/tidyverse/readxl) fait optimisation.

5.Esquisse-- utilisation ggplot2 cartographie plug-in rstudio

Ouvrez adresse source: https: //github.com/dreamRs/esquisse

Ce plugin vous permet d'installer le package en utilisant la visualisation de donn�es ggplot2 pour rechercher de mani�re interactive pour ces donn�es. Il vous permet de dessiner le graphique � barres, des diagrammes de dispersion et histogrammes, et d�livre ensuite le graphique ou un code R�cup�r� pour g�n�rer un graphique.

4.DataExplorer- r�cup�ration automatique des donn�es et des outils de traitement

Ouvrez adresse source: https: //github.com/boxuancui/DataExplorer

analyse exploratoire des donn�es (analyse exploratoire des donn�es, EDA, https: //en.wikipedia.org/wiki/Exploratory_data_analysis) est de cr�er une �tape critique de mod�le d'analyse de donn�es / pr�diction. Dans ce processus, l'analyste / modeleur d'abord regarder les donn�es, puis faire des hypoth�ses et des d�cisions relatives � l'�tape suivante. Cependant, EDA Ce processus est parfois tr�s g�nant. DataExplorer le package d'installation de langage R destin� � la plupart des traitement et la visualisation des donn�es automatis�e, permettant aux utilisateurs de se concentrer sur le point de vue extraction de recherche et de donn�es.

Si vous voulez en savoir plus sur DataExplorer vous pouvez voir � l'adresse suivante:

https://boxuancui.github.io/DataExplorer/articles/dataexplorer-intro.html

3.Sparklyr- le R-interface pour Apache Spark

Ouvrez adresse source: https: //github.com/rstudio/sparklyr

Sparklyr les fonctions suivantes:

R et atteindre Spark de connexion ( a. package d'installation Sparklyr fournir un back-end dplyr compl�te (https://github.com/tidyverse/dplyr).
filtrage d'allumage et des ensembles de donn�es d'agr�gation, et ensuite les amener � la R pour l'analyse et la visualisation.
Spark MLlib utilisation des biblioth�ques de d�veloppement de l'apprentissage machine ( pour effectuer un apprentissage automatique des algorithmes distribu�s dans R.
Cr�er une extension d'appel API Spark ( et fournit une interface pour le package d'installation de Spark.

Si vous voulez en savoir plus sur Sparklyr vous pouvez voir � l'adresse suivante:

https://spark.rstudio.com/mlib/

Pour R outils de workflow voix centr�e sur 2.Drake- pour la reproductibilit�, package calcul haute performance

Ouvrez adresse source: https: //github.com/ropensci/drake

projet de programmation Drake

Avec le texte cartes: (Drake est comment faire les programmeurs: ne pas vraiment le programme, mais peut prendre 30 minutes pour discuter avec d'autres � jouer un nom variable)

Blague, mais ce qui est vraiment le nom du package d'installation appel� Drake!

Drake est un grand paquet, je sera publi� apr�s une analyse d�taill�e de ses articles, restez � l'�coute!

Drake est utilis� dans une des t�ches bas�es sur les donn�es des outils de gestion de flux de travail commun. Lorsque la cible de d�pendance � l'�gard des donn�es au milieu du changement, il peut reconstruire des donn�es sur ces cibles interm�diaires tandis que, lorsque les r�sultats sont venus, il saute le travail.

En outre, tous les travaux sont termin�s du d�but � des donn�es d'analyse et des flux de travail complet peut �tre efficacement exprim� qu'ils ont des rapports sexuels maintenant complexes.

Reproductibilit�, une bonne gestion et le suivi de l'exp�rience pour d�tecter facilement d'autres travaux et l'analyse, il est n�cessaire. Dans le domaine des donn�es scientifiques, Drake est tr�s important, vous pouvez aller � l'adresse suivante En savoir plus sur la bo�te � outils:

Zach Scott:

https://towardsdatascience.com/data-sciences-reproducibility-crisis-b87792d88513
https://towardsdatascience.com/toward-reproducibility-balancing-privacy-and-publication-77fee2366eee

Et je l'ai �crit un article:

https://towardsdatascience.com/manage-your-machine-learning-lifecycle-with-mlflow-part-1-a7252c859f72

Drake peut vous aider � r�aliser automatiquement:

1. Par rapport au processus de d�marrage pr�c�dent de la partie modifi�e;

2. sauter le reste.

1.DALEX- explication descriptive de l'apprentissage machine (eXPlicaTions descriptif apprentissage artificiel)

Ouvrez adresse source: https: //github.com/pbiecek/DALEX

mod�les d'interpr�tation d'apprentissage de la machine ne sont pas toujours facile, mais il est tr�s important pour toute une gamme d'applications commerciales. Heureusement, il y a une tr�s bonne biblioth�que de d�veloppement peut aider � expliquer le mod�le d'apprentissage de la machine.

https://github.com/thomasp85/lime

(Soit dit en passant, parfois en utilisant la visualisation de simple ggplot peut vous aider � mieux expliquer ce mod�le, Matthew Mayo avait une tr�s bonne pr�sentation dans son article �crit :. Https: //www.kdnuggets. com / 2017/11 / interpr�tation machine mod�les-apprentissage-overview.html)

Dans de nombreuses applications, nous avons besoin de savoir, de comprendre ou de v�rifier comment utiliser les variables d'entr�e dans le mod�le, et la fa�on dont les variables d'entr�e affectant les pr�visions du mod�le final. DALEX est d'aider � expliquer le mod�le complexe est un ensemble d'uvres outils.

via: https = gi //heartbeat.fritz.ai/top-7-libraries-and-packages-of-the-year-for-data-science-and-ai-python-r-6b7cca2bf000 :? 27d5c4b5f4ef, Lei Feng r�seau AI Technology compil� examen.

Route de la soie

Apprenez � conna�tre la Chine

Biblioth�que de d�veloppement pour les donn�es scientifiques et a recommand� l'AI: Python, R 7 chacun

avant-propos

TOP 7 R pour la biblioth�que de d�veloppement des langues

TOP 7 R pour la biblioth�que de d�veloppement des langues