19 donn�es scientifiques fabuleuses et des outils d'apprentissage automatique, la programmation blanche doit voir! (Attachment)

Auteur: AARSHAY R�MI

Traduction: Wang Ting

Relecture: Ding Nanya

th�se 4700 mots Suggestions de lecture 10+ minutes .

Cet article vous pr�senter � des outils de donn�es scientifiques-conduits GUI pour d�butants d'aide pour construire un mod�le d'apprentissage machine de haute qualit�.

introduction

La programmation fait partie int�grante de la science des donn�es. En fait, pour comprendre la logique de la programmation, la circulation et la fonction des personnes plus susceptibles d'�tre scientifique des donn�es avec succ�s. Mais comment ceux qui ont jamais appris dans les programmes scolaires � faire?

Est-ce qu'ils ont aucun moyen de devenir encore scientifique de donn�es?

Ces derni�res ann�es, avec le d�veloppement rapide des donn�es scientifiques, beaucoup de gens sont int�ress�s � entrer dans ce domaine. Mais la programmation a �t� d�concert�. En fait, avant mon premier emploi, je suis aussi un non-membre de la Ligue pour la programmation. Donc, je comprends que lorsque vous jamais appris une chose � une �tape de vous d�ranger, combien terrible.

Les bonnes nouvelles sont que peu importe la fa�on dont vos comp�tences en programmation, vous avez un moyen de devenir des scientifiques de donn�es! Il existe des outils pour la programmation d'�viter et fournit une interface utilisateur conviviale (interface utilisateur graphique), de sorte que tout le monde sait peu de choses l'algorithme peut simplement les utiliser pour construire un mod�le d'apprentissage de la machine de haute qualit�.

De nombreuses entreprises (d�marrage en particulier) a r�cemment lanc� un outil entra�n� une interface graphique pour les donn�es scientifiques. J'essaie d'introduire quelques-uns des outils importants dans cet article, et de fournir la vid�o que possible.

Remarque: Toutes les informations sont recueillies aupr�s de sources d'information ouvertes. Nous venons de vous montrer quelques faits au lieu d'opinions. Nous ne tentera pas de publicit� ou d'un produit / service annonc�.

Ce qui suit est une liste d'outils dans cet article:

1. RapidMiner

lien:

https://rapidminer.com/

Pr�sentation vid�o:

https://www.youtube.com/embed/ma14K56fNAM?feature=oembed&width=500&height=750

RapidMiner (RM) � l'origine en 2006 comme un produit appel� logiciel I rapide ind�pendant open source est commenc�. Au fil des ans, ils RapidMiner nom donne un nom, et a re�u environ 35 millions $ en financement. L'ancienne version de l'outil (moins de v6) est open source, mais la derni�re version aura une p�riode d'essai de 14 jours et apr�s cela n�cessite une licence.

RM couvre l'ensemble du cycle de mod�lisation pr�dictive de la pr�paration des donn�es pour la mod�lisation, la validation et le d�ploiement final. Interface graphique bas�e sur un sch�ma de principe de la m�thode, tr�s similaire � Matlab Simulink. Il y a un bloc pr�d�fini comme p�riph�riques Plug and Play. Vous avez juste besoin de les connecter de la bonne fa�on, vous pouvez ex�cuter une grande vari�t� d'algorithmes sans une seule ligne de la situation de code. Plus important encore, ils permettent R personnalis�s et des scripts Python int�gr�s dans le syst�me.

Les produits actuels sont les suivants:

RapidMiner Studio: Il peut �tre utilis� dans une pr�paration de donn�es, la visualisation de logiciels ind�pendants et la mod�lisation statistique.
serveur RapidMiner: Il est un environnement d'entreprise, avec un d�p�t central, vous pouvez facilement le travail d'�quipe, le mod�le de gestion et de d�ploiement du projet.
RapidMiner Radoop: Mis en uvre en grande Hadoop analyse centr�e sur les donn�es.
RapidMiner Cloud: Un d�p�t en nuage, ils peuvent facilement partager des informations entre les diff�rents appareils.

RM a �t� utilis� dans l'industrie automobile, banque, assurance, sciences de la vie, la fabrication, le p�trole et le gaz, commerce de d�tail, les t�l�communications et les industries de services publics.

2. DataRobot

lien:

https://www.datarobot.com/

Pr�sentation vid�o:

https://youtu.be/wZCNKDX1q4o

DataRobot (DR) est une plate-forme d'apprentissage machine hautement automatis�e, construite par le meilleur Kagglers du monde, y compris Jeremy Achin, Thoman DeGodoy et Owen Zhang. Les demandes de plate-forme ont �limin� la n�cessit� pour les scientifiques de donn�es. Cette phrase de leur site Web peut �tre clairement vu - la � science des donn�es requiert des qualifications math�matiques et statistiques, comp�tences en programmation et connaissances d'affaires avec DataRobot, il vous suffit de fournir des connaissances de l'entreprise et les donn�es, et notre automatisation de pointe est responsable du reste .. �

DR demandes pr�sente les avantages suivants:

Mod�le d'optimisation:
En utilisant l'extraction de texte Internet, d�tection de type de variable, de codage, interpolation, mise � l'�chelle, la conversion d�tecte automatiquement les meilleures donn�es et travaux de pr�-traitement de fonction.
L'erreur de r�glage et la validation des param�tres automatiquement s�lectionn� ultra partition m�trique.
Traitement en parall�le:
Le calcul est donn� � des milliers de serveurs multi-core.
En utilisant des algorithmes distribu�s � l'�chelle de grands ensembles de donn�es.
d�ploiement:
Il suffit de quelques clics, vous pouvez facilement d�ployer des installations (sans �crire de nouveau code).
Pour les ing�nieurs logiciels:
Python SDK et API peuvent �tre utilis�s pour int�grer rapidement des outils logiciels et des mod�les.

3. BigML

lien:

https://bigml.com/

Pr�sentation vid�o:

https://youtu.be/JVM8qIn3xPQ

BigML fournit une bonne interface utilisateur graphique qui permet � l'utilisateur de saisir les six �tapes suivantes:

Source: en utilisant diverses sources d'information
Ensemble de donn�es: Utilisez la source de donn�es d�finie pour cr�er un ensemble
Mod�le: Production Mod�le de pr�vision
Pr�diction: pr�vision bas�e sur la g�n�ration mod�le
Synth�se: Cr�ation d'une synth�se de diff�rents mod�les
�valuation: mod�le tr�s pour l'ensemble de validation

Ces processus seront �videmment it�ration dans un ordre diff�rent. la plate-forme BigML fournit une bonne visualisation des r�sultats, et doivent r�soudre la classification, la r�gression, le clustering, les algorithmes de d�tection d'anomalies et les probl�mes associ�s trouv�s. Ils offrent une base mensuelle, plusieurs formules d'abonnement fournis avec trimestriels et annuels. Ils offrent m�me des forfaits gratuits, mais la limite de taille des ensembles de donn�es de t�l�chargement � 16MB.

Vous pouvez apprendre comment leur interface fonctionne � travers leur cha�ne YouTube.

4. Google Cloud AutoML

lien:

https://cloud.google.com/automl/

Pr�sentation vid�o:

https://youtu.be/GbLQE2C181U

Cloud AutoML fait partie du volet apprentissage de la machine de Google, qui permet au personnel limit� expertise ML � construire des mod�les de haute qualit�. Dans le cadre du portefeuille-Cloud AutoML, le premier produit est Nuage AutoMLVision. Ce service permet mod�le de formation de reconnaissance d'image plus facile. Il a une interface glisser-d�poser qui vous permet de t�l�charger des images, mod�le de formation, puis d�ployer ces mod�les directement dans le Google Cloud.

Cloud AutoML Vision fond�e sur l'apprentissage de transfert de technologie de Google et la recherche d'architecture neuronale. Cet outil a �t� utilis� par de nombreuses organisations. Consultez cet article pour voir la performance AutoML dans deux superbes exemples de la vie r�elle, et comment il peut produire de meilleurs r�sultats que tout autre outil.

5. Paxata

lien:

https://www.paxata.com/

Pr�sentation vid�o:

https://youtu.be/bxxsCLmXmms

Paxata est l'une des rares organisations se concentrent sur le nettoyage des donn�es et de pr�-traitement, plut�t que l'apprentissage de la machine ou d'une partie de mod�lisation statistique. Cette application est une simple classe MS Excel � utiliser. Il fournit �galement la visualisation d'orientation, les donn�es peuvent facilement �tre mis ensemble pour trouver et les donn�es fixes en m�lange ou l'absence de bruit, ainsi que le partage et la r�utilisation des �l�ments de donn�es entre les �quipes. Avec les autres outils mentionn�s dans cet article, comme, Paxata annul� le codage ou les scripts pour surmonter les obstacles techniques impliqu�s dans le traitement des donn�es.

plate-forme Paxata le processus suivant:

Ajout� le: Utilisez un large �ventail de sources pour obtenir des donn�es.
Profiler: Avec de puissants effets visuels pour l'exploration de donn�es, ce qui permet aux utilisateurs d'identifier facilement les lacunes dans les donn�es.
Nettoyage + Changement: En utilisant l'interpolation sur les �tapes de nettoyage des donn�es, en utilisant la valeur de similarit� normalis�e de la PNL, d�tecter les valeurs en double.
forme: les donn�es de cr�ation de Hub, et effectue l'agr�gation de paquets.
Partager + Gestion: Il permet de partager et collaborer dans le cas d'authentification forte et de l'autorisation.
combin�: La technologie exclusive appel�e vues Smartfusion permettre la liaison trame de donn�es 1, car il peut d�tecter automatiquement la combinaison optimale; une pluralit� d'ensembles de donn�es peuvent �tre combin�es en une AnswerSet.
outils d'intelligence d'affaires: Vous pouvez facilement visualiser la r�ponse finale dans un ensemble commun d'outils de business intelligence, peut aussi facilement it�ration entre le pr�-traitement et la visualisation des donn�es.

Praxata a �t� impliqu� dans les services financiers, les produits de consommation et la mise en r�seau. Si votre travail exige beaucoup de nettoyage des donn�es, il pourrait �tre un bon outil.

6. Trifacta

lien:

https://www.trifacta.com/

Pr�sentation vid�o:

https://youtu.be/L-jWAsJNmAU

Trifacta est une autre donn�e de mise au point des entreprises pr�-d�marrage. Il dispose de trois types de produits:

Wrangler: un logiciel autonome gratuit. Il permet jusqu'� 100 Mo de traitement des donn�es.
WranglerPro: une version am�lior�e de ce qui pr�c�de. Il permet � un seul utilisateur et multi-utilisateurs et la quantit� de donn�es est limit� � 40 Go.
WranglerEnterprise: Trifacta produit final. La quantit� de donn�es qu'il a trait� sans aucune restriction, et permettre aux utilisateurs illimit�s. Il est id�al pour les grandes organisations.

Trifacta fournit une interface graphique tr�s intuitive pour effectuer le nettoyage des donn�es. Il fournira des donn�es en entr�e et appuyez sur la ligne r�capitulative des diff�rentes statistiques. De plus, pour chaque colonne, il recommandera automatiquement certains convertisseurs peuvent �tre s�lectionn�s en cliquant. Vous pouvez utiliser un certain nombre de fonctions pr�d�finies pour effectuer diff�rentes conversion de donn�es, ces fonctions peuvent facilement appeler dans l'interface.

Trifacta plate-forme � l'aide des �tapes de pr�paration des donn�es suivantes:

Il a trouv�: Regardez d'abord la distribution des donn�es et de comprendre rapidement votre situation.

Structure: Et la distribution appropri�e Morphology pour le type de variables de donn�es et des anomalies de la d�termination.

nettoyage: Cette �tape comprend l'interpolation, le texte processus de normalisation. Ceci est le mod�le de donn�es est pr�t �tape n�cessaire.

compl�te: Cette �tape permet d'am�liorer la qualit� de l'analyse, vous pouvez ajouter plus de sources de donn�es ou d'effectuer certaines des fonctions des donn�es existantes pour terminer le projet.

v�rification: Cette �tape d'ex�cution d'une d�tection finale des donn�es.

Sortie: Enfin, exporter les donn�es pour une utilisation ult�rieure.

Trifacta principalement utilis� dans la finance, les sciences de la vie et des t�l�communications.

7. MLBase

lien:

Pr�sentation vid�o:

https://youtu.be/W-WPclNo8v0

MLBase est un projet open source de l'Universit� de Californie, Berkeley AMP (Les robots de l'algorithme) d�velopp� dans le laboratoire. L'id�e de base sous-jacente est � appliquer au probl�me de l'apprentissage de la machine � grande �chelle de fournir une solution simple.

Il dispose de trois types de produits:

MLlib: Il est le noyau Apache Spark distribu� biblioth�que ML. Il a �t� initialement d�velopp� dans le cadre du projet MLBase, mais maintenant il soutient �galement Spark communautaire.
MLI: Les algorithmes pour l'extraction de caract�ristiques et le d�veloppement de l'API exp�rimentale, qui introduit une abstractions de programmation de haut niveau ML.
ML Optimizer: Cette couche est con�ue pour ex�cuter automatiquement les t�ches de construction pipeline ML. Optimizer pour r�soudre le probl�me en recherchant des algorithmes extracteur de caract�ristiques et ML inclus dans le MLI et MLlib en.

8. Auto-WEKA

lien:

Pr�sentation vid�o:

https://youtu.be/LcHw2ph6bss?list=PLm4W7_iX_v4NqPUjceOGd-OKNVO4c_cPD

Auto-WEKA �crit en Java est un logiciel d'extraction de donn�es, mis au point par la machine Universit� de Waikato apprentissage nouvelle �quipe. Ceci est un outil GUI qui est utile pour les d�butants donn�es scientifiques. Son plus grand avantage est qu'il est open source, les d�veloppeurs fournissent des tutoriels et des articles pour vous aider � d�marrer. Vous pouvez trouver plus d'informations dans l'article AV. � l'heure actuelle, il est principalement utilis� � des fins d'�ducation et d'enseignement.

9. Driverless AI

lien:

https://www.h2o.ai/driverless-ai/

Pr�sentation vid�o:

https://youtu.be/KkvWX3FD7yI

AI est la plate-forme Driverless �tonnante machine automatique prend en charge l'apprentissage des entreprises h2o.ai. Vous pouvez utiliser la version d'essai de l'image docker Janvier sur ce lien. Vous utilisez simplement une simple liste d�roulante pour s�lectionner les fichiers � former, tester et sp�cifier que vous souhaitez suivre la performance du mod�le d'index. Asseyez-vous et regarder la plate-forme d'interface intuitive pour former d'excellents r�sultats sur votre ensemble de donn�es, et peut �tre une bonne solution et un des scientifiques exp�riment�s donn�es pr�sent�es compar�es.

Ce sont des fonctions d'affaires Driverless AI:

Il prend en charge XGBOOST, GLM et K-Means et d'autres support multi-GPU, m�me pour les grands ensembles de donn�es complexes peuvent fournir une excellente vitesse de formation.
travaux de fonction automatique, l'adaptation et l'int�gration des diff�rents mod�les afin de produire une pr�vision tr�s pr�cise.
Au cours de la formation, il est un mod�le d'interpr�tation et un puissant temps r�el dispose afin de panneau d'importance.

10. Microsoft Azure ML studio

lien:

https://studio.azureml.net/

Pr�sentation vid�o:

https://youtu.be/tW1JV6bHXFA

Lorsque cette zone il y a tellement de grands noms, Microsoft comment lag derri�re? Azure ML Studio est une plate-forme simple mais puissante ML bas�e sur un navigateur. Il a un drag and drop environnement visuel sans programmation. Ils ont publi� un tutoriel complet et exemple d'exp�rience pour le novice, il peut les aider � saisir rapidement l'outil.

Il utilise un simple processus en cinq �tapes:

ensemble de donn�es d'importation.

Si n�cessaire, effectuer d'autres le nettoyage des donn�es et de pr�traitement.

Les donn�es en formation et de test.

Les applications construites algorithme ML pour former votre mod�le.

�valuez votre mod�le, et obtenir vos pr�dictions!

11. MLJar

lien:

https://mljar.com/

Pr�sentation vid�o:

https://youtu.be/ijmw94h4qCk

MLJar est une plate-forme bas�e sur un navigateur pour cr�er rapidement et d�ployer des mod�les d'apprentissage de la machine. Il dispose d'une interface intuitive et vous permet de parall�le mod�le de formation. Il est dot� d'une fonction de recherche super-param�trique, vous pouvez d�ployer plus facilement des mod�les. MLJar fourni et NVIDIA CUDA, python, tensorflow cette int�gration.

Vous ne devez effectuer trois �tapes pour cr�er un bon mod�le:

T�l�chargez votre ensemble de donn�es.
Formation et d'adaptation de nombreux algorithmes d'apprentissage machine et choisir les meilleurs algorithmes.
Utilisez le meilleur mod�le pour pr�dire et partager vos r�sultats.

� l'heure actuelle, les outils utilis�s pour la version d'abonnement. Il a une version gratuite et a 0.25GB des restrictions ensembles de donn�es. Il vaut vraiment la peine d'essayer.

12. Amazon Lex

lien:

https://aws.amazon.com/cn/lex/

Pr�sentation vid�o:

https://youtu.be/d3LYlNqfuzI

Amazon console Lex offre un outil facile � utiliser, vous pouvez construire votre propre robot de chat en quelques minutes. Vous pouvez construire une interface de dialogue dans une application ou site web utilis� Lex. Tout ce que vous devez faire est de fournir quelques phrases, Amazon Lex effectuer les �tapes restantes! Il construit un mod�le de langage naturel complet, en utilisant le mod�le, les clients peuvent utiliser les applications vocales et de texte pour interagir.

Il a �galement construit l'int�gration avec la plate-forme Amazon Web Services (AWS). Amazon Lex est un service enti�rement g�r�, de sorte que votre engagement des utilisateurs continue d'augmenter, vous n'avez pas � vous soucier de l'infrastructure de gestion du mat�riel et de la configuration afin d'am�liorer votre exp�rience de robot.

13. IBM Wastson studio

lien:

https://www.ibm.com/cloud/watson-studio

Pr�sentation vid�o:

https://youtu.be/1_W6Y3c2Aeg

Comment peut-moins de papier IBM Watson? Il est l'un des plus c�l�bres marques du monde. IBM Watson Studio offre une belle plate-forme pour la construction et le d�ploiement de l'apprentissage et le mod�le d'apprentissage en profondeur. Vous pouvez d�couvrir de mani�re interactive, et Cleanse transformer vos donn�es en utilisant les ordinateurs portables et rstudio Jupyter et d'autres outils familiers open source, les biblioth�ques, l'acc�s � la plus populaire, la profondeur de la formation du r�seau de neurones et un certain nombre d'autres choses.

Pour des gens entrer sur le terrain, ils offrent une s�rie de vid�os pour simplifier la phase d'entr�e. Vous pouvez choisir l'essai gratuit et voir par vous-m�me cet outil g�nial. La vid�o ci-dessus vous expliquer comment cr�er un projet � Watson Studio.

14. Statisticien automatique

lien:

https://www.automaticstatistician.com/index/

Statisticien automatique est lui-m�me pas un produit, mais une exploration de donn�es de l'agence de recherche et des outils d'analyse cr�er. Il peut prendre une vari�t� de donn�es, et son noyau de traitement du langage naturel, g�n�rer des rapports d�taill�s. Il a �t� d�velopp� par des chercheurs travaillant � Cambridge et du Massachusetts Institute of Technology, pour 750000 $ et a gagn� l'objet de Google Research Award.

Il est encore au stade de d�veloppement actif, mais dans un avenir proche devrait porter une attention particuli�re. Vous pouvez voir quelques exemples sur le rapport final ici.

autres outils

KNIME (Https://www.knime.com/)- Cet outil est id�al pour les mod�les d'apprentissage machine de formation. Dans un premier temps pour s'y habituer, mais il commencera � utiliser une sensation GUI grande. Les r�sultats qu'il produit la plupart du m�me outil, �galement gratuit.
FeatureLab (GUI Http://www.featurelab.co/)- qui permet l'utilisation d'une simple mod�lisation pr�dictive et le d�ploiement. L'un des meilleurs points de vente est fonctionne fonction automatique.
MarketSwitch (Http://www.experian.com/decision-analytics/marketswitch-optimization.html)- cet outil est plus ax� sur l'optimisation plut�t que l'analyse pr�dictive.
Colle logique ( - � partir des donn�es brutes � une autre plate-forme d'apprentissage mod�le de d�ploiement machine � interface graphique.
Predictive pur (Http://www.purepredictive.com/)- L'outil utilise les syst�mes d'intelligence artificielle de propri�t�, syst�me de pr�paration de donn�es et d'�viter la partie du mod�le d'ajustement, il utilise une combinaison de AI 1000 mod�les dans leur soi-disant � super mod�le � .

Si vous �tes une premi�re fois que j'entendu ces noms, vous n'�tes pas seul! De plus en plus les donn�es sont collect�es, le march� machine l'apprentissage automatique est en pleine expansion. Ils seront submerg�es dans les ann�es � venir dans le do march�? Le temps nous dira. Cependant, ces outils peuvent mieux aider ceux qui veulent commencer � apprendre l'apprentissage de la machine, ou sont � la recherche d'alternatives � ajouter � leur r�pertoire d'organisation existant.

conclusion

Dans cet article, nous avons discut� de plusieurs initiatives visant � r�soudre des probl�mes scientifiques con�us pour automatiser les donn�es. Certaines �tudes dans les premi�res �tapes, dont certaines sont open source, d'autres ont �t� dans l'application de l'industrie et des millions de fonds. Tous sont le travail des donn�es de ces scientifiques constitue une menace potentielle, ce travail devrait cro�tre sensiblement dans un proche avenir. Ces outils sont les mieux adapt�s � ceux qui ne sont pas familiers avec la programmation et le codage.

Si vous connaissez d'autres entreprises de d�marrage ou d'un plan d'explorer dans ce domaine, s'il vous pla�t ne h�sitez pas � commenter ci-dessous et nous inspirer!

Vous pouvez �galement lire des articles sur le Analytics Vidhya l'APP Android, vous pouvez l'obtenir sur Google Play.

Titre original:

19 Donn�es Science et apprentissage des machines-outils pour les personnes qui ne connaissent pas la programmation

Lien original:

https://www.analyticsvidhya.com/blog/2018/05/19-data-science-tools-for-people-dont-understand-coding/

Introduction Traducteur

Wang Ting , �tudiant dipl�m� de l'Universit� de Nanjing, ont les pattes d'oie rire chance d'amour mauvaises filles. Ne pas comme rigide, dogmatique, ennuyeux, comme de nouvelles choses, participer � de nouvelles activit�s, d'int�grer dans le nouvel environnement, rencontrer de nouveaux amis, apprendre les uns des autres.

Route de la soie

Apprenez � conna�tre la Chine

19 donn�es scientifiques fabuleuses et des outils d'apprentissage automatique, la programmation blanche doit voir! (Attachment)