19 données scientifiques fabuleuses et des outils d'apprentissage automatique, la programmation blanche doit voir! (Attachment)

Auteur: AARSHAY RÉMI

Traduction: Wang Ting

Relecture: Ding Nanya

thèse 4700 mots Suggestions de lecture 10+ minutes .

Cet article vous présenter à des outils de données scientifiques-conduits GUI pour débutants d'aide pour construire un modèle d'apprentissage machine de haute qualité.

introduction

La programmation fait partie intégrante de la science des données. En fait, pour comprendre la logique de la programmation, la circulation et la fonction des personnes plus susceptibles d'être scientifique des données avec succès. Mais comment ceux qui ont jamais appris dans les programmes scolaires à faire?

Est-ce qu'ils ont aucun moyen de devenir encore scientifique de données?

Ces dernières années, avec le développement rapide des données scientifiques, beaucoup de gens sont intéressés à entrer dans ce domaine. Mais la programmation a été déconcerté. En fait, avant mon premier emploi, je suis aussi un non-membre de la Ligue pour la programmation. Donc, je comprends que lorsque vous jamais appris une chose à une étape de vous déranger, combien terrible.

Les bonnes nouvelles sont que peu importe la façon dont vos compétences en programmation, vous avez un moyen de devenir des scientifiques de données! Il existe des outils pour la programmation d'éviter et fournit une interface utilisateur conviviale (interface utilisateur graphique), de sorte que tout le monde sait peu de choses l'algorithme peut simplement les utiliser pour construire un modèle d'apprentissage de la machine de haute qualité.

De nombreuses entreprises (démarrage en particulier) a récemment lancé un outil entraîné une interface graphique pour les données scientifiques. J'essaie d'introduire quelques-uns des outils importants dans cet article, et de fournir la vidéo que possible.

Remarque: Toutes les informations sont recueillies auprès de sources d'information ouvertes. Nous venons de vous montrer quelques faits au lieu d'opinions. Nous ne tentera pas de publicité ou d'un produit / service annoncé.

Ce qui suit est une liste d'outils dans cet article:

1. RapidMiner

lien:

https://rapidminer.com/

Présentation vidéo:

https://www.youtube.com/embed/ma14K56fNAM?feature=oembed&width=500&height=750

RapidMiner (RM) à l'origine en 2006 comme un produit appelé logiciel I rapide indépendant open source est commencé. Au fil des ans, ils RapidMiner nom donne un nom, et a reçu environ 35 millions $ en financement. L'ancienne version de l'outil (moins de v6) est open source, mais la dernière version aura une période d'essai de 14 jours et après cela nécessite une licence.

RM couvre l'ensemble du cycle de modélisation prédictive de la préparation des données pour la modélisation, la validation et le déploiement final. Interface graphique basée sur un schéma de principe de la méthode, très similaire à Matlab Simulink. Il y a un bloc prédéfini comme périphériques Plug and Play. Vous avez juste besoin de les connecter de la bonne façon, vous pouvez exécuter une grande variété d'algorithmes sans une seule ligne de la situation de code. Plus important encore, ils permettent R personnalisés et des scripts Python intégrés dans le système.

Les produits actuels sont les suivants:

  • RapidMiner Studio: Il peut être utilisé dans une préparation de données, la visualisation de logiciels indépendants et la modélisation statistique.
  • serveur RapidMiner: Il est un environnement d'entreprise, avec un dépôt central, vous pouvez facilement le travail d'équipe, le modèle de gestion et de déploiement du projet.
  • RapidMiner Radoop: Mis en uvre en grande Hadoop analyse centrée sur les données.
  • RapidMiner Cloud: Un dépôt en nuage, ils peuvent facilement partager des informations entre les différents appareils.

RM a été utilisé dans l'industrie automobile, banque, assurance, sciences de la vie, la fabrication, le pétrole et le gaz, commerce de détail, les télécommunications et les industries de services publics.

2. DataRobot

lien:

https://www.datarobot.com/

Présentation vidéo:

https://youtu.be/wZCNKDX1q4o

DataRobot (DR) est une plate-forme d'apprentissage machine hautement automatisée, construite par le meilleur Kagglers du monde, y compris Jeremy Achin, Thoman DeGodoy et Owen Zhang. Les demandes de plate-forme ont éliminé la nécessité pour les scientifiques de données. Cette phrase de leur site Web peut être clairement vu - la « science des données requiert des qualifications mathématiques et statistiques, compétences en programmation et connaissances d'affaires avec DataRobot, il vous suffit de fournir des connaissances de l'entreprise et les données, et notre automatisation de pointe est responsable du reste .. »

DR demandes présente les avantages suivants:

  • Modèle d'optimisation:
  • En utilisant l'extraction de texte Internet, détection de type de variable, de codage, interpolation, mise à l'échelle, la conversion détecte automatiquement les meilleures données et travaux de pré-traitement de fonction.
  • L'erreur de réglage et la validation des paramètres automatiquement sélectionné ultra partition métrique.
  • Traitement en parallèle:
  • Le calcul est donné à des milliers de serveurs multi-core.
  • En utilisant des algorithmes distribués à l'échelle de grands ensembles de données.
  • déploiement:
  • Il suffit de quelques clics, vous pouvez facilement déployer des installations (sans écrire de nouveau code).
  • Pour les ingénieurs logiciels:
  • Python SDK et API peuvent être utilisés pour intégrer rapidement des outils logiciels et des modèles.

3. BigML

lien:

https://bigml.com/

Présentation vidéo:

https://youtu.be/JVM8qIn3xPQ

BigML fournit une bonne interface utilisateur graphique qui permet à l'utilisateur de saisir les six étapes suivantes:

  • Source: en utilisant diverses sources d'information
  • Ensemble de données: Utilisez la source de données définie pour créer un ensemble
  • Modèle: Production Modèle de prévision
  • Prédiction: prévision basée sur la génération modèle
  • Synthèse: Création d'une synthèse de différents modèles
  • Évaluation: modèle très pour l'ensemble de validation

Ces processus seront évidemment itération dans un ordre différent. la plate-forme BigML fournit une bonne visualisation des résultats, et doivent résoudre la classification, la régression, le clustering, les algorithmes de détection d'anomalies et les problèmes associés trouvés. Ils offrent une base mensuelle, plusieurs formules d'abonnement fournis avec trimestriels et annuels. Ils offrent même des forfaits gratuits, mais la limite de taille des ensembles de données de téléchargement à 16MB.

Vous pouvez apprendre comment leur interface fonctionne à travers leur chaîne YouTube.

4. Google Cloud AutoML

lien:

https://cloud.google.com/automl/

Présentation vidéo:

https://youtu.be/GbLQE2C181U

Cloud AutoML fait partie du volet apprentissage de la machine de Google, qui permet au personnel limité expertise ML à construire des modèles de haute qualité. Dans le cadre du portefeuille-Cloud AutoML, le premier produit est Nuage AutoMLVision. Ce service permet modèle de formation de reconnaissance d'image plus facile. Il a une interface glisser-déposer qui vous permet de télécharger des images, modèle de formation, puis déployer ces modèles directement dans le Google Cloud.

Cloud AutoML Vision fondée sur l'apprentissage de transfert de technologie de Google et la recherche d'architecture neuronale. Cet outil a été utilisé par de nombreuses organisations. Consultez cet article pour voir la performance AutoML dans deux superbes exemples de la vie réelle, et comment il peut produire de meilleurs résultats que tout autre outil.

5. Paxata

lien:

https://www.paxata.com/

Présentation vidéo:

https://youtu.be/bxxsCLmXmms

Paxata est l'une des rares organisations se concentrent sur le nettoyage des données et de pré-traitement, plutôt que l'apprentissage de la machine ou d'une partie de modélisation statistique. Cette application est une simple classe MS Excel à utiliser. Il fournit également la visualisation d'orientation, les données peuvent facilement être mis ensemble pour trouver et les données fixes en mélange ou l'absence de bruit, ainsi que le partage et la réutilisation des éléments de données entre les équipes. Avec les autres outils mentionnés dans cet article, comme, Paxata annulé le codage ou les scripts pour surmonter les obstacles techniques impliqués dans le traitement des données.

plate-forme Paxata le processus suivant:

  • Ajouté le: Utilisez un large éventail de sources pour obtenir des données.
  • Profiler: Avec de puissants effets visuels pour l'exploration de données, ce qui permet aux utilisateurs d'identifier facilement les lacunes dans les données.
  • Nettoyage + Changement: En utilisant l'interpolation sur les étapes de nettoyage des données, en utilisant la valeur de similarité normalisée de la PNL, détecter les valeurs en double.
  • forme: les données de création de Hub, et effectue l'agrégation de paquets.
  • Partager + Gestion: Il permet de partager et collaborer dans le cas d'authentification forte et de l'autorisation.
  • combiné: La technologie exclusive appelée vues Smartfusion permettre la liaison trame de données 1, car il peut détecter automatiquement la combinaison optimale; une pluralité d'ensembles de données peuvent être combinées en une AnswerSet.
  • outils d'intelligence d'affaires: Vous pouvez facilement visualiser la réponse finale dans un ensemble commun d'outils de business intelligence, peut aussi facilement itération entre le pré-traitement et la visualisation des données.

Praxata a été impliqué dans les services financiers, les produits de consommation et la mise en réseau. Si votre travail exige beaucoup de nettoyage des données, il pourrait être un bon outil.

6. Trifacta

lien:

https://www.trifacta.com/

Présentation vidéo:

https://youtu.be/L-jWAsJNmAU

Trifacta est une autre donnée de mise au point des entreprises pré-démarrage. Il dispose de trois types de produits:

  • Wrangler: un logiciel autonome gratuit. Il permet jusqu'à 100 Mo de traitement des données.
  • WranglerPro: une version améliorée de ce qui précède. Il permet à un seul utilisateur et multi-utilisateurs et la quantité de données est limité à 40 Go.
  • WranglerEnterprise: Trifacta produit final. La quantité de données qu'il a traité sans aucune restriction, et permettre aux utilisateurs illimités. Il est idéal pour les grandes organisations.

Trifacta fournit une interface graphique très intuitive pour effectuer le nettoyage des données. Il fournira des données en entrée et appuyez sur la ligne récapitulative des différentes statistiques. De plus, pour chaque colonne, il recommandera automatiquement certains convertisseurs peuvent être sélectionnés en cliquant. Vous pouvez utiliser un certain nombre de fonctions prédéfinies pour effectuer différentes conversion de données, ces fonctions peuvent facilement appeler dans l'interface.

Trifacta plate-forme à l'aide des étapes de préparation des données suivantes:

  • Il a trouvé: Regardez d'abord la distribution des données et de comprendre rapidement votre situation.
  • Structure: Et la distribution appropriée Morphology pour le type de variables de données et des anomalies de la détermination.
  • nettoyage: Cette étape comprend l'interpolation, le texte processus de normalisation. Ceci est le modèle de données est prêt étape nécessaire.
  • complète: Cette étape permet d'améliorer la qualité de l'analyse, vous pouvez ajouter plus de sources de données ou d'effectuer certaines des fonctions des données existantes pour terminer le projet.
  • vérification: Cette étape d'exécution d'une détection finale des données.
  • Sortie: Enfin, exporter les données pour une utilisation ultérieure.
  • Trifacta principalement utilisé dans la finance, les sciences de la vie et des télécommunications.

    7. MLBase

    lien:

    Présentation vidéo:

    https://youtu.be/W-WPclNo8v0

    MLBase est un projet open source de l'Université de Californie, Berkeley AMP (Les robots de l'algorithme) développé dans le laboratoire. L'idée de base sous-jacente est à appliquer au problème de l'apprentissage de la machine à grande échelle de fournir une solution simple.

    Il dispose de trois types de produits:

    • MLlib: Il est le noyau Apache Spark distribué bibliothèque ML. Il a été initialement développé dans le cadre du projet MLBase, mais maintenant il soutient également Spark communautaire.
    • MLI: Les algorithmes pour l'extraction de caractéristiques et le développement de l'API expérimentale, qui introduit une abstractions de programmation de haut niveau ML.
    • ML Optimizer: Cette couche est conçue pour exécuter automatiquement les tâches de construction pipeline ML. Optimizer pour résoudre le problème en recherchant des algorithmes extracteur de caractéristiques et ML inclus dans le MLI et MLlib en.

    8. Auto-WEKA

    lien:

    Présentation vidéo:

    https://youtu.be/LcHw2ph6bss?list=PLm4W7_iX_v4NqPUjceOGd-OKNVO4c_cPD

    Auto-WEKA écrit en Java est un logiciel d'extraction de données, mis au point par la machine Université de Waikato apprentissage nouvelle équipe. Ceci est un outil GUI qui est utile pour les débutants données scientifiques. Son plus grand avantage est qu'il est open source, les développeurs fournissent des tutoriels et des articles pour vous aider à démarrer. Vous pouvez trouver plus d'informations dans l'article AV. À l'heure actuelle, il est principalement utilisé à des fins d'éducation et d'enseignement.

    9. Driverless AI

    lien:

    https://www.h2o.ai/driverless-ai/

    Présentation vidéo:

    https://youtu.be/KkvWX3FD7yI

    AI est la plate-forme Driverless étonnante machine automatique prend en charge l'apprentissage des entreprises h2o.ai. Vous pouvez utiliser la version d'essai de l'image docker Janvier sur ce lien. Vous utilisez simplement une simple liste déroulante pour sélectionner les fichiers à former, tester et spécifier que vous souhaitez suivre la performance du modèle d'index. Asseyez-vous et regarder la plate-forme d'interface intuitive pour former d'excellents résultats sur votre ensemble de données, et peut être une bonne solution et un des scientifiques expérimentés données présentées comparées.

    Ce sont des fonctions d'affaires Driverless AI:

    • Il prend en charge XGBOOST, GLM et K-Means et d'autres support multi-GPU, même pour les grands ensembles de données complexes peuvent fournir une excellente vitesse de formation.
    • travaux de fonction automatique, l'adaptation et l'intégration des différents modèles afin de produire une prévision très précise.
    • Au cours de la formation, il est un modèle d'interprétation et un puissant temps réel dispose afin de panneau d'importance.

    10. Microsoft Azure ML studio

    lien:

    https://studio.azureml.net/

    Présentation vidéo:

    https://youtu.be/tW1JV6bHXFA

    Lorsque cette zone il y a tellement de grands noms, Microsoft comment lag derrière? Azure ML Studio est une plate-forme simple mais puissante ML basée sur un navigateur. Il a un drag and drop environnement visuel sans programmation. Ils ont publié un tutoriel complet et exemple d'expérience pour le novice, il peut les aider à saisir rapidement l'outil.

    Il utilise un simple processus en cinq étapes:

  • ensemble de données d'importation.
  • Si nécessaire, effectuer d'autres le nettoyage des données et de prétraitement.
  • Les données en formation et de test.
  • Les applications construites algorithme ML pour former votre modèle.
  • Évaluez votre modèle, et obtenir vos prédictions!
  • 11. MLJar

    lien:

    https://mljar.com/

    Présentation vidéo:

    https://youtu.be/ijmw94h4qCk

    MLJar est une plate-forme basée sur un navigateur pour créer rapidement et déployer des modèles d'apprentissage de la machine. Il dispose d'une interface intuitive et vous permet de parallèle modèle de formation. Il est doté d'une fonction de recherche super-paramétrique, vous pouvez déployer plus facilement des modèles. MLJar fourni et NVIDIA CUDA, python, tensorflow cette intégration.

    Vous ne devez effectuer trois étapes pour créer un bon modèle:

    • Téléchargez votre ensemble de données.
    • Formation et d'adaptation de nombreux algorithmes d'apprentissage machine et choisir les meilleurs algorithmes.
    • Utilisez le meilleur modèle pour prédire et partager vos résultats.

    À l'heure actuelle, les outils utilisés pour la version d'abonnement. Il a une version gratuite et a 0.25GB des restrictions ensembles de données. Il vaut vraiment la peine d'essayer.

    12. Amazon Lex

    lien:

    https://aws.amazon.com/cn/lex/

    Présentation vidéo:

    https://youtu.be/d3LYlNqfuzI

    Amazon console Lex offre un outil facile à utiliser, vous pouvez construire votre propre robot de chat en quelques minutes. Vous pouvez construire une interface de dialogue dans une application ou site web utilisé Lex. Tout ce que vous devez faire est de fournir quelques phrases, Amazon Lex effectuer les étapes restantes! Il construit un modèle de langage naturel complet, en utilisant le modèle, les clients peuvent utiliser les applications vocales et de texte pour interagir.

    Il a également construit l'intégration avec la plate-forme Amazon Web Services (AWS). Amazon Lex est un service entièrement géré, de sorte que votre engagement des utilisateurs continue d'augmenter, vous n'avez pas à vous soucier de l'infrastructure de gestion du matériel et de la configuration afin d'améliorer votre expérience de robot.

    13. IBM Wastson studio

    lien:

    https://www.ibm.com/cloud/watson-studio

    Présentation vidéo:

    https://youtu.be/1_W6Y3c2Aeg

    Comment peut-moins de papier IBM Watson? Il est l'un des plus célèbres marques du monde. IBM Watson Studio offre une belle plate-forme pour la construction et le déploiement de l'apprentissage et le modèle d'apprentissage en profondeur. Vous pouvez découvrir de manière interactive, et Cleanse transformer vos données en utilisant les ordinateurs portables et rstudio Jupyter et d'autres outils familiers open source, les bibliothèques, l'accès à la plus populaire, la profondeur de la formation du réseau de neurones et un certain nombre d'autres choses.

    Pour des gens entrer sur le terrain, ils offrent une série de vidéos pour simplifier la phase d'entrée. Vous pouvez choisir l'essai gratuit et voir par vous-même cet outil génial. La vidéo ci-dessus vous expliquer comment créer un projet à Watson Studio.

    14. Statisticien automatique

    lien:

    https://www.automaticstatistician.com/index/

    Statisticien automatique est lui-même pas un produit, mais une exploration de données de l'agence de recherche et des outils d'analyse créer. Il peut prendre une variété de données, et son noyau de traitement du langage naturel, générer des rapports détaillés. Il a été développé par des chercheurs travaillant à Cambridge et du Massachusetts Institute of Technology, pour 750000 $ et a gagné l'objet de Google Research Award.

    Il est encore au stade de développement actif, mais dans un avenir proche devrait porter une attention particulière. Vous pouvez voir quelques exemples sur le rapport final ici.

    autres outils

    • KNIME (Https://www.knime.com/)- Cet outil est idéal pour les modèles d'apprentissage machine de formation. Dans un premier temps pour s'y habituer, mais il commencera à utiliser une sensation GUI grande. Les résultats qu'il produit la plupart du même outil, également gratuit.
    • FeatureLab (GUI Http://www.featurelab.co/)- qui permet l'utilisation d'une simple modélisation prédictive et le déploiement. L'un des meilleurs points de vente est fonctionne fonction automatique.
    • MarketSwitch (Http://www.experian.com/decision-analytics/marketswitch-optimization.html)- cet outil est plus axé sur l'optimisation plutôt que l'analyse prédictive.
    • Colle logique ( - à partir des données brutes à une autre plate-forme d'apprentissage modèle de déploiement machine à interface graphique.
    • Predictive pur (Http://www.purepredictive.com/)- L'outil utilise les systèmes d'intelligence artificielle de propriété, système de préparation de données et d'éviter la partie du modèle d'ajustement, il utilise une combinaison de AI 1000 modèles dans leur soi-disant « super modèle » .

    Si vous êtes une première fois que j'entendu ces noms, vous n'êtes pas seul! De plus en plus les données sont collectées, le marché machine l'apprentissage automatique est en pleine expansion. Ils seront submergées dans les années à venir dans le do marché? Le temps nous dira. Cependant, ces outils peuvent mieux aider ceux qui veulent commencer à apprendre l'apprentissage de la machine, ou sont à la recherche d'alternatives à ajouter à leur répertoire d'organisation existant.

    conclusion

    Dans cet article, nous avons discuté de plusieurs initiatives visant à résoudre des problèmes scientifiques conçus pour automatiser les données. Certaines études dans les premières étapes, dont certaines sont open source, d'autres ont été dans l'application de l'industrie et des millions de fonds. Tous sont le travail des données de ces scientifiques constitue une menace potentielle, ce travail devrait croître sensiblement dans un proche avenir. Ces outils sont les mieux adaptés à ceux qui ne sont pas familiers avec la programmation et le codage.

    Si vous connaissez d'autres entreprises de démarrage ou d'un plan d'explorer dans ce domaine, s'il vous plaît ne hésitez pas à commenter ci-dessous et nous inspirer!

    Vous pouvez également lire des articles sur le Analytics Vidhya l'APP Android, vous pouvez l'obtenir sur Google Play.

    Titre original:

    19 Données Science et apprentissage des machines-outils pour les personnes qui ne connaissent pas la programmation

    Lien original:

    https://www.analyticsvidhya.com/blog/2018/05/19-data-science-tools-for-people-dont-understand-coding/

    Introduction Traducteur

    Wang Ting , Étudiant diplômé de l'Université de Nanjing, ont les pattes d'oie rire chance d'amour mauvaises filles. Ne pas comme rigide, dogmatique, ennuyeux, comme de nouvelles choses, participer à de nouvelles activités, d'intégrer dans le nouvel environnement, rencontrer de nouveaux amis, apprendre les uns des autres.

    5 suspect la police espagnole craqué l'usine clandestine de cigarettes chinois arrêté
    Précédent
    front européen populaire de Dieu fait 21 buts vaut 27 fois, une très forte hausse de quatre grands géants ont un prix élevé pour lui voler
    Prochain
    AI hiver approche? Ce point est percée cruciale 10
    gaz tranchée! Boge Ba de la fouille pour construire 200.000 anneaux Euro championnat de la Coupe, un personnel de son coéquipier
    Apprenez à vous avec 10 lignes de Python atteindre la détection cible (avec le code)
    Cet âge moyen de la bande spéciale de 68 ans: à Fun neuf sortes d'instruments de musique, plus de 40 chansons originales
    Zidane trop dur! En poste depuis moins de 10 jours, le Real Madrid sera évidé cinq géants Premiership
    vous avez commencé avec une statistique de texte (ressources ci-joint) | sec
    Deuxième main librairie principale raison les gens Futian Bin: « Je ne suis pas un collectionneur, mais les gens de revenu du livre »
    Prenez-vous avec quatre lignes de formation de génération de code texte RNN (avec des ressources)
    2 étoiles 1 exposition Henzhao Mourinho! Ibrahimovic il est prêt à mourir, même Boge Ba a également été impressionné
    L'Allemagne a une affaire d'agression sexuelle collective! Appartement Munich six hommes dans une fille violée
    La machine peut-elle avoir une conscience comme les humains? Interprétation de la revue du texte long de la science
    Deuxième main de principal peuple raison Futian Bin: Taoshu 20 ans en circulation de 2 millions Liushahe portant l'inscription « ronce librairie »