Choisissez quoi? la machine Python apprentissage des compétences pratiques

Lei Note du réseau Feng: Cet article est une compilation du blog de la technologie de groupe de Lei Feng, le titre original de quelques hacks et astuces essentielles pour l'apprentissage machine avec Python, auteur Tirthajyoti Sarkar.

Traduction | Zhao Pengfei Noodlesslee finition | Jiang Fan

Nous ramassons quelques techniques de base pour la pratique de l'apprentissage de la machine avec Python.

Je suis un des étudiants en sciences informatiques et de la technologie. J'apprends à l'entrée de la machine / apprentissage en profondeur / AI?

Obtenir l'apprentissage de la machine est jamais une matière simple. En plus de maturité MOOC, sur le réseau, ainsi que de grandes quantités de ressources gratuites Voici quelques-unes utiles pour moi une fois les ressources:

  • Mise en route de quelques vidéos merveilleuses sur YouTube. Lisez quelques excellents manuels ou des articles. Par exemple, vous lisez « Les algorithmes finaux: l'intelligence artificielle et l'apprentissage de la machine comment remodeler le monde » faire? Et je peux vous garantir que vous serez profondément en amour avec ce livre magnifique page sur l'apprentissage de la machine.

  • Il faut d'abord distinguer clairement entre les termes connexes - apprentissage de la machine, l'intelligence artificielle, la profondeur de l'apprentissage, la science des données, vision par ordinateur, la robotique. Lire ou écouter des experts conférences. Regarder Brandon Rohrer vidéo merveilleux, il était un des scientifiques de données de force très influents, ces vidéos sont claires sur la différence entre les définitions et les concepts de données scientifiques.

  • Bien conscients de leurs propres objectifs d'apprentissage veulent atteindre. Ensuite, apprendre des cours ou des cours Coursera de l'Université de Washington, il est un bon choix.

  • Regardez un excellent blog: KDnuggets, Mark Meloon blog, est sur les données scientifiques, le blog de Brandon Rohrer, Open le blog AI, la plupart du temps de leurs recherches.

  • Si vous êtes passionné de cours Mooc en ligne, vous jetez un oeil à la direction de cet article.

  • La chose la plus importante est de cultiver un sentiment. Joignez-vous à un bon forum social,  Cependant, pour résister à la tentation de se concentrer sur les contenus de titre et des nouvelles sensationnelles. Faites votre propre lecture, pour comprendre ce qu'il est, ce qu'il est pas, il est possible d'aller, quel genre de possibilités qu'elle aura. Puis asseyez-vous à penser à la façon dont l'apprentissage de la machine ou des principes scientifiques de données à leur travail quotidien. Créer un modèle simple de régression pour prédire le coût d'un repas au déjeuner, ou de télécharger des données à partir de votre compagnie d'électricité là-bas et faire un tableau de séries chronologiques simple dans Excel pour trouver une loi de puissance. Une fois que vous êtes complètement accro à l'apprentissage de la machine, vous pouvez jeter un oeil à cette vidéo.

  • Pour l'apprentissage de la machine / AI, Python est un excellent langage?

    Sauf si vous êtes un chercheur d'étude purement théorique Dr algorithmes complexes prouvent le contraire, vous utiliserez principalement les algorithmes d'apprentissage machine existante, et les appliquer pour résoudre de nouveaux problèmes. Cela exige que vous savez comment programmer.

    Sur « le meilleur langage de données scientifiques » Il y a beaucoup de controverse. Quand le débat chauffé quand arrêter et de lire cet article perspicace sur vos idées, jetez un oeil à vos options. Ou, jetez un oeil à l'article de KDnuggets. À l'heure actuelle, on croit généralement, du développement au déploiement et à la maintenance, Python peut aider les développeurs plus efficacement. Par rapport à Java, C et C ++, Python syntaxe plus facile et plus avancée. Il a une communauté dynamique, la culture open source, des centaines de bibliothèque d'apprentissage machine de haute qualité, ainsi que le plein soutien de géants de l'industrie (tels que: Google, Dropbox, Airbnb, etc.). Cet article se concentrera sur PythonIt appliquée aux compétences de base pertinentes dans l'apprentissage de la machine.

    Nous devons comprendre et maîtriser la bibliothèque de base

    Pour la pratique de l'apprentissage machine plus efficace, vous devez disposer d'une bibliothèque de base Python. Ces bibliothèques sont brièvement suit comme.

    numpy

    abréviation numérique Python, NumPy est l'utilisation de la bibliothèque Python de base pour le calcul scientifique et l'analyse des données nécessaires. Presque tous les outils avancés sont basés sur Numpy construit, comme Pandas et scikit-learn. Tensorflow utilisé comme élément de base module de réseau Numpy, sur cette base, l'objet et construit des tâches d'apprentissage de la profondeur graphflow tenseur. De nombreuses opérations sont mises en uvre NumPy C, ce qui en fait courir plus vite. les données scientifiques modernes et les tâches d'apprentissage machine, ceci est un avantage précieux.

    pandas

    Ceci est une analyse de données à usage général Python aspects de calcul scientifique des plus bibliothèques populaires. Pandas tableau Numpy construit sur la base, préservant ainsi le calcul des caractéristiques de vitesse rapide, et fournit un certain nombre de Ingénierie dans le domaine des données fonctionnelles Y compris:

    • données en lecture / écriture dans de nombreux formats différents;

    • Sélectionné sous-ensemble de données;

    • grades Croix du calcul;

    • Trouvez et remplir les données manquantes;

    • Les opérations sont appliquées à un ensemble indépendant de données;

    • Réassemble les données sous des formes différentes;

    • Fusion d'une pluralité d'ensembles de données;

    • fonctions de synchronisation avancées;

    • Visualisation par Matplotlib et Seaborn;

    Matplotlib et Seaborn

    la visualisation des données et des données articulés est chaque scientifique des données doit avoir les compétences de base, et ces compétences peuvent transmettre efficacement les informations obtenues à partir de l'analyse. Cette compréhension et la maîtrise de l'apprentissage de la machine est très important, ainsi que dans votre apprentissage de la machine de flux de travail (ML Pipeline) dans. Avant de décider d'un algorithme ML spécifique à l'application, vous devez définir l'analyse exploratoire des données.

    Matplotlib est le plus largement utilisé bibliothèque de visualisation en deux dimensions, qui a un tableau de commande et l'éblouissement d'interface, peut générer des graphiques de haute qualité à partir des données. Vous pouvez vous aider à démarrer Matplotlib.

    Seaborn est un autre grand terrain sur des axes bibliothèque de visualisation statistique. L'apprentissage automatique est une valeur praticiens de l'apprentissage. En base Matplotlib, Seaborn fournir API (avec la flexibilité de style de dessin par défaut et la couleur de choisir), pour les types de tracés statistiques communes, il définit un simple fonctions de niveau élevé pour la bibliothèque Pandas en toute transparence. Voici un tutoriel pour Seaborn débutants.

    Des exemples de parcelles Seaborn

    Scikit-learn

    Scikit-learn est le plus important programme d'apprentissage machine essentiel Python commun. Il prend en charge une variété de classification, les algorithmes de régression et de regroupement, y compris soutien machines à vecteurs, des forêts aléatoires, améliorer le gradient, k-means et dbscan. Scikit-learn bibliothèque bibliothèque NumPy SciPy peut interagir avec l'opération. Il offre une gamme d'algorithmes supervisés et non supervisés interface cohérente. bibliothèque scikit-learn est déterminé à utiliser un certain degré de robustesse et de soutenir la pratique de la production. Cela signifie une profonde préoccupation tels que la facilité d'utilisation, la qualité du code, la collaboration, la documentation et les problèmes de performance. Cela peut paraître simple introduction à l'apprentissage du vocabulaire de la machine scikit-learn à l'aide. Voici un autre article, démontre une méthode simple à l'aide d'un pipeline d'apprentissage machine de scikit-learn. Voici un autre article illustre l'utilisation de scikit-learn textes simples méthodes d'apprentissage de la machine.

    Derrière le spot lumineux scikit-learn

    Pour une foule de débutants d'apprentissage de la machine et des professionnels expérimentés, scikit-learn est très facile à utiliser paquet. Cependant, même très praticiens expérimentés ML peut ne pas être au courant de tous les lieux de lumineux derrière ce paquet, ils peuvent améliorer considérablement l'efficacité. J'essaie de montrer la méthode scikit-learn la / petite interface connue.

    pipeline: Il peut être conditionné en une pluralité d'estimateurs. Traitement des données en général au cours d'une série d'étapes fixes, de sorte qu'il est utile, par exemple, la sélection des fonctionnalités, la classification et la normalisation. Ici ont suivi le cours de compréhension en profondeur.

    Recherche Grille: paramètre Ultra n'est pas directement appris estimateurs paramètres. Ils sont passés au constructeur de la classe comme une estimation des paramètres scikit-learn dans. Recherche sur l'espace paramètre afin d'obtenir le meilleur score de validation croisée sont les pratiques recommandées et réalisables. Tous les paramètres à estimer de cette façon peut être optimisé lors de la construction estimateurs.

    Vérifier courbe: Chaque estimateur a ses avantages et ses inconvénients. erreur de Généralisation peut être basée sur l'écart, et la décomposition de la variance du bruit. Il est l'écart des estimateurs d'erreur moyenne de différents ensembles de formation. Les estimateurs de la variance a dit qu'il devrait changer la façon dont la formation sensible. est un attribut de bruit des données. Dessiner un hyper-paramètres individuels dans les scores des ensembles de formation et de validation afin de déterminer certains paramètres dépassent le montant estimé est dû surajustement ou approche de montage est très utile. Scikit-learn lieu de méthode intégrée ici.

    classification des données codées à chaud: Ce sont des données très communs de prétraitement caractéristique de classement de tâches pour convertir le binaire d'entrée codage utilisé pour des tâches de classification ou de prédiction (par exemple: le nombre se réfère aux caractéristiques textuelles dopée et la régression logistique). Scikit-learn fournit un moyen puissant et simple à réaliser le processus mentionné ci-dessus. Pandas données directement sur le châssis ou le tableau fonctionnement Numpy, facilitant ainsi à l'utilisateur d'écrire de la carte spéciale de conversion / appliquer la fonction.

    polynomiale de génération d'entité: tâches de modélisation de régression pour son nombre incalculable, pour augmenter la complexité du modèle de caractéristique non linéaire lorsque les données d'entrée est utile. Une façon simple et couramment utilisée consiste à utiliser une fonction polynomiale, les fonctionnalités disponibles et plus termes d'interaction de commande. fonction scikit-learn prêts à l'emploi, les termes croisés d'ordre supérieur peuvent être générés en fonction d'un ensemble donné de caractéristiques et le polynôme degré le plus élevé sélectionné par l'utilisateur.

    Data Set Builder: Scikit-learn divers comprend générateur d'échantillon aléatoire, pour la construction de la taille des ensemble de données d'artificiel et de la complexité. Il a la classification des fonctions, le regroupement, la régression, la matrice factorisation et une variété de tests.

    Pratiquer l'apprentissage machine interactive

    En 2014, projet Jupyter IPython est né du projet, et a évolué rapidement pour soutenir tous les langages de programmation et de données interactive calcul scientifique portable scientifique. Il ne fait aucun doute pour aider les scientifiques à des données de test rapidement, créer des prototypes pour ses / ses idées, les résultats montrent un impact énorme sur des aspects tels que la communauté open source et ses pairs.

    Cependant, uniquement lorsque l'utilisateur aux paramètres du modèle de contrôle de manière interactive et voir immédiatement l'effet au bon moment (ou presque), l'apprentissage et les données de test ne deviennent vraiment les infiltrer. La plupart sont statiques Jupyter présenté

    Mais vous avez besoin de contrôler plus vous voulez simplement glisser la souris plutôt que de changer le cycle de variable en écrivant pour. Comment faire? Vous pouvez utiliser des plug-ins ipython.

    plug-in python est un élément important qui a été réfléchie par le navigateur, le contrôle des canaux habituellement présents, tels que les curseurs, des zones de texte, etc., en tant que frontal (HTML / JavaScript).

    Dans cet article, je démontrais l'aide d'un simple plug-in à des exercices d'ajustement de la courbe de base complète. Les articles suivants seront plus étendus dans le domaine de la technologie et de l'apprentissage interactif.

    cadre d'apprentissage de profondeur

    Cet article décrit les compétences importantes pour utiliser Python pour explorer le monde merveilleux de l'apprentissage de la machine. Mais il ne comprend pas, comme tensorflow, Keras ou PyTorch cadre d'apprentissage profond, parce que chacun d'entre eux nécessite une discussion approfondie. Ici vous pouvez lire quelques grands articles sur le sujet ci-dessus, mais nous allons probablement consacré à ces cadre magnifique plus tard.

    • 7 grands articles sur tensorflow (Central science des données)

    • Datacamp tutoriel sur les réseaux de neurones et l'exemple Keras

    • AnalyticsVidhya tutoriel sur PyTorch

    résumé

    Tout le contenu de l'article ne peut pas couvrir le thème de l'apprentissage machine (même une petite partie). Cependant, j'espère que cet article suscitera votre intérêt, mais fournit également un écosystème Python qui existent déjà dans un certain cadre puissant de pointeurs clairs pour vous, assurez-vous de commencer votre parcours d'apprentissage machine.

    site Blog https://heartbeat.fritz.ai/some-essential-hacks-and-tricks-for-machine-learning-with-python-5478bc6593f2

    Lei Feng Lei Feng net net

    La rupture est épée à double tranchant, bronze réussi contre-attaque au roi, les filles: ne vous pas toujours merveilleux
    Précédent
    Je veux savoir ce que leur activité de sperme, frapper juste sur le téléphone
    Prochain
    hommes hétérosexuels ne le font pas le cancer Suansha, les hommes célibataires et quatre problème commun, ce qui représente quatre points est entièrement basé sur la force des célibataires
    « Action Team Fat Man » Dalian formation des rencontres de partage des expériences créatives et généreuses à l'école
    Sina 20 ans, la décision la plus sensible est de 8 millions d'acquisition du nom de domaine « microblogging »!
    Analyse et comparaison des Bluetooth, Wi-Fi, Zwave et ZigBee
    définition bord ZUK avant Shots: empreinte digitale avec non poreuse
    Jackie Chan, nouvelle officielle de finale de premier film de Zhang Yimou a déclaré, côté film « Venom » n'a pas encore publié de questions interlocutoires
    Donner aux parents une plus grande confiance, plus sûrs enfants Lenovo a publié deux montres intelligentes montre S etc.
    Plus ces quatre secrets cachés dans le cur des hommes, il est plus que vous aimez, très chaud très intime!
    peuple coréen véritable foi! Samsung Galaxy 6 a remporté la première marque en Corée du Sud
    Porsche plate-forme MSB va pousser une variété de modèles tels que l'Audi A9
    « Vous écrivez de la poésie comme » engins fixes interprétation de 2 Novembre Kenji routine de l'histoire de l'anti-traversée la plus stupide
    Huawei 9 porte-parole du maté Chine continentale a confirmé: l'acteur Zhang Hanyu