projet d'apprentissage machine doit passer par la souffrance et dix voir par vous-même pour passer quelques dévalisé?

Auteur | Richmond Alake

Traducteur | ménisque

Produit | RPSC (ID: CSDNnews)

brève introduction

Avec le développement de l'apprentissage de la machine et la technologie elle-même, impliqué dans la phase de projet et flux de travail est également en croissance.

soutenir GPU l'émergence des appareils mobiles pour le workflow projet traditionnel d'apprentissage de la machine présente une nouvelle étape. L'émergence d'une nouvelle étape a créé un nouveau rôle et la position.

L'objectif de cet article:

  • Une analyse détaillée de chaque étape du projet d'apprentissage de la machine.

  • Chaque étape implique le rôle.

  • Le résultat final délivré après la fin de chaque étape.

  • Ce qui suit a commencé à entrer du texte.

    Définition du problème

    La définition du problème est la première étape du projet d'apprentissage vision par ordinateur / machine, l'objectif est de comprendre les besoins de problème à résoudre par l'apprentissage de la machine.

    Cette étape nécessite généralement une description du problème de préciser les problèmes à résoudre sous forme de dossiers, et l'expérience personnelle dans diverses scènes décrites en détail.

    Cette phase a également besoin de saisir la solution idéale du point de vue de ceux qui décrivent le problème.

    Décrivez le problème peut être un client, utilisateur ou collègues.

    Le produit à ce stade est livré des documents (word ou pdf), y compris (mais sans s'y limiter) les éléments suivants:

  • Problématique

  • La solution idéale

  • Comprendre et mieux comprendre les questions

  • Exigences techniques

  • Rôles connexes: IT Business Analyst

    étude

    Cette étape est la base pour les phases ultérieures (planification et réalisation des travaux de développement, etc.).

    Cette étape nécessite l'exploration sous la forme de solutions, mais la recherche aussi la structure des données, le format et les sources d'information.

    La compréhension du problème, la solution proposée et la combinaison des données disponibles qui peuvent nous aider à choisir un des modèles d'apprentissage machine appropriée, et, finalement, la solution idéale.

    A ce stade, nous devons étudier et le modèle d'algorithmes matériels et logiciels nécessaires pour atteindre afin d'économiser beaucoup de temps à un stade ultérieur.

    La scène est livrable documents (Word ou pdf), qui comprend l'étude de ce qui suit:

  • structures et sources de données

  • Sous la forme de solutions

  • Réseaux de Neurones / architecture modèle

  • algorithme

  • Configuration matérielle

  • Configuration logicielle requise

  • Related posts: chercheurs d'apprentissage de la machine, les scientifiques de données, chercheur AI.

    agrégation de données / Mines / crawling

    Les données sont des applications d'apprentissage machine dynamique et vision par ordinateur. Où l'agrégation des données est une étape critique, il peut jeter les bases d'efficacité et la performance du modèle.

    Il définit les données de polymérisation en solution de sortie.

    Les données est essentielle pour comprendre les données provenant d'une source peut être vérifié et analysé à l'aide d'outils statistiques ou des méthodes de visualisation.

    Vérifiez les données pour améliorer l'intégrité et la crédibilité des données fournies par une source pour confirmer les données.

    L'analyse des données et des travaux d'exploration doivent également répondre aux exigences suivantes:

    • besoins de collecte de données suffisamment diversifiées pour faire en sorte que le pouvoir prédictif du modèle peut être adapté à différentes situations.

    • Les données recueillies nécessité de poursuivre la justice, afin d'assurer que le modèle correctement résumée dans le raisonnement.

    • Les données collectées doivent être adéquates.

    Une variété d'outils pour recueillir des données. Les sources de données peuvent être API, XML, CSV ou Excel documents et d'autres formes. Dans certains cas, nous avons aussi besoin des données de prises ou de sources en ligne grab. Avant d'explorer, consultez le site Web tiers exploration / politique minière.

    livrables du fichier de cette phase est un dossier contenant les données d'origine et le fichier d'annotation contient des sous-dossiers.

    Related posts: les scientifiques de données, les analystes de données.

    Préparation des données / Préparation / activateur

    Prétraitement étape est basée principalement spécifications d'entrée de données de modèle. Rappelant la phase de recherche, pensez paramètres à nouveau entrée et les exigences à l'architecture réseau modèle / neurones.

    étape de prétraitement pour convertir les données brutes en un format qui permet de modéliser la formation avec succès.

    prétraiter les données, y compris (mais sans s'y limiter) les étapes suivantes:

    • reformatage des données, comprenant le redimensionnement de l'image pour modifier les canaux de couleur, réduction de bruit, la mise en valeur d'image

    • Nettoyage des données

    • normalisation des données

    la mise en valeur des données est une étape pour améliorer la diversité des données a été effectuée. données d'image améliorées peuvent prendre les formes suivantes:

    • L'angle de rotation de l'image d'un arbitraire

    • Zoom avant ou arrière

    • image recadrée

    • Retourner l'image (horizontale ou verticale)

    • soustraction moyenne

    Le produit de stade de livraison est un dossier contenant étiqueté « formation », « test » et « vérification » des sous-dossiers et sous-dossiers pour chaque fichier d'annotation.

    Emplois connexes: Scientist données

    La mise en uvre du modèle

    En général, on peut utiliser une variété de modèle tout fait de ressources en ligne fournies pour simplifier la mise en uvre du modèle. La plupart des machines et l'apprentissage cadre d'apprentissage en profondeur (par exemple PyTorch ou tensorflow) fournit des modèles pré-formés, ces modèles peuvent être utilisés pour accélérer la phase de mise en uvre du modèle.

    Celles-ci ont été faites par un modèle pré-formé sur un ensemble de formation de données puissantes, mais aussi pour atteindre la performance et de la structure de la nouvelle architecture de réseau de neurones.

    En général, nous avons rarement besoin de repartir à zéro modèle de mise en uvre. Modèle besoin de phase de mise en uvre pour effectuer les opérations suivantes:

    • Supprimer la dernière couche du réseau de neurones, le modèle est modifié pour utiliser une tâche spécifique. Par exemple, pour supprimer la dernière couche Resnet architecture de réseau de neurones, au codeur - décodeur en utilisant le réseau de neurones a été formé dans le modèle d'architecture.

    • Peaufinage modèle de pré-formation

    L'étape de livraison d'un modèle de produit est prêt à effectuer la formation.

    Related posts: les scientifiques de données, les ingénieurs, l'apprentissage machine, ingénieur de vision informatique, ingénieurs PNL, ingénieur AI.

    formation

    Au cours de la phase de formation, nous utiliserons les données devant des données sur le stade prévu pour former le modèle. la formation du modèle de mise en uvre comprend les données agrégées au modèle de formation, de créer un modèle capable des tâches spécialisées.

    Les formateurs doivent transmettre les données de formation par lots au modèle, puis spécifiez le nombre d'itérations époque. Dans les premiers stades de la formation, la performance et la précision du modèle peut être pas très satisfaisant. Mais la mise en uvre continue des modèles prédictifs, en comparant la valeur prédite avec la valeur attendue, et dans le modèle de réseau de neurones rétropropagation peut être progressivement améliorée, afin de mieux accomplir leurs tâches.

    Avant le début de la formation, nous devons définir les paramètres et les paramètres super-réseau pour contrôler l'efficacité de la phase de formation du modèle.

    paramètres Super: les valeurs définies avant le début de la formation du réseau de neurones. Un résultat positif en initialisant contrôle l'apprentissage du réseau de neurones. Ils auront une incidence sur l'algorithme d'apprentissage machine et la profondeur de l'apprentissage, mais pas affecté par l'algorithme. Leurs valeurs ne changeront pas dans le processus de formation. Les exemples incluent la valeur du paramètre super régularisation, le taux d'apprentissage, le nombre de couches et autres.

    Paramètres réseau: Il ne fera pas partie de l'initialisation manuelle du réseau de neurones. Qui est une valeur à l'intérieur du réseau neuronal, directement commandé par le réseau neuronal. Un exemple de paramètres réseau est à l'intérieur des poids du réseau de neurones.

    Au cours de la formation, chaque processus de formation et des mesures record pour chaque époque est très important. En général, nous devons recueillir les indicateurs sont comme suit:

    • Précision de formation

    • Vérifier l'exactitude

    • perte de formation

    • vérifier la perte

    Afin d'organiser et de visualiser les indicateurs de la formation, nous pouvons utiliser Matplotlib et Tensorboard et d'autres outils de visualisation.

    Nous pouvons visualiser les indicateurs de formation, d'identifier quelques pièges formation des modèles d'apprentissage de la machine, comme la sous-montage et surajustement.

    • Underfitting: Lorsque les algorithmes d'apprentissage automatique ne peuvent pas apprendre le mode de jeu de données, il se produira. Nous pouvons utiliser l'algorithme ou modèle est plus adapté à la tâche de résoudre ce problème. Et présente également des problèmes pour l'algorithme de réparation dû en adaptant davantage de données de reconnaissance de caractéristiques.

    • Overfitting: Cette question fait référence à l'algorithme de prédiction nouveau modèle, envisager le processus surentraînement tendance observée. Cela peut entraîner des algorithmes d'apprentissage machine ne peut pas les données avec précision résumées pas vu avant. Si les données de formation ne peuvent pas représenter avec précision la distribution des données de test, il peut se produire overfitting. Nous pouvons résoudre le problème de surajustement en réduisant le nombre de fonctionnalités dans les données de formation, et de réduire la complexité du réseau à travers une variété de techniques.

    Cette phase est de développer un modèle de bonne livraison des produits et des indicateurs de formation.

    Related posts: les scientifiques de données, les ingénieurs, l'apprentissage machine, ingénieur vision informatique, ingénieurs PNL, ingénieur AI

    évaluer

    A ce stade, vous avez un modèle de formation, nous avons besoin d'évaluer la performance du modèle.

    Nous avons besoin d'utiliser des « données de test » pour évaluer le modèle. Au cours de la formation, et non pas les données de test présentées au modèle. Les données d'essai doivent être représentatives des exemples de cas réels de données.

    Nous pouvons utiliser les stratégies d'évaluation suivantes:

    • Matrice de confusion (matrice d'erreur): résultats fournissent le classement réel et correspondance visuelle classificateur ou le nombre de non-concordance illustré. Matrice de confusion est généralement exprimée sous la forme d'une table en lignes représentent les observations réelles et les colonnes représentent les résultats du classificateur d'inférence.

    • taux de précision et de rappel: Ces deux sont les indicateurs de performance utilisés pour évaluer les algorithmes de classification, système de recherche visuelle. Pour évaluer le système de recherche visuelle (basé sur l'image de requête pour trouver des images similaires), par exemple, la précision du nombre de résultats pertinents retournés peuvent réfléchir et des données représentatives de rappel du nombre de résultats pertinents retourné dans les tarifs.

    Le produit de stade de livraison est le document qui contient les résultats de la production d'évaluation et de la politique d'évaluation.

    Related posts: les scientifiques de données, les ingénieurs, l'apprentissage machine, ingénieur de vision informatique, ingénieurs PNL, ingénieur AI.

    Et le réglage des paramètres inférée

    processus d'ajustement des paramètres est optimisée en modifiant les valeurs de super des paramètres du modèle. Le but est d'améliorer le modèle d'ajustement des paramètres de performance, qui est liée à l'amélioration des résultats de l'évaluation.

    Après avoir réglé les paramètres en super et en choisissant une nouvelle valeur, le besoin de former et de re-évalué.

    Ce processus d'ajustement des paramètres se poursuit jusqu'à ce que le modèle doit générer approprié.

    Inference est un modèle de test réel. Les travaux couverts comprennent des données réelles obtenues à partir de l'environnement approprié. A ce stade, nous devons être confiants quant à la performance du modèle.

    Le produit de l'étape de livraison est le modèle amélioré.

    Related posts: les scientifiques de données, les ingénieurs, l'apprentissage machine, ingénieur de vision informatique, ingénieurs PNL, ingénieur AI.

    Les appareils mobiles pour la transformation du modèle

    Après avoir créé un modèle sonore, nous avons besoin de le mettre sur les appareils mobiles.

    Lorsque nous avons besoin d'utiliser le modèle pour le développement des dispositifs de bord (tels que les téléphones mobiles ou l'Internet des appareils choses), vous devez à la conversion du modèle.

    besoins de transformation du modèle à être formés dans les modèles d'apprentissage GPU / CPU machine à l'environnement dans la version optimisée et efficace. Modèle simplifié peut être stocké sur l'appareil, mais aussi capable de manière efficace et précise inférée.

    Nous pouvons utiliser l'outil suivant pour convertir le modèle à un appareil mobile:

    • ML de base: Ceci est Apple a publié le cadre de la création d'un modèle pour iOS. CoreML fournit une machine à des tâches d'apprentissage commun (telles que l'identification et de détection) modèles. Il est la version iOS de tensorflow Lite.

    • PyTorch Mobile: PyTorch est un cadre d'apprentissage de la machine populaire, et est largement utilisé dans la recherche sur l'apprentissage et de la machine. PyTorch mobile comparable à tensorflow Lite, car il peut convertir le modèle de formation PyTorch pour la version mobile qui peut être utilisé sur les appareils iOS et Android. Cependant, PyTorch Mobile est encore à ses débuts, est actuellement en essais publiés.

    • Tensorflow Lite: utilisation du modèle tensorflow existant, le convertir afin d'optimiser la version efficace format de fichier .tflite. modèle simplifié est très faible, peut être stocké sur le dispositif, et peut être estimée avec précision.

    Le produit de l'étape de distribution est un modèle d'apprentissage automatique est optimisé pour le dispositif.

    Related posts: les scientifiques de données, les ingénieurs, l'apprentissage machine, ingénieur de vision informatique, ingénieurs PNL, ingénieur AI.

    modèle de déploiement

    Le déploiement final du modèle formé est la dernière étape. Notre modèle sera intégré dans une gamme plus large de l'écosystème des applications ou des outils, ou tout simplement construire une interface Web interactive autour de notre modèle est un déploiement de modèle d'étape importante.

    Dans un environnement de production, cette phase a également besoin de suivre le modèle d'évaluation du rendement. Est d'assurer une bonne performance modèle, et est la cible très approprié.

    Et mise à jour du recyclage modèle est un modèle pour la phase de déploiement du travail. mise à jour du modèle assure que notre modèle peut répondre à la crédibilité et la fiabilité de la mission.

    Les produits de la phase comprennent:

  • Modèle système de surveillance des performances

  • Les fonctions interface utilisateur Web pour accéder modèle

  • le redéploiement de modèle de soutien du pipeline d'intégration continue

  • Related posts: ingénieur de données, ingénieurs, apprentissage machine, ingénieur de vision informatique, ingénieurs PNL, ingénieur AI.

    Lien original:

    https://towardsdatascience.com/10-stages-of-a-machine-learning-project-in-2020-and-where-you-fit-cb73ad4726cb

    Cet article est une traduction de l'article RPSC, s'il vous plaît indiquer la source.

    Google a publié la bibliothèque open source TFQ, pour créer rapidement un modèle d'apprentissage de la machine quantique
    Précédent
    Python rampant avec plus de 30.000 commentaires, voir Comment évaluer le film coréen « parasites »?
    Prochain
    Technologie ténors: Cette année aussi apprendre Python, stupide, non? Utilisateur: Vous dites
    Comment la version Fun AlphaGo de backgammon avec CNN?
    air fort froid continue d'affecter la plupart des régions de la Chine en Chine du Sud a une forte pluie
    La nouvelle épidémie de pneumonie de la Couronne a causé plus de 2 millions de personnes meurent à nouveau comment des personnalités politiques nationales « pris »
    A part de Salut! L'augmentation soudaine de 1,2 billion, 100 actions limitent l'afflux d'un grand avantage pour la libération de l'éclosion mondiale
    Internet médicale dans l'épidémie: le montant de la consultation poussée, les normes de service et la capacité à diagnostiquer les problèmes encore non confirmée
    Pour envoyer 200 kilos de nouveaux patients soupçonnés de la Couronne pour un traitement médical, la police de Wuhan une demi-heure pour aller trois étages
    Provinces d'échantillonnage thèse d'un master publié des centaines d'innovation a échoué, la logique est défectueuse grande
    Nouvel An début de la formation! formation d'élite Longtenghuyue
    Mise au point Shu vit en place d'un tel, jetez un oeil à jambes douces! Ils rongent la pauvreté?
    Wit! Âgé de 12 ans avait une odeur de la porte du couloir odeur porte habitants frapper l'appeler « Little Hero »
    Grandeur à --2019 Hardships années, les hauts et les bas de Hong Kong, a augmenté de près de Cross - Référence