algorithmes d'apprentissage machine exigent des tests au hasard combien de fois, juste assez pour refléter objectivement la performance efficace du modèle?

Lei Note du réseau Feng: L'auteur est australien Jason Brownlee bien connu des experts en matière d'apprentissage de la machine, la prévision des séries chronologiques, ont surtout l'expérience. D'origine éditent leurs blog. Lei Feng réseau compilé.

Jason Brownlee

Il existe de nombreux algorithmes d'apprentissage automatique aléatoire même problème: le même algorithme, les mêmes données pour calculer le résultat était différent à chaque fois. Cela signifie que lors d'un algorithme de test aléatoire ou un algorithme de comparaison lorsque le test doit être répété plusieurs fois, puis les utiliser pour évaluer le modèle moyen.

Donc, pour un problème donné, algorithmes d'apprentissage machine exigent des tests au hasard combien de fois, juste assez pour refléter objectivement la performance efficace du modèle?

Recommandations générales sur répétées 30 fois ou même 100 fois. Certains des milliers de fois, même répétée, au mépris total de la diminution d'effet marginal.

Pour les mesurer algorithmes d'apprentissage machine aléatoire requis performance des tests de répétitions, dans ce tutoriel, je vais vous apprendre à utiliser des méthodes statistiques pour estimer correctement.

Présentation du didacticiel

Ce tutoriel divisé en quatre parties:

  • génération de données

  • Analyse fondamentale

  • Analyse de l'impact des répétitions

  • calcul d'erreur standard

  • Ce tutoriel utilise le langage Python, la version 2 ou 3 peuvent être, pour une marche silencieuse le code exemple, veillez à installer SciPy, NumPy, Pandas et bibliothèque Matplotlib.

    nous avons commencé ici tutoriel

    1. Les données générées

    La première étape consiste à générer les données disponibles.

    On suppose un réseau de neurones ou un autre algorithme aléatoire sur l'ensemble d'apprentissage de données d'apprentissage est répétée 1000 fois, et le modèle de racine d'erreur quadratique moyenne enregistrée sur l'appareil d'essai (RMSE). En tant que condition sine qua non pour la suite tutoriel d'analyse, nous supposons une distribution normale utilisée.

    Assurez-vous de regarder les modèles de distribution des résultats, les résultats généralement gaussienne (c.-à-normal).

    Nous étudierons prégénérés par la population échantillon, faire des études de suivi est très utile, parce que le programme a généré l'échantillon global écart moyen et standard sur sa finalisation, mais cela est souvent inconnue dans l'application pratique.

    Nous entendons = 60, écart type = 10 génère des données de test en tant que paramètres.

    Le code suivant est généré 1000 nombres aléatoires, le résultat est sauvegardé le fichier results.csv.

    Nous utilisons le code en fonction de semences de graines de générateur de nombres aléatoires pour assurer que chaque code est compatible avec les données obtenues terme. Utilisez la fonction de génération de nombres aléatoires normal normal, la fonction pour enregistrer les données au format ASCII savetxt.

    Après l'exécution de ce code, nous obtenons un fichier nommé results.csv de, qui détient 1.000 nombres aléatoires qui représentent les résultats de la simulation d'algorithmes randomisés exécuter de façon répétitive.

    Voici les 10 dernières lignes des données de fichiers.

    6.160564991742511864e + 01

    5.879850024371251038e + 01

    6.385602292344325548e + 01

    6.718290735754342791e + 01

    7.291188902850875309e + 01

    5.883555851728335995e + 01

    3.722702003339634302e + 01

    5.930375460544870947e + 01

    6.353870426882840405e + 01

    5.813044983467250404e + 01

    Maintenant, nous allons mettre ces données comment faire avancer les choses de côté, procéder vers le bas.

    2. Analyse fondamentale

    Après avoir obtenu l'ensemble de l'échantillon, nous allons être simple analyse statistique.

    Les trois suivants sont très moyen simple et efficace:

  • Calculer les statistiques telles que la moyenne, écart-type, et percentiles.

  • Dessin boxplot pour voir l'étendue des données de propagation

  • Dessiner un histogramme pour afficher la distribution des données

  • Une simple analyse statistique réalisée par le code suivant, le premier fichier de données results.csv de charge, et les calculs statistiques, et l'affichage de dessin.

    Comme on peut le voir, la performance moyenne de l'algorithme est d'environ 60,3, écart-type d'environ 9,8.

    Supposer que les données représentent l'erreur quadratique moyenne comme étant similaire à la valeur minimale, les résultats statistiques, la valeur maximale est de 99,5 et la valeur minimum est de 29,4.

    Le tableau suivant montre le cas, le degré de dispersion des données, dans lequel les données sont portion en forme de boîte (environ 50% de l'échantillon) (en haut à quartile inférieur) point milieu échantillon représente la valeur anormale, la ligne verte représente la médiane .

    La figure montre que les résultats raisonnables dans la distribution de valeur autour.

    La dernière génération des données d'histogramme, la figure montre une courbe en cloche de distribution normale (courbe en cloche), cela signifie que nous effectuons l'analyse des données, en utilisant des outils d'analyse statistique standard.

    La figure montre que les données à un axe de symétrie 60 sur presque pas de déviation.

    3. Impact du nombre de répétitions de l'analyse

    Avant 1000 les données généré de résultats. Plus probablement, il peut ne pas être suffisant pour l'étude du problème.

    Comment juger?

    La première idée est de dessiner un graphique du nombre de répétitions entre le test et les résultats moyens de ces tests. Nous espérons que l'augmentation du nombre de répétitions, le résultat pourrait signifier une écurie bientôt. Après tracé, il semble commencer les fluctuations du segment et à court et à long partie arrière en douceur.

    En utilisant le code suivant dessine la courbe.

    Comme on peut le voir d'après la figure, les 200 premières données volatiles moyennes, après 600 heures, la moyenne stable, courbe moins volatile.

    Afin de mieux observer les courbes, il est amplifié, seuls les 500 premiers fois les résultats des tests répétés.

    Alors que la ligne se superpose aux résultats moyens de 1000, afin de trouver la relation entre l'écart.

    Orange figure 1000 est des résultats de test répété droite ligne moyenne.

    En même temps, nous avons pu voir répétées 100 fois, les résultats sont plus proches de la moyenne, le nombre de répétitions atteint 400, le résultat est plus idéal, mais pas évident.

    Est-ce grand? Mais ne sera pas là une meilleure façon de le faire?

    4. Calculer l'erreur-type

    Erreur type est utilisée pour calculer la quantité de l'échantillon écart moyen de la moyenne globale. Il est différent et l'écart-type écart-type décrit la variation moyenne de la valeur d'observation de l'échantillon. Erreur type de la moyenne peut être étalé selon la quantité d'erreur globale estimée ou l'erreur de la moyenne échantillon.

    erreur standard peut être calculée par la formule suivante:

    standard_error = sample_standard_deviation / sqrt (nombre de répétitions)

    À savoir l'écart type divisé par l'erreur-type d'échantillons en double est égal au nombre d'entreprises.

    Nous espérons que l'erreur-type augmente avec le nombre de tests augmente. Le code suivant, calculer l'erreur type de la moyenne pour chaque échantillon correspondant au nombre de répétitions, les erreurs types et tracée sur la Fig.

    Après avoir exécuté cette courbe de code tracée avec l'erreur standard du nombre de répétitions.

    Comme prévu, la répétition du nombre croissant de tests, l'écart-type diminue rapidement. Après un écart-type diminue dans une certaine mesure, stabilisée, habituellement une valeur de 1 à 2 unités, appelée une erreur acceptable.

    des unités cohérentes d'erreur standard et les unités de données échantillon.

    Ajouter 0,5 et ordonnée la ligne auxiliaire 1, pour nous aider à trouver une valeur d'erreur standard acceptable dans la figure ci-dessus. Code est la suivante:

    Lei rappeler situation des utilisateurs, deux lignes auxiliaires figurent apparaissent en rouge, ce qui représente l'erreur-type est égal à 0,5 et 1.

    La figure montre, si le test a été répété 100 fois égal au nombre de fois, écart-type inférieur à 1 commence, si le test de temps équivalent à 300 à 350 fois, l'écart type est inférieur à 0,5. Avec l'augmentation répétée du nombre d'essais, l'erreur-type tend à être stable, peu de changement. Encore une fois, rappelez-vous, l'erreur-type de l'échantillon des mesures de déviation moyenne la quantité de la moyenne de la population.

    Nous pouvons également utiliser l'erreur standard de la moyenne comme un intervalle de confiance. Par exemple, avec 95% de la moyenne de la population comme limites supérieure et inférieure de l'intervalle de confiance. Cette méthode ne convient que pour l'examen du nombre de répétitions est supérieur à 20.

    Intervalle de confiance est défini comme suit:

    Exemple moyenne +/- (erreur standard * 1,96)

    Le calcul des intervalles de confiance, et l'ajouter au nombre de fois la moyenne échantillon correspondant d'expériences répétées sous forme de barres d'erreur. Voici le code de calcul.

    Figure créer l'échantillon courbe moyenne avec des intervalles de confiance.

    Dans lequel les émissions de ligne rouge la moyenne globale (les départs didacticiel pour générer un écart moyen et standard donné de l'ensemble, la moyenne générale est connue), après avoir répété 1000 fois ou plus, peut être remplacé par un échantillon moyen de la population moyenne.

    Les barres d'erreur enroulés sur la figure la ligne moyenne. Et l'échantillon moyen exagéré ou surestimé la moyenne de la population, mais relèvent de la moyenne globale de l'intervalle de confiance de 95%.

    95% intervalle de confiance est effectuée sens 100 replications, comprenant 95 fois la valeur moyenne globale vraie, aucun comprend en outre 5.

    Comme on le voit sur la figure., Comme le nombre de répétitions augmente, en raison de l'erreur-type réduite du goulet d'intervalle de confiance de 95% progressivement.

    La figure supérieure agrandie, cette tendance est en particulier entre 20 et 200.

    Ce code est généré par l'échantillon barres moyenne et erreur avec un nombre variable de courbe d'essais. Ce chiffre peut mieux refléter l'écart de l'échantillon moyenne et la moyenne de la population.

    Pour en savoir plus

    En fait, à la fois la méthode d'essai consiste à calculer l'aide d'un algorithme aléatoire et implique très peu de références statistiques.

    Personnellement, je pense qu'en 1995, le livre de Cohen est la meilleure combinaison des deux:

    Méthodes empiriques pour l'intelligence artificielle (méthode empirique AI), Cohen (Cohen), 1995

    Si vous êtes intéressé je vous recommande vivement ce livre ce tutoriel.

    De plus, il y a plusieurs articles sur Wikipédia peut vous aider à:

    erreur type

    Intervalle de confiance

    règle 68-95-99.7

    Si vous avez une bonne autre information pertinente, nous pouvons communiquer avec tout le monde dans la section des commentaires. Merci.

    résumé

    Dans ce tutoriel, nous fournissons une répétition de test de choix raisonnable de la méthode, qui nous permet d'évaluer l'exactitude des algorithmes d'apprentissage machine aléatoires.

    Voici plusieurs façons de choisir le nombre de répétitions:

    • Simple et brut directement avec 30.100 ou 1000 fois.

    • Tracée par rapport à la moyenne de l'échantillon et le nombre de répétitions, et sélectionné en fonction du point d'inflexion.

    • Les erreurs types et transcrites par rapport au nombre de répétitions, et est choisi en fonction du seuil d'erreur.

    • Par rapport à l'échantillon Tracée intervalles de confiance et le nombre de répétitions, et sélectionné en fonction de la distribution d'erreur.

    instrument de mesure de récupération de sous-marin submersible sans pilote pour la recherche
    Précédent
    De zéro à dix milliards de dollars des États-Unis d'évaluation, peut-être plus d'un Theranos Silicon Valley
    Prochain
    Plus de 5.000 pièces sont calculées en valeur la vitesse de la surface de Jingdong Pro
    Léchant temps d'écran | ouvert avec amour « voile »
    Cloud parallèle basée sur l'algorithme pour résoudre le spot laser multi-curs DSP
    « A Silent Voice » pour l'âme d'un film à succès « brimades » controverse lourde
    Piece île merveilleuse non seulement le contenu, mais aussi le nom d'un ah merveilleux
    Pourquoi le même poids corporel, la graisse, mince apparence est pas la même chose?
    Toute une science, « Dieu de vol de voiture » pour voir frais Bel
    Les points quantiques montrent à quel point? Commentaires TCL X8 QLED d'une qualité TV
    La technologie AR vous vivant « Anatomy » pour les autres à voir
    VG petit Q & R: Votre recherche pour « Battlefield Valkyrie » de savoir combien?
    Léchant temps d'écran | Tsui Hark beauté costume de cinéma
    « Tomb Raider Shadow », Laura est monté à bord haut de la chaîne alimentaire forêt tropicale Amérique du Sud