l'apprentissage automatique pour résoudre le problème des jeux de données asymétriques idées et méthodes

Un exemple d'un événement régulier

Supposons que vous obtenez une tâche de créer un modèle de l'entreprise, le modèle basé sur différentes mesures que vous pouvez utiliser pour prédire si le produit est défectueux. Vous décidez d'utiliser votre classificateur favori est formé sur les données et a constaté que: taux de précision de 96,2%! Votre leadership a été surpris, a décidé de ne pas utiliser d'autres essais sur l'utilisation de votre modèle. Quelques semaines plus tard, il est entré dans votre bureau, et mettre en valeur votre modèle inutile.

En fait, Modèle créé à la production n'a pas trouvé de produit défectueux lorsqu'il est utilisé . Après enquête, on constate que les produits de la société, seulement 3,8% faussées et votre modèle répondent toujours « aucun défaut », le taux de précision de 96,2%. Le genre que vous obtenez « naïf » Le résultat est dû à un ensemble de données de déséquilibre défini que vous utilisez.

Le but de cet article résume différentes approches pour résoudre le problème du type de classification déséquilibrée peut être utilisé.

Trouvé « acte innocent »

Dans la première partie, nous voudrions rappeler aux différentes méthodes d'évaluation des classificateurs formés pour faire en sorte que tout type de trouver « comportement innocent. » Bien que la précision est un indicateur important et inévitable, mais peut être trompeur et doit donc être utilisé avec prudence et utilisé conjointement avec d'autres indicateurs. Voyons voir ce que d'autres outils que vous pouvez utiliser.

Matrice de confusion: précision, rappel de compromis

Une bonne et simple est toujours utilisé lors de la manipulation métrique de classification est matrice de confusion. L'indice peut être un bon aperçu du fonctionnement du modèle. Par conséquent, il est un bon point de départ pour toute évaluation du modèle de classification. Nous résumons la plupart des indicateurs peuvent être dérivés de la figure de la matrice de confusion.

Matrice de confusion et peuvent être dérivées des métriques

Un bref aperçu de ces indicateurs:

  • La précision du modèle Le nombre total est divisé par le nombre total de la valeur prédite correctement prédit.
  • classe de précision Lorsque le modèle est défini lors de la réponse à un point appartenant à cette classe, la fiabilité des résultats.
  • Rappel de la classe Exprimant le modèle est capable de détecter l'étendue de la classe.
  • Une catégorie scores F-1 , Est donnée par la précision et la moyenne harmonique (× 2 × précision rappel / (+ précision de rappel)) rappel, la classe de précision et de rappel incorporé dans une métrique.

Pour une classe donnée, différentes combinaisons de rappel et la précision a des implications importantes:

· Haute précision et le rappel: Ce traitement de classe par le modèle parfaitement

Faible rappel et précision: Le modèle ne peut pas être détecté avec une bonne catégorie, mais dans les cas spécifiques de confiance est très

· Haute rappel et faible précision: Tel est bien détecté, mais le modèle comprennent également d'autres classes de points

Rappel faible et une faible précision: Modèle pour ce type de traitement est médiocre

Dans l'exemple illustré dans notre présentation, nous vous offrons la matrice de confusion suivante à 10.000 produits.

matrice de confusion exemplaire ne peut pas être calculé précision « défectueux »

Comme décrit ci-dessus, la précision était de 96,2%. Aucune précision de classe de défauts de 96,2%, la précision ne peut être calculé en fonction des défauts. Rappel de la catégorie non-défaut est de 1,0, ce qui est parfait (tous les produits non défectueux sont identifiés en tant que tels). Mais le rappel de classe défectueuse est 0.0, ce qui est la situation encore pire (non détecté produit défectueux). Par conséquent, nous pouvons conclure que notre modèle Dans cette classe Les mauvaises performances. défauts produit scores F1 ne peuvent pas être calculés, les scores de produits non défectueux 0,981. Dans ce cas, voir la matrice de confusion peut conduire à repenser notre modèle ou notre objectif, il pourrait empêcher l'utilisation de modèles inutiles.

Peser la précision et le rappel de: ROC et AUROC

Un autre indicateur important est la courbe ROC (courbe caractéristique de fonctionnement récepteur).

Supposons que la probabilité de la classe C pour un point donné x, nous avons une sortie de modèle qui est un point: P (C | x). Sur la base de cette possibilité, nous pouvons définir une règle de décision, à savoir si et seulement si P (C | x) lorsque T, x représente appartiennent à la classe C, où T est la définition de nos règles de décision seuil. Si T = 1, uniquement lorsque le modèle est de 100% que il est marqué comme appartenant au point C. Si T = 0, alors chaque point est marqué comme appartenant à C.

Chaque valeur du seuil T pour générer un point (faux positif, vrai positif) Ensuite, lorsque la courbe ROC du point T 1 est changé à 0 lorsque l'ensemble généré de courbes est décrit. La courbe commence à partir du point (0,0)) et se termine au point (1,1). Un bon modèle aura une courbe rapide de 0 à 1 (ce qui signifie que vous devez sacrifier un peu pour obtenir un appel de taux élevé de précision).

La courbe ROC peut dépendre de la validité du modèle. Sur le côté gauche, le modèle doit sacrifier beaucoup de précision afin d'obtenir le taux élevé de rappel, à droite, ce modèle est très efficace: il peut atteindre le taux élevé de rappel tout en maintenant une grande précision.

Sur la base de la courbe ROC, nous pouvons construire et plus facile à utiliser une autre mesure pour évaluer le modèle: AUROC est l'aire sous la courbe ROC . AUROC agit comme une valeur scalaire, résume toute la courbe ROC. Comme on le voit, la tendance AUROC à 1,0 dans le meilleur des cas, nous avons tendance à 0,5 dans le pire des cas.

De même, un bon moyen de score AUROC que le modèle que nous évaluons ne sacrifie pas beaucoup pour obtenir le bon rappel de classe de précision observée (généralement une minorité).

La nature du problème: considérer a priori

Un exemple d'une catégorie non équilibrée

Nous partons du principe que nous avons deux classes: C0 et C1. Du point de C0 moyenne 0 et de variance suivent une distribution gaussienne 4 dimensions. Classe C1 résulte du point unidimensionnel moyenne gaussienne et la distribution de la variance 12. En supposant que notre problème, classe représente 90% de l'ensemble de données C0 (En conséquence, une classe C1 représente les 10% restants). Dans la figure suivante, nous avons représenté un ensemble de données représentatives contient 50 points, et le rapport correct de la distribution théorique de deux classes:

La ligne en pointillés représente la densité de probabilité pour chaque catégorie. La ligne continue en tenant compte du rapport conditionnel de densité de probabilité suivante. La courbe en trait plein est toujours supérieure à celle de la courbe C0 solide (probabilités conditionnelles) une classe C1 , Pour un point donné quelconque, le point est extrait de la probabilité de C0 est toujours plus grande que la probabilité d'extraction de la classe C1. C1 classe, selon le théorème de Bayes, nous avons:

Où l'on peut voir clairement l'impact des a priori et la façon dont il en résulte toujours dans une classe supérieure à la probabilité d'une autre catégorie de cas.

Tout cela signifie que, même d'un point de vue théorique parfait, nous savons aussi que si nous devons former sur ces classification des données Est-ce, alors la réponse est toujours dans le classificateur de précision de C0 sera le plus grand . Par conséquent, si l'objectif est de former un classificateur pour obtenir la meilleure précision, il ne devrait pas être considérée comme un problème, mais un fait: Grâce à ces fonctionnalités, nous pouvons faire mieux (en termes de précision) toujours répondu C0 .

A propos de séparabilité

L'exemple ci-dessus, nous pouvons voir que ces deux classes sont très proches, pas bien séparés. Cependant, l'ensemble des données de déséquilibre ne signifie pas nécessairement que les deux classes ne peuvent pas être bien séparés, à savoir, la classification ne peut pas bien faire dans quelques classes. Par exemple, étant donné que nous avons encore deux classes C0 (90%) et C1 (10%). Les données qui suivent le C0 signifie 0 et une variance de 4 distribution gaussienne unidimensionnelle, et les données C1 à suivre une dimension gaussienne moyenne et la variance d'une distribution de 10.

exemple Gauss, si la variance peut être bien séparée suffisamment différente par rapport au type moyen, même déséquilibré.

Contrairement au cas précédent, courbe C0 est pas toujours supérieure à la courbe C1 Par conséquent, certains points sont plus susceptibles d'être extraites de la classe C1 pas de la classe C0. Dans ce cas, deux classes séparées suffisamment pour compenser le déséquilibre: répondent pas toujours classificateur C0.

La probabilité d'erreur minimale théorie performance visuelle

Enfin, il faut rappeler que le classificateur avec la théorie des probabilités d'erreur plus petite. Pour un tel classificateur (une caractéristique, deux classes), les graphiques, La zone minimale sous les deux courbes dans une théorie de probabilité d'erreur minimum donne .

Divisibles deux minimum théorique de degrés d'erreur différentes décrites

Nous pouvons utiliser des méthodes mathématiques pour récupérer cette intuition. En fait, d'un point de vue théorique, le meilleur classificateur pour chaque point x pour sélectionner le plus probable des deux classes. Cela signifie naturellement que pour un point donné x, la meilleure probabilité d'erreur théorique est donnée par ces deux classes sont moins susceptibles de cours

Ensuite, l'expression globale de probabilité d'erreur

Cette région est inférieure à une valeur minimale représentée par le dessus deux courbes.

Re-traitement de l'ensemble de données ne sont pas toujours la solution

Sous-échantillonnage et suréchantillonnage pour générer des données de synthèse

Avant de monter le classificateur ensemble de données, ces méthodes sont utilisées généralement comme un bon moyen d'équilibrer l'ensemble de données. En bref, ces données d'action de méthodes définies comme suit:

  • Sous-échantillonnage, la plupart des classes dans l'échantillon, de sorte que seule une partie de ces points réservés
  • Suréchantillonnage, copier les minorités un point d'augmenter sa base
  • Générer des données combinées comprenant la création d'un nouveau point de données composites à partir de la base pour augmenter sa minorité

Toutes ces méthodes sont conçues pour rééquilibrer l'ensemble de données. Toutefois, nous devons rééquilibrer l'ensemble de données afin d'obtenir deux classes de données? Ou garder jusqu'à goûter la plupart de la classe? Si oui, nous devons rééquilibrer dans quelle proportion?

Plus ou moins d'impact sur le modèle de la classe majoritaire de undersampling prise de décision

Lors de l'utilisation de la méthode de rééchantillonnage (par exemple, les données obtenues à partir obtenu à partir de plus de C0 C1), Nous affichons le taux d'erreur des deux classes du classificateur au cours de la formation . Puis, de cette façon appris classification dans les données de test futurs réels, avec la précision que classificateur formé bas ensemble de données non modifiée. En fait, l'ampleur réelle de la classe est très importante pour le classement du nouveau point, et l'information est perdue lorsque des ensembles de données échantillonnées re.

Supposons que les ensembles de données Modify avec des méthodes de ré-échantillonnage similaires sont en train de changer la réalité, et doivent donc faire attention et rappelez-vous ce qu'il délivre les résultats de nos moyens de classificateur.

L'accès à d'autres fonctions

Nous pouvons encore obtenir de meilleurs résultats en termes de précision grâce à l'utilisation de fonctions add pour enrichir l'ensemble de données. Revenons à notre premier exemple, où la classe inséparables: Peut-être que nous pouvons trouver une nouvelle fonctionnalité qui peut aider à distinguer entre les deux catégories, par conséquent, améliorer la précision du classificateur.

Rechercher d'autres caractéristiques peuvent aider à séparer les deux premières catégories ne peuvent pas être séparés

Données ont été modifiées de manière réaliste par rapport mentionné ci-dessus, le procédé comprenant en réalité possible d'enrichir les informations de plus de données.

Re est une meilleure solution pour résoudre le problème

Plusieurs méthodes sont plus difficiles à traiter, nous cherchons une solution fondamentale. Retour à la question elle-même, nos problèmes ne sont pas bien déclaré, Nous devons redessiner afin d'obtenir des résultats plus satisfaisants.

classification fondée sur les coûts

Les résultats obtenus mauvais sentiment le fait qu'aucune définition claire de la fonction objective peut provenir. Jusqu'à présent, nous partons du principe que nous sommes positionnés avec classificateur haute précision, Supposons également que deux types d'erreurs ( « faux positifs » et « faux négatifs ») a le même coût . Cela signifie que lorsque nous supposons cela est vrai pour étiqueter C1 prédire C0, aussi mauvais que C1 C0 prédit lorsque l'étiquette réelle. Ensuite, les coûts d'erreur sont égaux.

Considérons le défaut (C1) et pas d'exemples de défauts de produits (C0). Dans ce cas, on peut imaginer, n'a pas détecté le produit défectueux coûtera plus de coûts (coûts de service à la clientèle, les frais juridiques possibles, en cas de défauts dangereux, ......), plutôt que d'une erreur le produit défectueux ne sera pas marqué comme défectueux (perte des coûts de production). Maintenant, lorsque le véritable label C1, prévision C0, le rapport C1 C0 est prévu en temps réel l'étiquette est bien pire. les coûts d'erreur ne sont plus égaux.

Plus précisément, nous devons prendre en compte les coûts suivants:

  • Lorsque C0 C1 prédire le coût réel de P01 marqué
  • Lorsque la prédiction C1 C0 P10 réel coût marqué (0 < P10 < <  P01)

Ensuite, nous pouvons redéfinir notre fonction objectif: nous ne sommes plus la meilleure précision est l'objectif, mais de trouver une prévision à moindre coût.

Coût minimum théorique

D'un point de vue théorique, la prévision des coûts attendus

Où C (.) Est définie fonction classificateur. (.) Donc, si nous voulons réduire au minimum le classificateur optimal théoriquement les coûts prévus devrait C est réduite au minimum:

(.) Ou, de manière équivalente, de x divisée par la masse volumique, C est réduite au minimum:

Par conséquent, cette fonction objective, d'un point de vue théorique, la meilleure classification sera comme ceci:

seuil de probabilité

La première méthode peut considérer le coût-classification est effectuée après la formation. Tout d'abord, l'idée est la méthode de base de la formation d'une probabilité de sortie de classificateur des éléments suivants:

Ne prend pas en compte tout prix. Ensuite, la prédiction de la classe sera C0, si:

Dans le cas contraire, C1.

Ici, aussi longtemps que la sortie à la probabilité de chaque classe de point fixe, que nous utilisons la classification n'est pas important. Dans notre exemple principal, nous pouvons adapter le classificateur bayésien sur nos données, nous pouvons réajuster la probabilité de l'obtenir classés en fonction de l'erreur de réglage décrit coût.

méthode de seuil de probabilité: probabilité de sortie sont repondérées, de sorte que, en contrepartie du coût dans la règle de décision finale.

Classe repondération

Classe idées repondération lors de la formation de classificateur directement pris en compte le coût de l'asymétrie d'erreur. Ce faisant, la probabilité de sortie de chaque information d'erreur de classe qui a été intégré dans le coût, et peut être utilisé pour définir une valeur de seuil ayant une règle simple de classification 0.5.

Pour certains modèles (comme un classificateurs réseau de neurones), lors de la formation des considérations de coût peuvent inclure l'ajustement de la fonction objective. Nous espérons toujours que notre sortie classificateur

Cependant, dans ce cas, la formation suivante qui réduisent au minimum la fonction de coût:

Pour les autres modèles (par exemple, classificateur bayésien), peuvent être utilisés pour solliciter la méthode de rééchantillonnage en fonction proportionnelle à l'information d'erreur d'entrée au sein du rapport de coût de classe. Si l'on considère le P01 et P10 des coûts (tels que P01 >  P10), puis:

  • facteur de suréchantillonnage classe minoritaire P01 / P10 (minorité de base devrait être multipliée par P01 / P10)
  • Échantillonnage la plupart des catégories avec le facteur P10 / P01 (classe majoritaire devrait être multipliée par la base P10 / P01)

méthode repondération classe illustration: La plupart des classes sont sous-échantillonnées dans un rapport de soigneusement sélectionnés, l'information des coûts est introduit directement dans la classe comparative.

résumé

premier Chaque fois que l'utilisation d'algorithmes d'apprentissage machine doit être choisie avec soin des mesures pour évaluer le modèle: il faut utiliser des indicateurs qui nous permettent de mieux comprendre notre performance dans la réalisation des objectifs du modèle.

deuxième Lorsque vous traitez avec un ensemble de données non équilibrée, si la classe avec les variables données ne peut pas être bien séparés, et si notre but est d'obtenir la meilleure précision, le meilleur classificateur peut être une réponse toujours plus classe classificateur « naïve ».

troisième , Les méthodes de rééchantillonnage peuvent être utilisés, mais ils doivent être examinés avec soin: ils ne doivent pas être utilisés comme une solution autonome à utiliser, mais doivent être combinés avec le problème de redo pour atteindre un objectif particulier

quatrième Encore une fois face au problème lui-même est généralement la meilleure façon de résoudre le problème des classes asymétriques: les règles de classification et de décision doivent être fixés en fonction des objectifs soigneusement sélectionnés, tels que la réduction des coûts d'erreur.

Cet article vise à comprendre exactement ce que vous voulez obtenir aidera à surmonter les problèmes de collecte de données de déséquilibre, et assurer les meilleurs résultats. objectif parfaitement défini devrait toujours être la première chose à faire, et afin de créer un modèle d'apprentissage de la machine et doit être fait le point de départ de tout choix.

Après cette apparence super beau 95 petit viande à bord de Times Square à New York, Brigitte Lin design couronne
Précédent
Super fou! Telecom Annuler « Traffic Odyssey », a lancé un nouveau forfait illimité: limite de vitesse 80Go
Prochain
Mira Chine Bao Jie: De nouveaux défis pour le développement futur de la voiture lié réseau intelligent | LINC 2016
Il doublage 25 ans, des années de marche-sept, le mâle sera présentée en première cinq pour cent vainqueur attendu, sommet du film en langue chinoise
Elle attend sur le pont pendant plusieurs heures chaque jour, les commerçants ont vendu la beauté renversante
Hella: que la voiture « tourné » masques intelligents
Parler de l'interprétation des fabricants de téléphones mobiles Huawei puces auto-développés de millet complexe
Il était connu comme le « Oriental Van Gogh » et « maître négligé, » la vie pour l'art bâton
Chine Li Peng: mise en page de « service mobile » comme le centre de la technologie de conduite numérique | LINC 2016
Huawei Q2 Pro turbulent technologie de routage Image, l'ambition féroce
Phoenix personnalisé version de l'OS! Andrews nouveau roi machine Onda V10 Pro expérience d'exploitation
Elle résonnait encore vieux maquillage 111 ans, porter des talons hauts danse excités, chaque étape de style aristocratique
Corning Jianbo: comment Gorilla Glass dans une voiture? | LINC2016
Huawei Ces deux téléphones sont trop mal Samsung fosse à ce stade ne cherchent pas à acheter un