Un exemple d'un �v�nement r�gulier

Supposons que vous obtenez une t�che de cr�er un mod�le de l'entreprise, le mod�le bas� sur diff�rentes mesures que vous pouvez utiliser pour pr�dire si le produit est d�fectueux. Vous d�cidez d'utiliser votre classificateur favori est form� sur les donn�es et a constat� que: taux de pr�cision de 96,2%! Votre leadership a �t� surpris, a d�cid� de ne pas utiliser d'autres essais sur l'utilisation de votre mod�le. Quelques semaines plus tard, il est entr� dans votre bureau, et mettre en valeur votre mod�le inutile.

En fait, Mod�le cr�� la production n'a pas trouv� de produit d�fectueux lorsqu'il est utilis� . Apr�s enqu�te, on constate que les produits de la soci�t�, seulement 3,8% fauss�es et votre mod�le r�pondent toujours � aucun d�faut �, le taux de pr�cision de 96,2%. Le genre que vous obtenez � na�f � Le r�sultat est d� � un ensemble de donn�es de d�s�quilibre d�fini que vous utilisez.

Le but de cet article r�sume diff�rentes approches pour r�soudre le probl�me du type de classification d�s�quilibr�e peut �tre utilis�.

Trouv� � acte innocent �

Dans la premi�re partie, nous voudrions rappeler aux diff�rentes m�thodes d'�valuation des classificateurs form�s pour faire en sorte que tout type de trouver � comportement innocent. � Bien que la pr�cision est un indicateur important et in�vitable, mais peut �tre trompeur et doit donc �tre utilis� avec prudence et utilis� conjointement avec d'autres indicateurs. Voyons voir ce que d'autres outils que vous pouvez utiliser.

Matrice de confusion: pr�cision, rappel de compromis

Une bonne et simple est toujours utilis� lors de la manipulation m�trique de classification est matrice de confusion. L'indice peut �tre un bon aper�u du fonctionnement du mod�le. Par cons�quent, il est un bon point de d�part pour toute �valuation du mod�le de classification. Nous r�sumons la plupart des indicateurs peuvent �tre d�riv�s de la figure de la matrice de confusion.

Matrice de confusion et peuvent �tre d�riv�es des m�triques

Un bref aper�u de ces indicateurs:

La pr�cision du mod�le Le nombre total est divis� par le nombre total de la valeur pr�dite correctement pr�dit.
classe de pr�cision Lorsque le mod�le est d�fini lors de la r�ponse � un point appartenant � cette classe, la fiabilit� des r�sultats.
Rappel de la classe Exprimant le mod�le est capable de d�tecter l'�tendue de la classe.
Une cat�gorie scores F-1 , Est donn�e par la pr�cision et la moyenne harmonique (� 2 � pr�cision rappel / (+ pr�cision de rappel)) rappel, la classe de pr�cision et de rappel incorpor� dans une m�trique.

Pour une classe donn�e, diff�rentes combinaisons de rappel et la pr�cision a des implications importantes:

� Haute pr�cision et le rappel: Ce traitement de classe par le mod�le parfaitement

Faible rappel et pr�cision: Le mod�le ne peut pas �tre d�tect� avec une bonne cat�gorie, mais dans les cas sp�cifiques de confiance est tr�s

� Haute rappel et faible pr�cision: Tel est bien d�tect�, mais le mod�le comprennent �galement d'autres classes de points

Rappel faible et une faible pr�cision: Mod�le pour ce type de traitement est m�diocre

Dans l'exemple illustr� dans notre pr�sentation, nous vous offrons la matrice de confusion suivante � 10.000 produits.

matrice de confusion exemplaire ne peut pas �tre calcul� pr�cision � d�fectueux �

Comme d�crit ci-dessus, la pr�cision �tait de 96,2%. Aucune pr�cision de classe de d�fauts de 96,2%, la pr�cision ne peut �tre calcul� en fonction des d�fauts. Rappel de la cat�gorie non-d�faut est de 1,0, ce qui est parfait (tous les produits non d�fectueux sont identifi�s en tant que tels). Mais le rappel de classe d�fectueuse est 0.0, ce qui est la situation encore pire (non d�tect� produit d�fectueux). Par cons�quent, nous pouvons conclure que notre mod�le Dans cette classe Les mauvaises performances. d�fauts produit scores F1 ne peuvent pas �tre calcul�s, les scores de produits non d�fectueux 0,981. Dans ce cas, voir la matrice de confusion peut conduire � repenser notre mod�le ou notre objectif, il pourrait emp�cher l'utilisation de mod�les inutiles.

Peser la pr�cision et le rappel de: ROC et AUROC

Un autre indicateur important est la courbe ROC (courbe caract�ristique de fonctionnement r�cepteur).

Supposons que la probabilit� de la classe C pour un point donn� x, nous avons une sortie de mod�le qui est un point: P (C | x). Sur la base de cette possibilit�, nous pouvons d�finir une r�gle de d�cision, � savoir si et seulement si P (C | x) lorsque T, x repr�sente appartiennent � la classe C, o� T est la d�finition de nos r�gles de d�cision seuil. Si T = 1, uniquement lorsque le mod�le est de 100% que il est marqu� comme appartenant au point C. Si T = 0, alors chaque point est marqu� comme appartenant � C.

Chaque valeur du seuil T pour g�n�rer un point (faux positif, vrai positif) Ensuite, lorsque la courbe ROC du point T 1 est chang� � 0 lorsque l'ensemble g�n�r� de courbes est d�crit. La courbe commence � partir du point (0,0)) et se termine au point (1,1). Un bon mod�le aura une courbe rapide de 0 � 1 (ce qui signifie que vous devez sacrifier un peu pour obtenir un appel de taux �lev� de pr�cision).

La courbe ROC peut d�pendre de la validit� du mod�le. Sur le c�t� gauche, le mod�le doit sacrifier beaucoup de pr�cision afin d'obtenir le taux �lev� de rappel, � droite, ce mod�le est tr�s efficace: il peut atteindre le taux �lev� de rappel tout en maintenant une grande pr�cision.

Sur la base de la courbe ROC, nous pouvons construire et plus facile � utiliser une autre mesure pour �valuer le mod�le: AUROC est l'aire sous la courbe ROC . AUROC agit comme une valeur scalaire, r�sume toute la courbe ROC. Comme on le voit, la tendance AUROC � 1,0 dans le meilleur des cas, nous avons tendance � 0,5 dans le pire des cas.

De m�me, un bon moyen de score AUROC que le mod�le que nous �valuons ne sacrifie pas beaucoup pour obtenir le bon rappel de classe de pr�cision observ�e (g�n�ralement une minorit�).

La nature du probl�me: consid�rer a priori

Un exemple d'une cat�gorie non �quilibr�e

Nous partons du principe que nous avons deux classes: C0 et C1. Du point de C0 moyenne 0 et de variance suivent une distribution gaussienne 4 dimensions. Classe C1 r�sulte du point unidimensionnel moyenne gaussienne et la distribution de la variance 12. En supposant que notre probl�me, classe repr�sente 90% de l'ensemble de donn�es C0 (En cons�quence, une classe C1 repr�sente les 10% restants). Dans la figure suivante, nous avons repr�sent� un ensemble de donn�es repr�sentatives contient 50 points, et le rapport correct de la distribution th�orique de deux classes:

La ligne en pointill�s repr�sente la densit� de probabilit� pour chaque cat�gorie. La ligne continue en tenant compte du rapport conditionnel de densit� de probabilit� suivante. La courbe en trait plein est toujours sup�rieure � celle de la courbe C0 solide (probabilit�s conditionnelles) une classe C1 , Pour un point donn� quelconque, le point est extrait de la probabilit� de C0 est toujours plus grande que la probabilit� d'extraction de la classe C1. C1 classe, selon le th�or�me de Bayes, nous avons:

O� l'on peut voir clairement l'impact des a priori et la fa�on dont il en r�sulte toujours dans une classe sup�rieure � la probabilit� d'une autre cat�gorie de cas.

Tout cela signifie que, m�me d'un point de vue th�orique parfait, nous savons aussi que si nous devons former sur ces classification des donn�es Est-ce, alors la r�ponse est toujours dans le classificateur de pr�cision de C0 sera le plus grand . Par cons�quent, si l'objectif est de former un classificateur pour obtenir la meilleure pr�cision, il ne devrait pas �tre consid�r�e comme un probl�me, mais un fait: Gr�ce � ces fonctionnalit�s, nous pouvons faire mieux (en termes de pr�cision) toujours r�pondu C0 .

A propos de s�parabilit�

L'exemple ci-dessus, nous pouvons voir que ces deux classes sont tr�s proches, pas bien s�par�s. Cependant, l'ensemble des donn�es de d�s�quilibre ne signifie pas n�cessairement que les deux classes ne peuvent pas �tre bien s�par�s, � savoir, la classification ne peut pas bien faire dans quelques classes. Par exemple, �tant donn� que nous avons encore deux classes C0 (90%) et C1 (10%). Les donn�es qui suivent le C0 signifie 0 et une variance de 4 distribution gaussienne unidimensionnelle, et les donn�es C1 � suivre une dimension gaussienne moyenne et la variance d'une distribution de 10.

exemple Gauss, si la variance peut �tre bien s�par�e suffisamment diff�rente par rapport au type moyen, m�me d�s�quilibr�.

Contrairement au cas pr�c�dent, courbe C0 est pas toujours sup�rieure � la courbe C1 Par cons�quent, certains points sont plus susceptibles d'�tre extraites de la classe C1 pas de la classe C0. Dans ce cas, deux classes s�par�es suffisamment pour compenser le d�s�quilibre: r�pondent pas toujours classificateur C0.

La probabilit� d'erreur minimale th�orie performance visuelle

Enfin, il faut rappeler que le classificateur avec la th�orie des probabilit�s d'erreur plus petite. Pour un tel classificateur (une caract�ristique, deux classes), les graphiques, La zone minimale sous les deux courbes dans une th�orie de probabilit� d'erreur minimum donne .

Divisibles deux minimum th�orique de degr�s d'erreur diff�rentes d�crites

Nous pouvons utiliser des m�thodes math�matiques pour r�cup�rer cette intuition. En fait, d'un point de vue th�orique, le meilleur classificateur pour chaque point x pour s�lectionner le plus probable des deux classes. Cela signifie naturellement que pour un point donn� x, la meilleure probabilit� d'erreur th�orique est donn�e par ces deux classes sont moins susceptibles de cours

Ensuite, l'expression globale de probabilit� d'erreur

Cette r�gion est inf�rieure � une valeur minimale repr�sent�e par le dessus deux courbes.

Re-traitement de l'ensemble de donn�es ne sont pas toujours la solution

Sous-�chantillonnage et sur�chantillonnage pour g�n�rer des donn�es de synth�se

Avant de monter le classificateur ensemble de donn�es, ces m�thodes sont utilis�es g�n�ralement comme un bon moyen d'�quilibrer l'ensemble de donn�es. En bref, ces donn�es d'action de m�thodes d�finies comme suit:

Sous-�chantillonnage, la plupart des classes dans l'�chantillon, de sorte que seule une partie de ces points r�serv�s
Sur�chantillonnage, copier les minorit�s un point d'augmenter sa base
G�n�rer des donn�es combin�es comprenant la cr�ation d'un nouveau point de donn�es composites � partir de la base pour augmenter sa minorit�

Toutes ces m�thodes sont con�ues pour r��quilibrer l'ensemble de donn�es. Toutefois, nous devons r��quilibrer l'ensemble de donn�es afin d'obtenir deux classes de donn�es? Ou garder jusqu'� go�ter la plupart de la classe? Si oui, nous devons r��quilibrer dans quelle proportion?

Plus ou moins d'impact sur le mod�le de la classe majoritaire de undersampling prise de d�cision

Lors de l'utilisation de la m�thode de r��chantillonnage (par exemple, les donn�es obtenues � partir obtenu � partir de plus de C0 C1), Nous affichons le taux d'erreur des deux classes du classificateur au cours de la formation . Puis, de cette fa�on appris classification dans les donn�es de test futurs r�els, avec la pr�cision que classificateur form� bas ensemble de donn�es non modifi�e. En fait, l'ampleur r�elle de la classe est tr�s importante pour le classement du nouveau point, et l'information est perdue lorsque des ensembles de donn�es �chantillonn�es re.

Supposons que les ensembles de donn�es Modify avec des m�thodes de r�-�chantillonnage similaires sont en train de changer la r�alit�, et doivent donc faire attention et rappelez-vous ce qu'il d�livre les r�sultats de nos moyens de classificateur.

L'acc�s � d'autres fonctions

Nous pouvons encore obtenir de meilleurs r�sultats en termes de pr�cision gr�ce � l'utilisation de fonctions add pour enrichir l'ensemble de donn�es. Revenons � notre premier exemple, o� la classe ins�parables: Peut-�tre que nous pouvons trouver une nouvelle fonctionnalit� qui peut aider � distinguer entre les deux cat�gories, par cons�quent, am�liorer la pr�cision du classificateur.

Rechercher d'autres caract�ristiques peuvent aider � s�parer les deux premi�res cat�gories ne peuvent pas �tre s�par�s

Donn�es ont �t� modifi�es de mani�re r�aliste par rapport mentionn� ci-dessus, le proc�d� comprenant en r�alit� possible d'enrichir les informations de plus de donn�es.

Re est une meilleure solution pour r�soudre le probl�me

Plusieurs m�thodes sont plus difficiles � traiter, nous cherchons une solution fondamentale. Retour � la question elle-m�me, nos probl�mes ne sont pas bien d�clar�, Nous devons redessiner afin d'obtenir des r�sultats plus satisfaisants.

classification fond�e sur les co�ts

Les r�sultats obtenus mauvais sentiment le fait qu'aucune d�finition claire de la fonction objective peut provenir. Jusqu'� pr�sent, nous partons du principe que nous sommes positionn�s avec classificateur haute pr�cision, Supposons �galement que deux types d'erreurs ( � faux positifs � et � faux n�gatifs �) a le m�me co�t . Cela signifie que lorsque nous supposons cela est vrai pour �tiqueter C1 pr�dire C0, aussi mauvais que C1 C0 pr�dit lorsque l'�tiquette r�elle. Ensuite, les co�ts d'erreur sont �gaux.

Consid�rons le d�faut (C1) et pas d'exemples de d�fauts de produits (C0). Dans ce cas, on peut imaginer, n'a pas d�tect� le produit d�fectueux co�tera plus de co�ts (co�ts de service � la client�le, les frais juridiques possibles, en cas de d�fauts dangereux, ......), plut�t que d'une erreur le produit d�fectueux ne sera pas marqu� comme d�fectueux (perte des co�ts de production). Maintenant, lorsque le v�ritable label C1, pr�vision C0, le rapport C1 C0 est pr�vu en temps r�el l'�tiquette est bien pire. les co�ts d'erreur ne sont plus �gaux.

Plus pr�cis�ment, nous devons prendre en compte les co�ts suivants:

Lorsque C0 C1 pr�dire le co�t r�el de P01 marqu�
Lorsque la pr�diction C1 C0 P10 r�el co�t marqu� (0 < P10 < < �P01)

Ensuite, nous pouvons red�finir notre fonction objectif: nous ne sommes plus la meilleure pr�cision est l'objectif, mais de trouver une pr�vision � moindre co�t.

Co�t minimum th�orique

D'un point de vue th�orique, la pr�vision des co�ts attendus

O� C (.) Est d�finie fonction classificateur. (.) Donc, si nous voulons r�duire au minimum le classificateur optimal th�oriquement les co�ts pr�vus devrait C est r�duite au minimum:

(.) Ou, de mani�re �quivalente, de x divis�e par la masse volumique, C est r�duite au minimum:

Par cons�quent, cette fonction objective, d'un point de vue th�orique, la meilleure classification sera comme ceci:

seuil de probabilit�

La premi�re m�thode peut consid�rer le co�t-classification est effectu�e apr�s la formation. Tout d'abord, l'id�e est la m�thode de base de la formation d'une probabilit� de sortie de classificateur des �l�ments suivants:

Ne prend pas en compte tout prix. Ensuite, la pr�diction de la classe sera C0, si:

Dans le cas contraire, C1.

Ici, aussi longtemps que la sortie � la probabilit� de chaque classe de point fixe, que nous utilisons la classification n'est pas important. Dans notre exemple principal, nous pouvons adapter le classificateur bay�sien sur nos donn�es, nous pouvons r�ajuster la probabilit� de l'obtenir class�s en fonction de l'erreur de r�glage d�crit co�t.

m�thode de seuil de probabilit�: probabilit� de sortie sont repond�r�es, de sorte que, en contrepartie du co�t dans la r�gle de d�cision finale.

Classe repond�ration

Classe id�es repond�ration lors de la formation de classificateur directement pris en compte le co�t de l'asym�trie d'erreur. Ce faisant, la probabilit� de sortie de chaque information d'erreur de classe qui a �t� int�gr� dans le co�t, et peut �tre utilis� pour d�finir une valeur de seuil ayant une r�gle simple de classification 0.5.

Pour certains mod�les (comme un classificateurs r�seau de neurones), lors de la formation des consid�rations de co�t peuvent inclure l'ajustement de la fonction objective. Nous esp�rons toujours que notre sortie classificateur

Cependant, dans ce cas, la formation suivante qui r�duisent au minimum la fonction de co�t:

Pour les autres mod�les (par exemple, classificateur bay�sien), peuvent �tre utilis�s pour solliciter la m�thode de r��chantillonnage en fonction proportionnelle � l'information d'erreur d'entr�e au sein du rapport de co�t de classe. Si l'on consid�re le P01 et P10 des co�ts (tels que P01 > �P10), puis:

facteur de sur�chantillonnage classe minoritaire P01 / P10 (minorit� de base devrait �tre multipli�e par P01 / P10)
�chantillonnage la plupart des cat�gories avec le facteur P10 / P01 (classe majoritaire devrait �tre multipli�e par la base P10 / P01)

m�thode repond�ration classe illustration: La plupart des classes sont sous-�chantillonn�es dans un rapport de soigneusement s�lectionn�s, l'information des co�ts est introduit directement dans la classe comparative.

r�sum�

premier Chaque fois que l'utilisation d'algorithmes d'apprentissage machine doit �tre choisie avec soin des mesures pour �valuer le mod�le: il faut utiliser des indicateurs qui nous permettent de mieux comprendre notre performance dans la r�alisation des objectifs du mod�le.

deuxi�me Lorsque vous traitez avec un ensemble de donn�es non �quilibr�e, si la classe avec les variables donn�es ne peut pas �tre bien s�par�s, et si notre but est d'obtenir la meilleure pr�cision, le meilleur classificateur peut �tre une r�ponse toujours plus classe classificateur � na�ve �.

troisi�me , Les m�thodes de r��chantillonnage peuvent �tre utilis�s, mais ils doivent �tre examin�s avec soin: ils ne doivent pas �tre utilis�s comme une solution autonome � utiliser, mais doivent �tre combin�s avec le probl�me de redo pour atteindre un objectif particulier

quatri�me Encore une fois face au probl�me lui-m�me est g�n�ralement la meilleure fa�on de r�soudre le probl�me des classes asym�triques: les r�gles de classification et de d�cision doivent �tre fix�s en fonction des objectifs soigneusement s�lectionn�s, tels que la r�duction des co�ts d'erreur.

Cet article vise � comprendre exactement ce que vous voulez obtenir aidera � surmonter les probl�mes de collecte de donn�es de d�s�quilibre, et assurer les meilleurs r�sultats. objectif parfaitement d�fini devrait toujours �tre la premi�re chose � faire, et afin de cr�er un mod�le d'apprentissage de la machine et doit �tre fait le point de d�part de tout choix.

Route de la soie

Apprenez � conna�tre la Chine

l'apprentissage automatique pour r�soudre le probl�me des jeux de donn�es asym�triques id�es et m�thodes