Juste et exacte est tout aussi important! CMU a proposé l'apprentissage des méthodes de caractérisation juste pour obtenir algorithme d'équité

Auteur | Zhao Han

Compile | Mr Ours

Modifier | fin Cong

Toutes les méthodes ont en commun est que, afin de réduire la dépendance, doit sacrifier la précision dans une certaine mesure.

--Calders et al

« classificateurs bâtiment avec contraintes » Independency

Au début du développement de l'intelligence artificielle, les gens ont tendance à rester sur les exigences de l'algorithme « quasi » niveau, plus les prévisions semblent plus précises. Cependant, avec la technologie de l'intelligence artificielle de plus en plus dans la vie quotidienne, les gens algorithme exige « équité » est de plus en plus. Dans cet article, les chercheurs de la CMU (Carnegie Mellon University) Zhao Han a proposé une méthode pour obtenir algorithme d'équité à travers une étude de caractérisation équitable. (Documents connexes publiés dans le IPSC 2020)

Figure 1: le commerce entre l'égalité des statistiques (parité statistique, également connu sous le nom fonds propres du groupe) et les décisions optimales figure. Dans ce cas, parce que les cercles et carrés entre les groupes de différents taux de remboursement au niveau de la population, afin de suivre les prêts responsables égaux statistiques, politiques doivent soit refuser de rembourser certains candidats à tour Etat (remboursement) (à gauche), ou accepter le prêt (droit) à certains candidats violation de la place.

Avec l'application de répandue d'apprentissage de la machine dans les zones à risque telles que les condamnations pénales, des examens médicaux, élevé dans la publicité en ligne, assurant système d'aide à la décision automatisée n'est pas critique à la diffusion de données historiques inhérentes préjugés ou la discrimination qui peuvent exister. D'une manière générale, la littérature sur l'équité de l'algorithme se compose de deux core concept d ' « équité »:

  • Le premier concept est « individuel équitable ». En bref, il faut un algorithme équitable dans une approche similaire à des personnes similaires. Cependant, dans la pratique, il est souvent difficile de trouver ou concevoir une mesure à la distance socialement reconnue, la norme utilisée pour mesurer la similitude de l'individu face à une tâche spécifique.

  • Le second concept est « groupe équitable », qui est l'objet de cet article a abordé la question. Plus précisément, le soi-disant, il est uniformément statistique essentiellement les mêmes que requis pour la sortie de prédiction sous-groupe de résultats de différence.

Par exemple, on peut souhaiter examiner les questions d'approbation des prêts suivants. Si cet environnement virtuel est défini avec deux ensembles du demandeur de prêt représenté par des cercles et des carrés.

Prêts auto système cible approuvée C est à prévoir: Si un demandeur de crédit est autorisé à prêter, donné à la description du demandeur de X, que ce soit il calendrier de remboursement, C (x) = 1 représentants calendrier de remboursement , C (x) = 0 est pas représentatif de l'échéancier de remboursement.

Si nous utilisons A = 0 sont représentés par les candidats du groupe circulaire, A = 1 représente un groupe du demandeur de la place, défini de manière uniforme les exigences statistiques sont les suivantes:

Pr (C (x) = 1 | A = 0) = Pr (C (x) = 1 | A = 1)

Dans lequel les valeurs de probabilité sont basées sur X, A, Y (à savoir, les informations de description du demandeur, le demandeur appartient groupes, si le paiement effectif de la variable réelle demandeur) distribution de joint D obtenue. En d'autres termes, les exigences statistiques de l'égalité du prédicteur C (x) indépendamment du groupe d'attributs A: C (x) A.

Tout d'abord, apprendre la caractérisation juste

Assurer l'efficacité de la tâche autant que possible en même temps un bâtiment (environ) répondre à la classification statistique de manière égale est: l'apprentissage d'une caractérisation équitable (voir le document « L'apprentissage Foire Représentations »: https: //www.cs. toronto.edu/~toni/Papers/icml-final.pdf).

A partir d'une macro ce genre de travail en essayant de trouver une mine d'informations caractérisant Z (voir les travaux liés Professeur Richard Zemel: http: //www.cs.toronto.edu/~zemel/inquiry/home.php), un types de variable d'entrée X, dans lequel le mode de conversion, de sorte que Z (environ) indépendant d'un, tandis que Z contient encore une quantité d'informations sur la cible Y. Cet objectif peut être formellement défini comme le problème d'optimisation suivant:

où >  0 est une constante prédéterminée, on utilise le I (, ) désigne l'information mutuelle entre les deux variables aléatoires. Comme le montre la figure 2, grâce aux progrès récents de la recherche en apprentissage dans la caractérisation de la profondeur du réseau de neurones, nous pouvons atteindre le problème d'optimisation ci-dessus par l'algorithme de formation conflictuel. Cette méthode particulière peut faire remonter au moins à Edwards et al oeuvre: « Censure Représentations avec un adversaire » (https://arxiv.org/abs/1511.05897).

Figure 2: Un algorithme pour apprendre une caractérisation juste de la mise en uvre. Caractérisation de Z au milieu de tenter de tromper l'adversaire A, A but est d'identifier une variable d'entrée d'attribut de groupe est « round: A = 0 » ou un « carré: A = 1. » formation de descente de gradient d'architecture globale du réseau peut utiliser.

Maintenant, notre objectif est très simple: basé sur la fameuse inégalité de traitement de données (DPI), si nous essayons de former une manière caractéristique de conversion Z, de sorte qu'il peut tromper un adversaire très fort (arbitre), toute utilisation de ce espèces prédicteur caractérisées seront justes (c.-à-répondre à l'égalité statistique).

En second lieu, le compromis entre l'équité et l'efficacité

Le modèle illustré à la figure 2 se compose de deux fonctions objectives, en même temps, nous optimisons leur phase de formation. Le premier objectif est de tromper par ceux qui luttent pour assurer l'égalité des statistiques, le deuxième but est de réduire les objectifs de Y prédit et les tâches de la fonction de perte.

Tant la fonction objective tend à concilier par un super paramètre ensemble. Cependant, le concept de l'égalité des statistiques ne considère pas pertinent pour la vraie étiquette d'information Y. Comme vous pouvez l'imaginer, quelqu'un a ajouté à ses caractéristiques groupe cible Une étiquette Y fortement corrélé, donc afin de répondre à la prédiction statistique égale la meilleure performance en même temps est lié à prédicteur de dommages.

Par exemple, une approbation de prêt. Notre problème représenté sur la figure 1, une population de taux de remboursement circulaire (90%) que le taux de groupes carrés de remboursement (80%). Selon le concept de l'égalité des statistiques, un prêt de prédiction de juste doit être dans la même proportion à la population de la circulaire et carré. Par exemple, un classificateur juste se produira au prêt octroyé au requérant 80% de la place sera le remboursement des prêts sera également donner au demandeur un cercle (voir figure 1 à gauche) va rembourser 80% . Cependant, cela signifie que 10% ne se candidats autour de remboursement seront refusées prêts.

Une autre possibilité est que un prêt classificateur foire seront émis à seulement 90% des candidats seront le remboursement arrondi, tandis que les prêts à 80% seront en demander le remboursement et le remboursement carré de 10% ne personne. Dans notre exemple, les deux cas, afin de répondre à l'égalité statistique standard, un classificateur juste sera perdu en termes de précision de la prédiction. Bien sûr, il peut y avoir d'autres prédicteur de juste, ces prévisions peuvent susceptibles de souffrir des pertes moins importantes?

NeurIPS 2019 publié dans le journal « Compromis dans l'apprentissage inhérents Représentations justes » (adresse de la thèse: https: //arxiv.org/pdf/1906.08386.pdf), l'auteur décrit les deux classificateurs dans une certaine mesure sont équitables il est une optimisation des services publics. Sur la définition formelle, donc

Par groupe immobilier

0-1 deux erreurs de classification généré. Nous définissons:

La différence entre le taux de référence (taux de base) entre les différents groupes. Ensuite, le théorème suivant contient:

Théorème 1: Pour toute rencontre prédicteur statistique égal,

Dans notre cas, l'approbation du prêt, la différence le demandeur est de 10% du taux de remboursement du demandeur circulaire et carré, donc

. Notez que, à la fois le taux d'erreur pour les classificateurs de participation des candidats Les candidats circulaires et carrés sont tous deux 0,1.

Selon le théorème 1, Pour tout classificateur juste, qui somme le taux d'erreur dans les deux populations nécessairement au moins 10%, ils sont optimaux. Le théorème 1 est très intuitive, il montre l'essence:

Lorsque le rapport de référence de groupes différents sont différents, pour répondre à tous les équivalents de justes classificateurs statistiques sont liés à une grande erreur se produit dans au moins un groupe.

Plus précisément, selon le principe pigeonhole, nous pouvons facilement trouver un classificateur équitable est lié à générer un groupe dans lequel au moins au moins

Le taux d'erreur. De plus, la conclusion est sans rapport avec la loi budgétaire, qui a été créé au niveau de la population (qui est, en utilisant un grand nombre de formation ne fonctionne pas d'aide). Ensuite, laissez notre analyse approfondie de ce montant:

Si AY, puis Pr (Y = 1 | A = 0) = Pr (Y = 1 | A = 1), ce qui signifie

. Autrement dit, si la population cible n'a rien à voir avec la propriété, la limite inférieure ci-dessus est 0, donc à ce moment de peser l'efficacité et l'équité n'existe pas.

Vous pouvez être déterminé en fonction de si A = Y ou A = 1-Y, il faudra 1 à sa valeur maximale. Dans ce cas, les classificateurs juste sont tenus d'avoir une erreur d'au moins 0,5 dans au moins un groupe.

En général, prendre des valeurs entre 0 et 1, il affiche la valeur et l'utilité du compromis d'équité dans deux classification.

En troisième lieu, la caractérisation des études de commerce équitable et unique

Le théorème 1 que sous certains « précis » le vrai: prédicteur besoin « juste » pour répondre à l'égalité statistique. Cependant, dans la pratique, en raison de la quantité limitée de modèle de données de formation ou de la capacité, une telle exigence peut être difficile à réaliser.

Est-il possible de prédire quand une certaine approximation ne peut répondre à l'égalité statistique standard, cela représente les propres compromis? Si possible, cette caractérisation des propriétés sera quand et de quelle manière jouer un rôle?

Il a prouvé que cette approximation permet de réduire la limite inférieure Théorème 1. Plus précisément, faire

A = une condition donnée lors d'une distribution de D. Pour la caractéristique de fonction de transfert

, Donc

Da est utilisé avant la distribution poussée de conversion g (Pushforward Distribution). De plus, si nous utilisons

Deux représentants de la distribution de probabilité de la variation totale entre les sous distance, le théorème suivant est vérifiée: Théorème 2: Alors que comme une caractéristique de transformation. Pour tout (aléatoire) si

marque

En tant que facteur prédictif, l'inégalité suivante:

Tout d'abord, il est clair quand

Lorsque, le théorème 2 dégradé à une limite inférieure dans le théorème.

Dans le présent mode de réalisation, la même inégalité de traitement de données (DPI), Z est un effet quelconque sur l'hypothèse h dans des groupes différents sera à la même sortie de vitesse, donc juste.

En second lieu, il faut se rendre compte que,

Le plus petit, plus la limite inférieure. Par conséquent, lorsque la plus grande, l'alignement pour mieux caractériser les différents groupes, les différents groupes sur la somme des erreurs seront plus.

Il convient de noter que le choix de la distance totale de variation en tant que mesure de la distribution de rien la qualité d'alignement spécial. Dans le document 3.2 « Compromis dans l'apprentissage inhérents représentations justes » Nous utilisons f divergence donne une analyse générale, le lecteur peut également utiliser une autre mesure de divergence (par exemple, la distance HS, la distance Hellinger, etc.) pour son instancié pour obtenir la même limite inférieure.

Du côté positif, sous certaines conditions, nous avons également prouvé qu'une étude de caractérisation de juste contribue à une autre notion de juste ce taux précis, etc., ce qui nécessite un taux d'erreur égale entre les groupes.

Quatrièmement, comment la situation réelle?

Au-dessus des moyens de borne inférieure distribution de dispositif d'alignement excessif entre la population va inévitablement conduire à une plus grande erreur commune. Pour prouver cette possibilité, nous avons effectué des expériences sur des ensembles de données du monde réel (ensemble de données adulte UCI). La tâche ici est de prédire le revenu (salaire est supérieur à 50000), ce qui correspond à l'attribut de groupe « mâle / femelle. » Pour les ensembles de données,

Rapport, qui est, en 1994, le revenu annuel supérieur à 50000 mâles 19,7% de plus que les femmes.

Nous avons atteint le modèle de la figure 2, les hyper-paramètres antagonistes perte pèsent prend une valeur différente: 0.1,1.0,5.0 et 50,0. Les résultats présentés sur la figure 3:

Figure 3: Statistiques de pesée égale, et le coefficient et entre les différents groupes de taux d'erreur.

Dans la figure 3, nous avons représenté graphiquement trois métriques de augmente ainsi que des variations se produit de celui-ci. Les premières barres d'erreur correspondent à l'articulation (à savoir

), Quelle est l'erreur globale dans les données adultes. La deuxième barre verticale rouge représente la somme du taux d'erreur au sein des populations, cela est dans notre théorème 1 et le théorème 2 montrent des minorant. Les troisièmes barres grises correspondent à la mesure de respecter le niveau de différence statistique score égal (score d'écart). Plus précisément, la barre verticale grise représente:

. En bref, plus la différence dans le score, plus satisfait prédicteur statistique égal.

Comme prévu, avec l'augmentation de , le score de différence diminue rapidement. Lorsque = 50,0, les statistiques correspondantes se rencontrent très proche égale. D'autre part, nous pouvons observer, avec de plus en plus des barres de X et rouge augmente rapidement, la somme finale des erreurs entre les groupes a atteint un niveau supérieur à 0,36.

Notez que la figure 3, correspond la ligne noire horizontale à tous les jetons rouges sont dépassées ce niveau, ce qui est de nos résultats d'analyse théoriques sont cohérentes. En fait, il est très facile de calculer, il peut être injuste sans classificateur effectivement formé, la limite d'erreur et qu'ils produisent.

V. Conclusion

Le compromis de base entre l'efficacité et la compréhension statistique de l'égalité des fois amusant et stimulant. Dans notre papier et ce blog, nous au problème de classification binaire ambiante, étant donné la pour ce compromis inhérent est simple et intuitive Description: Lorsque le taux de base entre les groupes ne sont pas les mêmes, égale à une rencontre statistique les classificateurs justes sont inévitables dans au moins un du groupe a généré une grande erreur!

Cependant, si nous trouvons un problème dans la régression de la manière de description correspondante, est encore un problème à résoudre, on ne sait pas comment nous allons étendre cette stratégie éprouvée à l'analyse de régression similaire à peser.

D'autre part, nos résultats illustrent, l'équité égale statistique est définie comme erronée. Lorsque nous définissons le concept d'équité, il devrait également être la cible d'informations en compte. Par exemple, une probabilité égale et le taux de précision, etc. sont deux actions supplémentaires, définir des groupes qui sont compatibles avec un facteur prédictif parfait.

Nous avons récemment publié dans le IPSC 2020 papier « Apprentissage conditionnel des représentations justes » présente également un algorithme problème de classification binaire, une nouvelle fois atteindre ces deux normes en apprenant à caractériser environ.

Adresse Papers: https: id = //openreview.net/forum Hkekl0NFPr?

via https://blog.ml.cmu.edu/

Source et déclaration cible n'est plus indépendant, représentent conjointement plus pour améliorer la performance de la traduction automatique
Précédent
Les données ne peuvent être utilisées sans discernement, la nouvelle décennie, pourquoi les entreprises devraient utiliser le partage de données nouveau paradigme?
Prochain
Tencent AI Lab fait « forêt entièrement dépendante » atténuer de manière significative l'erreur est passé extraction de relations
Hinton AAAI2020 Discours: Le réseau a finalement fait la capsule droite chose
Aujourd'hui papier | gradient de cisaillement, NER, traitement du langage naturel, la fonction de l'intensité de l'apprentissage libre
Sloan Research Award 2020 a annoncé que 16 scientifiques chinois ont été sélectionnés, quatre du numéro de l'hôpital l'Université de Pékin
Une vue de texte intégral, les connaissances AAAI sur la carte 2020
Livre d'aujourd'hui | apprentissage petit échantillon, l'apprentissage machine, une seule image désembuage, détection de cible zéro échantillon
8% du fragment d'ADN humain du virus, pour la lecture culturelle et historique du livre Fête du Printemps
Comment la stigmatisation sociale puissante poussé au fond? livres financiers Lire pour le Nouvel An chinois
Comment gérer ses émotions, exercer le cerveau? Lire les livres de sciences sociales pour le Nouvel An chinois
Yiwu livraison a chuté de 8 pour cheveux simple: ouvrir la porte pour faire des affaires ne font pas d'argent, dessin quoi?
Nokia a tenu une première conférence de l'An, le nouveau navire amiral de cent dollars la machine laissés Shu titane Nouvelles
Les ingénieurs de Stanford créer un robot déformable, doux libre de vagabonder