AAAI 2020 | nuage de l'Académie chinoise des sciences et de la technologie: classification à double vue, en utilisant les balises multiples d'améliorer les performances de classification faible

Auteur | nuage de technologie Modifier | Camel Cet article est l'Académie chinoise d'ingénierie et une lettre du nuage ensemble à la technologie complète étant employée papier AAAI2020 « Couplé vision profonde Classififier apprentissage de plusieurs annotateurs Noisy » interprétation.

Ces dernières années, l'apprentissage en profondeur a prouvé l'efficacité des différentes tâches de classification, telles que l'utilisation de contrôle du vent modèle de train profond réseau de neurones (DNN) sur l'étiquette de données, et obtenu de bons résultats. Cependant, dans de nombreuses situations pratiques, telles que la surveillance vidéo et des images de diagnostic médical d'une scène réelle, il est difficile de recueillir un étiquetage clair et précis.

Les nuages de l'Académie chinoise des sciences et de la technologie et de la lettre travail publié « Couplé vue DeepClassififier apprentissage de plusieurs Noisy annotateurs », capables d'explorer une utilisation plus efficace des étiquettes d'information faible méthode de classification de l'apprentissage en profondeur, une nouvelle étiquette des gens bruyants nouvelle méthode pour l'apprentissage du classificateur en profondeur à double vue de l'étiquette.

Ce document, nous nous concentrons sur l'étude approfondie du bruit du réseau de neurones de personnes étude marquée de la classification de l'étiquette de la question, l'attente maximisation algorithme de processus estimation itérative des problèmes d'apprentissage mutuel vu que les vues de l'étiquette et des vues de données (figure 1). Nous apprenons en ayant deux points de vue sont générés par un pseudo-label l'autre point de vue, mettre ce problème en un problème d'apprentissage supervisé, et en mettant à jour l'étiquette et les paramètres du modèle pseudo-itératif, de sorte que les deux points de vue apprennent les uns des autres. Notre méthode proposée (appelée CVL) réduit l'erreur d'étiquettes surajustement, et a une performance de convergence plus stable.

NOUVEAU DOUBLE algorithme vue classification en fonction de la profondeur de l'apprentissage, l'utilisation complète des informations provenant de plusieurs balises de modélisation faible dans la surveillance de la sécurité, le contrôle du trafic aérien, la sécurité financière et d'autres domaines peuvent être appliqués, peut améliorer efficacement le niveau de sécurité et des affaires de contrôle des risques. Et le domaine de la sécurité avec des applications innovantes combiner améliorer considérablement la sécurité de renforcer le système de réglementation plus efficace de renforcer la capacité de combat de la sécurité, d'améliorer l'efficacité de la sécurité. Pendant ce temps, dans le domaine du contrôle des risques financiers, la technologie de sécurité innovante, dispose également d'un utilitaire stable.

Figure 1: nouvelle méthode pour le modèle logique

Nouvel algorithme Vue d'ensemble

Les nouvelles tentatives d'algorithme pour construire un classificateur dans l'espace de représentation et de l'espace d'étiquettes en deux vues, respectivement, dans le processus de formation, le résultat de deux classificateurs guident les uns des autres, la surveillance mutuelle, en alternance mise à jour itérative, la performance stable de la formation finale du classificateur.

Des expériences ont été réalisées deux ensembles de données synthétiques (MNIST et CIFAR10) et un ensemble de données réelles (LabelMe AMT), les derniers résultats de comparaison a montré que, en termes de l'efficacité de la méthode CVL, la robustesse et la stabilité sont meilleurs que d'autres.

2 la figure, la figure 3: Dans les expériences de mnist ensemble de données synthétiques et cifar10, notre méthode est mieux que d'autres exemple de l'art antérieur des résultats en termes d'efficacité et de robustesse

Figure 4: Notre méthode est mieux que d'autres algorithmes sur la convergence de la stabilité

Figure 5: Les données réelles établies LabelMe AMT, nos résultats nettement en avance sur d'autres algorithmes existants

Méthodes de lecture

tout, nous pouvons d'abord être faible surveillance de la question de la recherche sur les deux points de vue les uns des autres problèmes d'apprentissage:

Après l'initialisation et pré-formation, ce problème peut être sous la supervision des balises prévues et les étiquettes mises à jour alternants recueillies en remplaçant la solution d'optimisation. Ce point de vue double perspective offre un moyen simple et de manière polyvalente, la polymérisation et l'échange de connaissances classificateur de données d'étiquettes avec l'autre.

Par la suite, nous avons adopté plusieurs stratégies en matière d'apprentissage en vue de promouvoir Converge d'apprentissage mutuel à un bon et des résultats stables.

1, vue de l'onglet Le modèle de base. Si l'on suppose que le bruit de l'étiquette est le cas aléatoire et indépendante de chaque étiquette, nous avons utilisé une matrice comme des paramètres confus de bruit pour l'étude des classificateur bayésiens naïfs. Dans le cas où la catégorie de bruit et de la matrice de confusion q constant distribution a priori, la probabilité a posteriori de la classe k i-ième échantillon est calculée par l'équation suivante:

Modèle de formation. L'insuffisance des problèmes de formation seront rencontrés deux vues de vue, cela signifie que les informations fournies sont insuffisantes pour voir prédire adéquatement parfaitement tous les échantillons, ce qui inévitablement erreur de prédiction. Pour réduire l'impact de ce facteur, nous utilisons une petite perte de mesures en tant que mesure de confiance dans l'étiquette, pour effectuer la sélection de l'échantillon.

Compte tenu de l'étiquette, après une petite perte onglet de sélection métrique perte d'estimation de probabilité maximale comme suit:

La fonction de perte, le paramètre peut être estimée par la formule suivante:

En outre, dans le cas des classes connues ensemble équilibré.

Mise à jour polymérisation tag. Chaque tour, l'étiquette met à jour son point de vue des étiquettes contrefaites une fois:

2, vue Le modèle de base. Depuis la profondeur du réseau a une grande capacité à apprendre, nous avons choisi les données de classificateur de réseau de neurones.

classificateur formé. En plus d'utiliser les mêmes petites mesures de perte, nous vous proposons également deux stratégies. Tout d'abord, puisque la profondeur du réseau de grande capacité, des données arbitraires peuvent être installées, après la perte petite métrique, initialisées en raison de différentes causes différentes biais de sélection d'erreur. Nous autres stratégies de co-enseignement adoptées pour réduire cet impact. Cela signifie que

Utilisez la même structure, mais deux réseaux différents et l'initialisation, et dans chaque lot, chaque réseau sera sélectionné une faible perte de l'échantillon considéré comme des connaissances utiles, et ces échantillons pour enseigner leur réseau de pairs pour paramètres de mise à jour. Étant donné que les deux réseaux ont différentes capacités d'apprentissage, qui peut filtrer les différents types d'erreurs causées par tag bruyante. En second lieu, puisque la catégorie échantillon sélectionné est généralement asymétrique, il est nécessaire d'ajouter les contraintes de l'équilibre des classes. Pour classificateur profondeur, étant donné que notre méthode sera choisie dans chaque lot d'échantillons, nous avons une perte dynamique de poids dans chaque catégorie dans le lot, afin d'éviter que certaines catégories de préférence sur un réseau.

Au cours de la formation, chaque époque, nous allons d'abord mélanger et en lot p ,, (k = 1, 2, ..., p). Ensuite, deux réseaux sélectionnés dans chaque lot d'échantillons d'un ensemble respectif de petites pertes à l'apprentissage du réseau de pairs. K-ième fonction de perte de charge suit comme:

étiquette prévision actualisée. Chaque tour, dans le cas où deux sorties de réseau et les résultats de la classification, respectivement, par la vue de formule suivante met à jour l'onglet.

Actes de AAAI 2020: AAAI 2020 @ papier Wangjing interprétera (PPT télécharger )

Gangbusters! 169 articles que vous prenez de voir BERT en PNL en 2019
Précédent
Livre d'aujourd'hui | Nouvelles système de recommandation, multi-canaux de codage, les connaissances de modèles pré-formés
Prochain
Caractérisation de l'apprentissage, la carte du réseau de neurones, interprétable AI, ML & robots Seven Liste Progress
DeepMind open source AlphaFold, le modèle de prédiction de protéines sont montés à bord de la "Nature"
AAAI 2020 | Informatique et micro-canal AI: objectifs de formation améliorés, afin d'améliorer la qualité de la traduction du modèle non-autorégression (déjà ouvert)
réseau de neurones bayésien inutile? Twitter, Reddit à double débat sur le champ de bataille, feu
IPSC 2020 | 15000 formation du réseau de neurones, d'accélérer NAS, la recherche est terminée en seulement 0,1 secondes
AAAI 2021, le nouveau Président de l'Assemblée générale, le professeur Yang Qiang penser à « pointe des problèmes d'apprentissage de la machine » Quoi?
AAAI 2020 | adroite: réexaminer l'évaluation de l'image esthétique et met en évidence trouver point focal
réseaux de neurones artificiels trop simple, « Science » nouveau travail a révélé dendrites neuronales pouvoir également calculer implicitement
Comment utiliser efficacement Profonde Transformer en PNL?
Livre d'aujourd'hui | apprentissage petit échantillon, la classification de sentiment visuel, la recherche de l'architecture neuronale, tapis d'images naturelles, etc.
En 2020, les universités AI un débat soudain: à la fin quelle est la profondeur de l'apprentissage?
AAAI 2020 | Université de Pékin et l'Université nationale Chiao Tung: collaboration multi-caméras en aide au positionnement pour le suivi cible actif