Cercles | SphereReID: de la face aux piétons, Softmax effet variante est importante

AI Technology Review par: L'auteur Fan étoiles, à partir de connaître presque colonnes, AI Technology Review est autorisé à réimprimer.

Cet article est de vous présenter pour faire un travail: SphereReID: Deep HyperSphere Collecteur Embedding pour personne Re-Identication (https://arxiv.org/abs/1807.00537), avec les variantes Softmax, fait dans la reconnaissance des piétons lourd est très bon effet, et à la fin de la formation de fin, la structure du réseau est simple. la précision de 94,4% (et non re rang et réglage fin) Marché-dans l'ensemble 1501 de données.

En outre, a également introduit une nouvelle stratégie d'ajustement du taux d'apprentissage, peut effectivement améliorer l'effet de la formation du réseau, mais sans s'y limiter à des tâches lourdes de reconnaissance des piétons, ils ont utilisé des points clés détection: également obtenu de bons résultats, en changeant simplement l'apprentissage taux de mesure de la fréquence peut augmenter comme deux points.

L'année dernière, la reconnaissance faciale a fait beaucoup de progrès, le taux de reconnaissance a atteint un très haut niveau, une raison très importante, est que nous réévaluons la fonction de perte Softmax entropie croisée de ce classique à un fonction de perte de champ de la Renaissance, a proposé une variété de variantes, et l'effet obtenu une grande amélioration. Les actions du vent qui souffle principalement dans le domaine des visages humains, et je faisais lourde reconnaissance des piétons pensera naturellement du piéton au-dessus de creuser aussi profond Softmax, donc il y a cet article. A ma connaissance, c'est la première carte à présenter une nouvelle reconnaissance hypersphère piétonne du travail en utilisant les variantes Softmax.

variante de visage de Softmax

Perte traditionnelle Softmax

La perte traditionnelle Softmax est largement utilisé pour le classement, la différence peut être un bon échantillon de différentes classes, il est le plus basique de la plus fonction de la perte commune. La formule est la suivante:

Où x est le réseau dernière couche (non compris le niveau de classification) des caractéristiques de sortie, par l'intermédiaire d'une couche de classification entièrement connecté, à savoir par le poids W ainsi que le B décalage, la sortie de score, et ensuite à travers un opérateur de fonction Softmax transversale entropie.

Softmax être efficaces différences entre les districts de classification, mais pas bien contraint pour la distribution dans la classe, de sorte que l'effet ne suffit pas de supervision.

Grande marge Softmax

Papier :. W Liu, Y. Wen, Z. Yu et M. Yang, "grande marge Softmax perte pour convolutifs Neural Networks", en ICML 2016.

Chaque neurone multiplie le poids de la couche de processus de classement final, peuvent être décomposées comme suit:

-À-dire bon vecteur de poids des neurones et de longs vecteurs de moule matrice multipliés, multipliée par le cosinus de l'angle entre les deux vecteurs, ce qui est la définition de base d'un simple produit scalaire du vecteur de la formule. Du côté droit de l'interprétation re-formule ci-dessus, interprété comme un vecteur de caractéristiques au produit vectoriel de point de neurones, auquel le produit vectoriel de caractéristique de points de la grande finale sera divisée en quelle catégorie.

Le cosinus d'origine sans contrainte supplémentaire que tant que la bonne catégorie à droite du produit scalaire d'une fracture plus grande. Les auteurs estiment que ce non seulement à diviser droit, mais aussi la marge, afin de mieux distinguer, remplacer si l'intérieur cosinus dehors, avec une nouvelle transformation à la place:

Peut être utilisé pour contrôler la taille de marge m lorsque m est égal à 2 lorsque la fonction cosinus et le rapport d'origine, artificiellement ajoutés à respecter certaines contraintes marge plus espacées deux classes:

Ceci est en reconnaissance de l'effet écrit à la main les chiffres de MINIST, une nouvelle perte de caractéristiques plus compactes obtenues:

angulaire Softmax

Papier: W Liu, Y. Wen, Z. Yu, M. Li, B. Raj et L. Song, "SphereFace: Deep HyperSphere Embedding pour la reconnaissance des visages," En CVPR 2017..

Ou avec une nouvelle fonction de mappage de cosinus pour remplacer la fonction cosinus d'origine, l'augmentation de la marge, et le droit à refaire classer vecteur de poids normalisé à éliminer les différences causées par les différents poids des différents types de moules, et plus dépendants dans des vecteurs de poids et de l'angle de vecteur de caractéristique. Et notre nouvelle marge est utilisée pour limiter l'angle de la supériorité de l'angle de la discrimination peut être mieux pris en compte:

Additif Cosinus Marge

Papier :. H Wang et al, "CosFace: Grande marge Cosinus perte pour la reconnaissance profonde du visage". CVPR 2018 ..

Paper :. F Wang, W. Liu, H. Liu et J. Cheng "marge additif softmax pour la vérification du visage" Dans arXiv: .. 1801,05599, 2018

Ces deux sur le même temps à traîner, en parlant de la valeur cosinus est plus une marge.

fonction cosinus fonction cosinus alternative est ajoutée pour remplacer l'approche de la marge initiale mentionnée plus haut, a l'inconvénient fonction de sélection alternative et l'utilisation de la fonction alternative est complexe et pas très bon contrôle des marges, des variations différentes de l'angle ne sont pas les mêmes contraintes. Et l'introduction de la fonction de substitution utilisée pour la mise en uvre aussi complexe, il est proposé d'ajouter une marge directement sur le cosinus de:

Pour ce faire beaucoup plus simple et direct.

Additif angulaire Marge

Papier :. J Deng, J. Guo, et S. Zafeiriou, "ArcFace: Additif Perte Marge angulaire pour la reconnaissance profonde du visage," e-prints ArXiv, janvier 2018.

Marge modifier directement les augmentations cosinus, l'influence sur la marge de partition est non linéaire, l'angle entre les différents vecteurs de poids et le vecteur caractéristique, la contrainte ne sont pas la même résistance. Alors, pensez à une contrainte d'angle direct, proposées:

On peut voir dans la perspective où les contraintes ajouté directement marge.

Plusieurs variantes d'une marge contraintes intuitive force comme ci-dessous:

SphereReID

perte fonction

Softmax par un visage humain à la réinterprétation, ajouter sens géométrique, considéré comme inspiré par l'angle entre les vecteurs, accessible, et nous sommes les piétons à adopter une approche similaire pour identifier le poids, pas la fonction des cartes dans l'espace euclidien ordinaire, mais mis en correspondance sphère, sens géométrique de cette classification est très claire:

La figure Softmax une perte de l'original, sont vertes sont classées catégorie 1 et catégorie 2 neurones et sorties score, rouge et points jaunes points appartenant à la classe 1 et 2 sont en baisse échantillons espace différentes catégories . On peut voir dans l'espace de distribution Softmax d'origine plus librement. Rappel, sortie score est:

Les z1 = z2 sont deux catégories de l'interface Pro, catégorie de contrainte 1 note z1 satisfont > z2, des échantillons de classe 2 scores satisfont z2 > z1 peuvent être classés correctement, mais en fait la distribution de fonctionnalité et n'est pas idéal.

B est une identification des piétons distribution de poids de la figure mesure couramment utilisée apprentissage Triplet Perte, Triplet perte d'échantillons positifs pour répondre plus petite distance commune à une distance entre la paire d'échantillons négatifs et inférieure à une valeur de seuil de la série:

Est relativement limité Triplet Perte d'usage, la distribution absolue n'ajoute pas les contraintes de la réalité, il est donc souvent Triplet perte et Softmax effet combiné de la perte sera encore renforcée.

La figure c est la perte Sphère ici, la carte la caractéristique dimensionnelle à une sphère, la formule spécifique est la suivante:

Le vecteur de poids et des vecteurs caractéristiques sont normalisées pour éliminer l'influence du moule, et l'introduction d'un paramètre de température, le contrôle de la température softmax (à savoir, le degré de fluctuation de la courbe).

Ce faisant, comme indiqué ci-dessous: une softmax figure produit scalaire original est, pour l'échantillon x, si

Il est affectée à la classe 1, classe 2 assignée au contraire, et non seulement le résultat de classement relatif à l'angle, et l'amplitude d'un vecteur est également pertinent.

Après la normalisation en b figure, il suffit de comparer la taille des deux angles, si

Est affecté à la classe 1, classe 2 assignée au contraire, est déterminée uniquement par l'angle, plus facile à effacer, pour cartographier toute la surface d'une hypersphère:

Architecture de réseau

Nous avons également conçu un réseau en utilisant la fonction de perte de poids pour tâche de reconnaissance des piétons.

Conception de la structure du réseau de la façon suivante: le réseau de base (utilisé ici pour ResNet-50) d'extraction de caractéristiques, et ensuite la mise en commun de la moyenne globale, BN, chute de tension, FC puis BN, puis une normalisée par L2, en obtenant ainsi une caractéristique finale, puis le calcul de la perte. suit la figure:

section d'alimentation de données, à l'aide d'un lot semblable dure, chaque entrée de photos P K.

stratégie d'échauffement

En outre, le document propose également une nouvelle politique de taux d'apprentissage Échauffement. courbe d'apprentissage direct comme suit:

Le noyau est la première avec un petit taux d'apprentissage, et ensuite augmenter progressivement le taux d'apprentissage à une valeur souhaitée.

La motivation derrière cela est que: au début du réseau ne sont pas correctement initialisé, à droite modèle de base de la formation de poids est sur IMAGEnet, non pas pour REID, tandis que la couche nouvellement ajoutée est aléatoire initialisé. Donc, le premier réseau n'est pas une bonne caractéristique d'extraction, en utilisant un taux d'apprentissage plus est une explosion de gradient facile (comme particulièrement évident dans le lot dur Triplet perte), le gradient peut être utilisé pour faciliter la pente est trop grande culture de problèmes, mais pensez coupe effets de propagation normale du gradient, l'effet sera la dernière formation affectée à un certain degré.

Par conséquent, il a proposé de commencer avec un taux d'apprentissage plus petit, l'échauffement, que le réseau de ralentir progressivement pour atteindre une bonne initialisation d'état, puis augmenté au taux important d'apprentissage prévu pour la formation normale.

Les résultats expérimentaux montrent que cette stratégie peut améliorer efficacement l'effet de la formation, et des modifications supplémentaires ou la quantité de calcul nécessaire. En outre, dans les expériences sur d'autres tâches, telles que la détection des points clés, nous avons constaté que la méthode d'échauffement peut aussi améliorer la précision ultime.

résultat

Enfin, avec une seule perte seule fonction de mode, en train de bout en bout, peut atteindre l'état de l'art, ne nécessite pas re-classement ou réglage fin. Dans lesquels le marché-1501 a atteint 94,4%, sur DukeMTMC-REID a atteint le taux de précision de 83,9% du haut-1, a l'avantage d'un modèle unique et une perte unique fin de petit vecteur de fonction simple et similaire.

résumé des perspectives

SphereReID est Softmax refonder le premier emploi sur la reconnaissance forte des piétons, et a obtenu de bons résultats, et il est fin à la formation de fin, simple, principe clair, l'effet est significatif, etc., ce qui indique la validité de l'idée. La méthode de cet article, il y a beaucoup à l'avenir peut être intéressant d'exploration et de promotion des lieux:

  • Ajouter la marge, cet article ne pas ajouter la marge, l'avenir peut explorer ajouter la marge, une meilleure contrainte pour améliorer encore l'effet;

  • variante softmax n'est pas facile à former, l'espoir que plus de recherche peut résoudre le problème de la formation;

  • Réchauffement climatique: la politique de taux d'apprentissage est pas nécessairement limitée à REID, également efficace sur le point clé de la détection, peut être appliquée à d'autres domaines plus;

  • D'un visage humain à une forte reconnaissance des piétons, l'effet est très bon, les variantes Softmax peuvent également être utilisés dans d'autres domaines, en attendant une exploration plus poussée;

  • A partir du niveau d'extraction de caractéristiques et commencer à partir de la fonction de perte, lourd taux de précision de reconnaissance des piétons a été soulevé très élevé, mais certains raffinement des problèmes et des scènes plus difficiles, ont besoin encore d'explorer;

  • Cliquez pour terminer la Lire l'original Voir le facteur d'impact AI.

    (^ 0 ^) partage de bienvenue, à demain!

    Performance d'une nouvelle génération de petit canon en acier? Z vivo série de nouvelles machines ou passer Xiaolong 710
    Précédent
    Et puis exposé le nouveau produit avant la vente? ! Air Jordan 1 Retro Haute OG RE2PECT en vente cette semaine!
    Prochain
    « Village Forgetfulness » abandonné stalle Nouvel An chinois, « le vent et les vagues »: Ceci est aussi de me blâmer?
    Années 1990, au-delà, 00 ont F4, est TFBOYS maintenant le monde?
    Xiaolong 675 points terme d'exposition, le score sur 710 fois phare Xiaolong, est la génération de Dieu U?
    OPPO K1 force supérieure, il ne figure pas encore très apprécié par les utilisateurs des médias
    Porter le fardeau du coût de l'amélioration de la maison traditionnelle, l'amélioration de la maison peut gagner pourquoi smart?
    Cette paire de poudre blanche adidas UltraBOOST fille pleine sensation! Mais vous devez trouver encore mystère caché?
    Une fois par an! Sculptures rupestres de Dazu Festival culturel international du tourisme visiteurs de nuit d'ouverture Baoding Mountain Rock Carvings
    gloire Route Pro 2 évaluation: la recherche depuis la puce quad-core bénédiction de pointe, à la fin comment
    Aux attentes! Soulland x série de la deuxième bombe Nike SB FRI.day frappé!
    Wanda abandonné « village oubli », et avait rencontré zéro morceau de ligne, dans une coproduction inter-détroit politiques vitaux?
    Nuit lire | Wu Jing vous expose pouvez obtenir le certificat d'invalidité | garçon de 19 ans tué par les conducteurs de poids lourds sur le réseau
    En plus de la taille un peu, RX3 majestueux et RX5 Quelle différence cela fait-il?