Sun Yi-fan de l'Université de Tsinghua: Ce papier introduit et les piétons, puis identifier les derniers développements

Lei Feng réseau par AI Technology Review : Fait référence à des études en vision par ordinateur, vous pouvez d'abord penser à la reconnaissance des visages, il y a aussi une application plus pratique de la recherche - une autre reconnaissance des piétons. la reconnaissance des piétons est alors l'utilisation de la technologie de vision par ordinateur pour récupérer une tâche spécifique dans l'image piétonne ou vidéo, face aux changements d'angle de vue, piétons complexe sportif en commun et bien d'autres difficultés, il est une tâche difficile. Dans cet article, nous nous concentrons sur ce que vous donnez quelques connaissances de base des derniers progrès de la recherche et la reconnaissance re piétons.

2017, les piétons à nouveau la reconnaissance des progrès rapides. Par exemple, l'ensemble des données dans l'ouverture du marché, choisis-1501 à partir d'un taux correct de ECCV 201665,9% de plus en 2017 dans ICCV 80 +%, arXiv une actualisation récente du papier indicateur est de 95% à . étudiants Sun Yi-fan de l'Institut de Cognitive et Systèmes d'information, l'Université de Tsinghua à ICCV 2017 dans un document de projecteur « SVDNet forPedestrian récupération ». Ce document entièrement connecté matrice de poids de la couche interprétée comme un ensemble d'espace de fonction à projection ou un ensemble de modèles, United Décomposition valeur singulière (SVD) caractéristiques de profondeur d'optimisation d'un processus d'apprentissage, a apporté d'importantes améliorations de performance, et révèle très intéressant le mécanisme du phénomène. Partager l'ordre suivant se fait selon Sun étudiants Yi-fan en direct sur Lei Feng réseau GAIR grande salle de conférences. Lecture vidéo Adresse: http: //www.mooc.ai/open/course/381

Sun Yi-Fan, l'Université de Tsinghua, le Dr lecture électronique, les grandes orientations de recherche pour la vision par ordinateur, la reconnaissance des piétons et des applications d'apprentissage re-profondeur.

thème Partager : Ce papier et introduit les piétons, puis identifier les derniers développements

Partager le contenu

Bonjour à tous, je suis de l'Institut des systèmes intelligents et cognitifs, Tsinghua Sun Yi-fan. La part est principalement les trois aspects suivants:

  • Reconnaissance piétons Liste des tâches à nouveau;

  • SVDNet pour le papier de récupération des piétons pour expliquer;

  • Piétons et identifier les progrès récents et d'introduire la prochaine prédiction de point chaud (avec le dernier papier);

CV mentionné précédemment, nous avons d'abord la pensée est la reconnaissance, en fait, la reconnaissance re-piétons une nouvelle direction de recherche au cours des dernières années par le degré de préoccupation est très élevé. Pourquoi les piétons et l'identifier?

Du point de vue académique, depuis 2008, le nombre d'articles dans les trois premiers lors de la réunion comprenait la re-identification des piétons pertinentes augmente d'année en année.

Du point de l'industrie de vue, que ce soit un vétéran des sociétés de vision par ordinateur telles que Hikvision, ou se retrouver face licorne ++, la science et la technologie Shang Tang, il y a certains comme BAT, Huawei et d'autres géants technologiques pour réidentifier les piétons sont très préoccupés, ils ont une certaine accumulation dans la technologie, les algorithmes, les données, le personnel.

D'un haut politique, puis d'identifier les piétons aussi eu une certaine traction. Ministère de la Sécurité publique a lancé le concept Safe City, et a publié des sujets de recherche plus préliminaires normes de l'industrie sont en cours d'élaboration bat son plein.

2017 a été une autre reconnaissance des piétons a fait la plus grande percée de l'année. En ICCV 2017 a accepté le papier 16 sont ensuite identifiés sur le piéton. Il deux papier fort, qui se concentre aujourd'hui sur un.

Je brièvement expliquer les piétons et identifier la tâche elle-même, veulent se lancer dans d'autres domaines de la recherche chez les personnes de vision par ordinateur peut participer à l'étude ont ensuite identifié les piétons.

La première consiste à identifier les piétons et les tâches de vision par ordinateur, il se caractérise par une personne donnée d'intérêt, puis identifier les piétons Re-ID nécessaire à d'autres moments, d'autres lieux, une autre caméra à personne désignée à nouveau. Pour l'ensemble de la formation, l'ensemble de test est concerné, il se caractérise par beaucoup de chevauchement il n'y a pas d'identité. Ceci est très différent classement de l'image, la classification des images toutes les classes sont peut être vu et appris dans la phase de formation.

Reconnaissance des visages et détection des piétons à nouveau la plus grande différence est la reconnaissance des piétons fonctionne à nouveau dans un état non coopératif, c'est-à-dire avec l'acquisition des piétons ne pas besoin de vous faire une action. La reconnaissance a été travaillé en coopération avec l'Etat, mais maintenant avec le développement de la technologie, la vérification du visage peut être fait la coopération semi-étatique, mais dans la plupart des cas ne sont pas tout à fait non-coopération. Comme l'image piétonne est relativement difficile à marquer, les données obtenues de formation est relativement faible, et d'autres raisons, la précision de reconnaissance faciale pour être un peu élevé.

Les demandes de ré-reconnaissance piétons

Par exemple, vous pouvez re-faire une nouvelle perspective pour identifier des suspects par le suivi des piétons. vous pouvez également se réunir et de reconnaissance faciale pour identifier l'effet de l'identité d'un moniteur dans la scène suivante. Dans les affaires, par exemple, peut-être dans le commerce de détail physique, le juge du même intérêt des clients des marchandises.

Piéton procédures standard, puis identifié

Après la première série à une première vidéo, il commence à détecter un piéton, la détection des piétons de toutes les formes d'une bibliothèque de candidats, appelés galerie. Puis toutes galerie d'images qui extrait une caractéristique, après un besoin donné, un piéton, appelé requête, extraction de caractéristiques en utilisant la même méthode, et comparée à la distance entre la bibliothèque candidate fonction et renvoie les résultats de recherche. Une détection des piétons est relativement indépendante du lien, généralement l'accent sur les caractéristiques du contraste de l'arrière.

travaux de papier sur le SVDnet

Tout d'abord, je fait beaucoup de travail pour essayer de comprendre ce que CNN a appris à la fin? J'utilise des outils de données traditionnels processus de décomposition de valeurs singulières pour optimiser la profondeur de l'apprentissage, qui est aussi tout à fait unique.

Cet article est sur la motivation.

Pedestrian ensuite utilisé pour identifier la profondeur des méthodes d'apprentissage sont généralement trois étapes. Tout d'abord formé le réseau de classification sur un ensemble de formation, puis, après le réseau converge, sa couche pleine de connexion de sortie exprimée en sa fonction. Enfin, pour toutes les caractéristiques de l'image, il calcule la distance euclidienne, pour déterminer leur similitude.

Nous vous proposons SVDNet Dans cet article, l'objectif est d'apprendre les caractéristiques d'une couche de présentation matrice orthogonale de poids.

Structure figure SVDNet

Il est construit sur la base d'une étude approfondie du réseau commun sur la classification d'images, et ce réseau générique, il y a peu de différence, caractérisé en ce que la différence sera exprimée avec une matrice de poids de couche ayant Eigenlaye orthogonale pour remplacer la connexion traditionnelle complète.

Avec les processus liés à SVD

Une fois que vous avez lié au processus de SVD, nous avons conçu une étape supplémentaire de formation, appelé la méthode itérative de relaxation. Lorsque la formation intense, l'amélioration des performances, des performances constantes dans la phase de formation détendue, et même légèrement inférieur. Mais la tendance générale est en hausse.

phase de formation intense et caractéristiques de phase de formation de relaxation

la performance SVDNet

Nous avons étendu ce travail dans la tâche de classification d'image.

A propos de SVDNet, je suis également prêt à discuter des détails de la comparaison, nous pouvons aller voir mon github code source, le remplacement lorsque W n'est pas une substitution simple, mais il y a un processus réordonnancement, qui est en fait la décomposition de valeur singulière avec la valeur certaines caractéristiques de la solution sont liées, je l'ai expliqué sur GitHub.

Il y a beaucoup de gens se demandent, si un des termes de régularisation souples ne peuvent pas obtenir des résultats similaires, nous avons fait cette expérience, la performance est relativement faible. Non seulement sont eux-mêmes orthogonaux, comment obtenir un effet orthogonale pour SVDNet est tout aussi important.

De plus, je pense que la comparaison est instructive, SVD est le droit de la matrice orthogonale, il dispose lui-même lié à exprimer tout contact mérite d'être examinée. Ici, il y a deux documents pour le faire, je vous recommande un coup d'oeil. (Sujet de thèse sur la figure ci-dessus)

Les derniers développements sur arXiv

Une partie des recherches les plus récentes sur la façon d'améliorer le courant déjà très élevé (peut même dire être au-delà du niveau humain) d'un niveau sur arXiv, par exemple, sur le marché 1501 Dao et un taux de précision de l'élection de 90% à 95% Gamme. Voici trois papier, ils ont quelque chose en commun, ils sont utilisés pour extraire les caractéristiques au niveau des pièces de modèle de pièce, mais leur stratégie sur la question fondamentale de la façon de générer une partie utilisée est complètement différent. Les étudiants intéressés peuvent être recrutés pour voir.

objectifs et défis futurs

Lorsque nous Re-ID sous la supervision d'une scène forte a atteint un niveau élevé, en fait, Re-ID des applications pratiques sont encore beaucoup de problèmes à résoudre.

Nous trouverons des données sur le modèle expérimental définit une bonne performance, mais il est plus difficile de changer à un autre ensemble de données, la performance diminuera. Face à la complexité réelle de l'environnement extérieur, nous avons tendance à utiliser l'effet sera encore pire.

L'autre est quand un modèle de données établies après la fin de la formation, afin de tester un ensemble de données, la performance sera une baisse très importante, cette baisse est pas autorisée. Dans la pratique, nous ne pouvons pas pour chaque caméra recueilli des données un certain degré d'étalonnage, j'espère que, après plus d'un résultat de formation douzaine peuvent être généralisés à plusieurs caméras, il n'y a pas de données d'étalonnage de l'appareil, afin que nous puissions déployer un système très pratique.

Enfin, deux questions ouvertes et tout le monde pensait:

  • SVDNet être en mesure de séparer la perte métrique (contrastive \ triplet) utilisation conjointe il?

  • Piétons et l'apprentissage de la reconnaissance faciale pour identifier beaucoup d'expérience et de la pratique. Piétons et identifier si l'étude de certains de la nouvelle approche peut être appliquée à la reconnaissance faciale?

Ce sont mes tout à partager.

Lecture vidéo Adresse: http: //www.mooc.ai/open/course/381

Lei Feng réseau GAIR Auditorium produit, l'attention bienvenue à AI Technology Review regarder la dernière vivre une leçon gratuite.

Honteux de « Thor 3 » dire en fait une histoire de croissance
Précédent
Comment choisir des enceintes sans fil portables les plus appropriés
Prochain
obtenir un prix abordable « ambition mer », ajustement, Dikaigaozou plus demain
Une autre star de « conduite avec facultés affaiblies »? Cependant, les utilisateurs des commentaires semblaient à sens unique et que suffisamment de caractère plus que toute autre chose
Le Verge: 8 majeure partie de la conférence des développeurs Google I / O 2018 qui se tiendra
Six mois six mois filmant voyage, Zhao Han et Tang vivent leurs « Soixante-dix sept jours '
Cent trente mille voiture familiale commune devrait être la façon dont l'élection?
Mai Li à nouveau enceinte? Cet article ne dit pas que les couples sont confrontés à la relation?
Le système de reconnaissance britannique face à la police taux d'erreur est incroyable
« Rencontre adulte Miyaji » frappe à chaud, verrouillage vers le bas modèles d'explosion dramatique du réseau doute!
Le plus beau, « Yang » est la façon dont l'esprit des gens, maintenant 53 ans encore glamour!
Rumeur: la technologie suivante Xbox puce 7 nm utilisera le cadre cible 4K60
L'hiver approche, les salles de cinéma Novembre pourrait allumer un feu?
Francis Ng est que la graisse fils? Enfin, il ressemble à papa!