Dry | trois méthode de récupération d'image extrait une fonction de manuel à une étude approfondie

avant-propos

Recherche d'image est un sujet commun dans la vision informatique, traitement d'image numérique, etc., au cours de mes connaissances liées à l'apprentissage, la recherche d'images considérée démonstration que j'ai appris du processus d'enregistrement est d'identifier des images similaires (a) et en utilisant python identifier les images à l'aide python (ii) deux articles, chacun de l'enregistrement d'adaptation de l'histogramme, phash / hachage moyenne / dhash trois méthodes basées sur la table de hachage.

trame d'image récupérée peut être divisée en environ deux étapes, l'extraction de certaines caractéristiques, calcule la similitude. Dans lequel plusieurs procédés tels que mentionnés ci-dessus, il est caractérisé en ce qu 'une étape d'extraction correspondante, la similitude est calculée, la distance euclidienne est souvent utilisé / à distance / Triplet comme Hamming. De toute évidence, les méthodes ci-dessus sont toutes les méthodes artificielles conçues pour les caractéristiques de l'extrait, il est naturel de penser à utiliser aujourd'hui est très chaud apprentissage en profondeur pour remplacer les méthodes manuelles de conception, de sorte que cet article se concentre sur la profondeur de l'apprentissage est basé sur la recherche d'image .

L'article décrit les quelques éléments suivants:

  • Apprentissage en profondeur des codes de hachage binaires pour Fast Image Retrieval - ATELIER CVPR 2015

  • HASHING PROFONDE POUR RAPIDE IMAGE SUPERVISÉ EXTRACTION - CVPR 2016

  • Fonction d'apprentissage en fonction profonde avec Hashage supervisée par paires étiquettes - IJCAI 2016

Mentionné apprentissage en utilisant la profondeur d'extraction de caractéristiques d'image, l'industrie est généralement considéré dans l'image du modèle précédent, la couche avant de convolution est responsable de l'extraction de caractéristiques pertinentes, la couche finale entièrement connectée ou Globel mise en commun responsable de la classification, il est généralement la pratique de prendre directement les quelques premiers convolution couche de sortie, et ensuite calculer la similitude.

Cependant, cela pose un problème, un premier problème de précision des données, parce que l'accès direct à fonction sortie flottante pour la plupart, et les valeurs de caractéristiques de grande dimension qui fait ces images dépenseront beaucoup d'espace de stockage, depuis la deuxième latitude élevée, il le calcul de la similitude avec la distance euclidienne de cette façon, peut déclencher la malédiction de la dimensionnalité, faire usage de la distance euclidienne représente la similitude de cette méthode échoue.

Une solution consiste à utiliser une fonction constructeur Triplet peut apprendre comment calculer la similarité du réseau de neurones. Bien que cette méthode ne Triplet gamme décrit ici, mais pour le lecteur peut être associé méthode de comparaison horizontale, la description sommaire ci-dessous présente sur la base pratique Triplet.

Triplet approche est très simple, construction artificielle d'un ensemble de triplet comprenant l'ensemble de triplet (image A, B similaire à l'image A, A et C ne sont pas des images similaires), le réseau de neurones souhaité que les entrées de deux images, si elle est de même, un score plus élevé est sortie, si la sortie d'une fraction de faible similaire.

Triplet configuration de perte représenté dans la formule ci-dessus, dans lequel f (xi) est l'image fractionnée dans la sortie du réseau de neurones f (xj) en une fraction similaire de la sortie du réseau de neurones f (xk) ne sont pas des images similaires pointage de sortie dans cette expression, nous attendons avec impatience similaires entre les scores de l'image, aussi près que possible, et non loin de scores d'image similaires. Il y a un problème sans considérer , apparemment,

en

Lorsque L = 0,

Cela ne répond pas à notre espoir que des images similaires et différents picture partition il y a quelques intervalles cet objectif dans l'espace, et est défini, il est cet intervalle.

De toute évidence, est trop petit, le réseau de neurones est pas facile de distinguer entre des images similaires, trop élevé, l'équivalent du réseau de neurones plus exigeants, la convergence des réseaux de neurones sera plus instable.

Lorsque la recherche d'image Triplet pour l'échantillon suivant pour chaque catégorie est pas le cas, comme la détection de visage. Mais la recherche indique que la construction aura une incidence sur la collecte Triplet des effets de la formation, comment est-ce que les définitions artificielles similaires et ne sont pas similaires, il y a aussi un travail pertinent développé sur une construction Triplet, mais cet article sera principalement exposé est une autre méthode, qui repose sur trois méthodes de hachage.

Apprentissage en profondeur des codes de hachage binaires pour Fast Image Retrieval - ATELIER CVPR 2015

La raison de choisir cet article à discuter, parce que la méthode mentionnée dans cet article de travail idéologique et au-dessous de l'article mentionner la pensée excessive plus naturel, pour faciliter la compréhension.

Mentionné ci-dessus, la façon la plus simple consiste à utiliser la couche de sortie caractéristique de réseau neuronal pour calculer la distance dans l'espace afin de déterminer le degré de similitude, mais cela se traduira par la consommation et les données à virgule flottante de stockage fléau de la dimension. Pour ces deux questions, cet article méthode proposée est plus directe.

Comment faire des données à virgule flottante? Il sera dispersé dans le type de données binaires, ce qui est une chaîne de 0 et 1 hachage, alors que quelques-unes seront en mesure de stocker un octet de données.

Dimensions haute comment faire? Il compressé en une des photos de faible dimension.

Voilà pourquoi je dis que l'idée de cet article est assez simple et facile à comprendre, très approprié pour le premier article sur la transition.

Ici pour parler de pratiques spécifiques de l'article:

Puisque nous voulons être les caractéristiques de sortie discrètes en 0 et 1, on espère la distribution est symétrique par rapport à une valeur, tant que la valeur seuil binaire peut être, donc étape par étape pour dériver cette valeur, pense naturellement d'utiliser tanh ou la fonction sigmoïde, étant donné que la sortie de zéro est d'environ 0,5 ou symétrique. sigmoïde à la place du papier utilisé dans la seconde couche est une fonction de la réciproque RELU réseau pré-formé, et la sortie est comprimé à une dimension de 12 à 48, et ensuite de réglage fin.

Dans le processus de réglage fin, il y a quelques-uns: Notre méthode générale de coupe se réfère à l'avant droit de la convolution de gel lourd, alors le poids des classificateurs formés plus tard. Mais ici, à cause d'une réduction des dimensions de la seconde couche intermédiaire est en fonction d'activation sigmoïde peut provoquer des gradients disparaît, la capacité des réseaux de neurones en fait avoir un certain degré d'atténuation. Donc, faire la mise au point du temps, mais les paramètres de la couche sigmoïde à l'aide de la randomisation, les autres paramètres, y compris la plupart des paramètres du classificateur sont conservés, puis au cours de la formation, sigmoïde en utilisant le taux d'apprentissage 1E-3, et les usages couche restante 1e- 4 taux d'apprentissage de l'apprentissage. Pour cifar10 parlant, l'utilisation de la mise en valeur des données, peut atteindre environ 89% Précision, récupérer des images de carte peut atteindre 85%, on peut dire la performance est très impressionnant.

lien Documents:

Mise en oeuvre de référence:

https://github.com/flyingpot/pytorch_deephash

HASHING PROFONDE POUR RAPIDE IMAGE SUPERVISÉ EXTRACTION - CVPR 2016

Lorsqu'on se réfère aux caractéristiques que nous espérons sortie discrète au-dessus d'une certaine valeur sur la symétrie, donc il y a des articles utilisés en fonction d'activation sigmoïde des caractéristiques de sortie des couches, mais une référence directe à la fonction sigmoïde peut entraîner des problèmes, et qu'il n'y a aucun moyen de les atténuer le problème? Oui, qui est le procédé d'utilisation d'une sortie positive contrainte à l'intérieur d'une certaine plage.

Ce document CVPR 2016 pratique est le cas, et non comme une couche intermédiaire en utilisant un réseau classé comme l'article ci-dessus à un hachage, mais l'utilisation du réseau de neurones apprentissage directement hachage de codage et le codage sera contraint par la méthode de régularisation.

Plus précisément, il est contraint de sorte que la sortie du réseau neuronal d'une manière régulière au sein de la {1,1} (0 discrétiser l'utilisation ultérieure en tant que valeur de seuil) de sortie, puis de laisser la rencontre du réseau les conditions suivantes lors de la similitude de la distance de vecteur il devrait être proche, loin et vice versa, pour introduire la manifestation spécifique suivante du processus par lequel la fonction objectif

La fonction objectif:

Dans laquelle b1, b2 est le vecteur de sortie du réseau de neurones, y est un drapeau similaire au chronographe est égal à 0, 1 est pas mentionnée comme un analogue qui est supérieure à deux paramètres, pour commander l'intervalle de temps optimal b1 et b2 m, et est un terme positif du poids approprié, est visible lorsque les images d'entrée, y = 0, pour réduire au minimum l, souhaitable de minimiser la distance entre les deux vecteurs et les termes de régularisation. Lorsque les images ne sont pas similaires, y = 1, de telle sorte que la distance minimale L de deux vecteurs requis distribués au voisinage de m, et pour réduire au minimum la régularisation.

Le vecteur de dernière caractéristique à long terme de régularisation de telle sorte que la distribution de sortie {-1, 1}.

Et la figure inférieure montre l'influence de m et la distribution de sortie.

Pour-10 ICRA, la carte finale seulement 0,54 à 0,61, la première méthode est inférieure à celle mentionnée ci-dessus, mais l'essence de cette méthode pour être plus flexible.

lien Documents:

https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Liu_Deep_Supervised_Hashing_CVPR_2016_paper.pdf

Mise en oeuvre de référence:

https://github.com/yg33717/DSH_tensorflow

Fonction d'apprentissage en fonction profonde avec Hashage supervisée par paires étiquettes - IJCAI 2016

Comme représenté, le deuxième procédé mentionné ci-dessus, et l'article sensiblement similaire. La couche intermédiaire ne sert pas les caractéristiques de classification de réseau, mais de prendre directement un réseau neuronal l'apprentissage d'une fonction de hachage, et caractérisé par le procédé des contraintes de séquence de régularisation pour délivrer en sortie une certaine distance.

Le processus suivant est expliqué par la forme spécifique de la fonction objectif de:

Dans lequel b est le vecteur de sortie, Sij d'une étiquette, similaire à 1, sinon 0, ij = bi * BJT, et W, v est la dernière couche, respectivement, de poids et de la polarisation, et (x, ) qui est l'inverse de la première la sortie du deuxième étage.

étapes de mise à jour de l'algorithme est la suivante:

Le procédé pour obtenir la valeur de 0,71 à 0,80 sur la carte 10 ICRA-ensembles de données.

lien Documents:

https://cs.nju.edu.cn/lwj/paper/IJCAI16_DPSH.pdf

Mise en oeuvre de référence:

https://github.com/jiangqy/DPSH-pytorch

résumé

Partager cet article avant d'utiliser des méthodes de règles de conception pour extraire des images fonction manuelle est utilisée pour mesurer la similitude, puis introduit l'étude en profondeur le processus de recherche d'image, et donne trois articles décrit le cadre général et de la pensée traite les tâches de recherche d'images.

(^ 0 ^) partage de bienvenue, à demain!

OPPO net technologie sans fil de charge du flash d'exposition mis au point, l'approche la puissance de charge 15W
Précédent
2018 BMW Série 3 mis en vente 28,80 à 48,69 dix mille yuans
Prochain
Son éclat agissant, le méchant joué trop profondément enracinée pour être appelé mauvais exemple ultime!
six jours du Nouvel An chinois pour gagner 3,3 milliards, vous voyez le "Journey to the West" ou "Kung Fu Yoga"?
Envoyer Yi Xi éperlan un millier manoir britannique a envoyé Huachen Yu Lamborghini? les fans Tyrant sont comme Starchaser
Lorsque le « véhicule avec les bénéfices » dans la Jacky Cheung Wei a joué en faisant allusion vraiment Jackie faire?
Silver Bullet peut jeter? ! Pour cette paire de Nike Air Max 97 vente peut être réfléchissante en or!
premier vrai téléphone non poreux du monde Meizu: prise casque, port de charge, fente pour carte à été annulée
version progrès grand pas X7 du marché officiel: la vente de 10,69 à 15,99 Wan
« Journey 2 » effets spéciaux ne peut jouer 75 minutes, la Corée du Sud est une société d'effets spéciaux des films en médecine sauver la vie faire?
Stephen Chow a agi dans un second rôle: la vedette Nick saisir Cheung, Andy Lau en collaboration avec les plus populaires!
marque Guochao fiers! FMACM à Tokyo « saupoudré sauvage »!
vivo s'engager aussi dans le prix? Xiaolong 710 vivo transport Z3 a officiellement annoncé
exposition T-Roc VW R du véhicule réel: la puissance maximale cassés 300PS