Dry | trois m�thode de r�cup�ration d'image extrait une fonction de manuel � une �tude approfondie

avant-propos

Recherche d'image est un sujet commun dans la vision informatique, traitement d'image num�rique, etc., au cours de mes connaissances li�es � l'apprentissage, la recherche d'images consid�r�e d�monstration que j'ai appris du processus d'enregistrement est d'identifier des images similaires (a) et en utilisant python identifier les images � l'aide python (ii) deux articles, chacun de l'enregistrement d'adaptation de l'histogramme, phash / hachage moyenne / dhash trois m�thodes bas�es sur la table de hachage.

trame d'image r�cup�r�e peut �tre divis�e en environ deux �tapes, l'extraction de certaines caract�ristiques, calcule la similitude. Dans lequel plusieurs proc�d�s tels que mentionn�s ci-dessus, il est caract�ris� en ce qu 'une �tape d'extraction correspondante, la similitude est calcul�e, la distance euclidienne est souvent utilis� / � distance / Triplet comme Hamming. De toute �vidence, les m�thodes ci-dessus sont toutes les m�thodes artificielles con�ues pour les caract�ristiques de l'extrait, il est naturel de penser � utiliser aujourd'hui est tr�s chaud apprentissage en profondeur pour remplacer les m�thodes manuelles de conception, de sorte que cet article se concentre sur la profondeur de l'apprentissage est bas� sur la recherche d'image .

L'article d�crit les quelques �l�ments suivants:

Apprentissage en profondeur des codes de hachage binaires pour Fast Image Retrieval - ATELIER CVPR 2015
HASHING PROFONDE POUR RAPIDE IMAGE SUPERVIS� EXTRACTION - CVPR 2016
Fonction d'apprentissage en fonction profonde avec Hashage supervis�e par paires �tiquettes - IJCAI 2016

Mentionn� apprentissage en utilisant la profondeur d'extraction de caract�ristiques d'image, l'industrie est g�n�ralement consid�r� dans l'image du mod�le pr�c�dent, la couche avant de convolution est responsable de l'extraction de caract�ristiques pertinentes, la couche finale enti�rement connect�e ou Globel mise en commun responsable de la classification, il est g�n�ralement la pratique de prendre directement les quelques premiers convolution couche de sortie, et ensuite calculer la similitude.

Cependant, cela pose un probl�me, un premier probl�me de pr�cision des donn�es, parce que l'acc�s direct � fonction sortie flottante pour la plupart, et les valeurs de caract�ristiques de grande dimension qui fait ces images d�penseront beaucoup d'espace de stockage, depuis la deuxi�me latitude �lev�e, il le calcul de la similitude avec la distance euclidienne de cette fa�on, peut d�clencher la mal�diction de la dimensionnalit�, faire usage de la distance euclidienne repr�sente la similitude de cette m�thode �choue.

Une solution consiste � utiliser une fonction constructeur Triplet peut apprendre comment calculer la similarit� du r�seau de neurones. Bien que cette m�thode ne Triplet gamme d�crit ici, mais pour le lecteur peut �tre associ� m�thode de comparaison horizontale, la description sommaire ci-dessous pr�sente sur la base pratique Triplet.

Triplet approche est tr�s simple, construction artificielle d'un ensemble de triplet comprenant l'ensemble de triplet (image A, B similaire � l'image A, A et C ne sont pas des images similaires), le r�seau de neurones souhait� que les entr�es de deux images, si elle est de m�me, un score plus �lev� est sortie, si la sortie d'une fraction de faible similaire.

Triplet configuration de perte repr�sent� dans la formule ci-dessus, dans lequel f (xi) est l'image fractionn�e dans la sortie du r�seau de neurones f (xj) en une fraction similaire de la sortie du r�seau de neurones f (xk) ne sont pas des images similaires pointage de sortie dans cette expression, nous attendons avec impatience similaires entre les scores de l'image, aussi pr�s que possible, et non loin de scores d'image similaires. Il y a un probl�me sans consid�rer , apparemment,

Lorsque L = 0,

Cela ne r�pond pas � notre espoir que des images similaires et diff�rents picture partition il y a quelques intervalles cet objectif dans l'espace, et est d�fini, il est cet intervalle.

De toute �vidence, est trop petit, le r�seau de neurones est pas facile de distinguer entre des images similaires, trop �lev�, l'�quivalent du r�seau de neurones plus exigeants, la convergence des r�seaux de neurones sera plus instable.

Lorsque la recherche d'image Triplet pour l'�chantillon suivant pour chaque cat�gorie est pas le cas, comme la d�tection de visage. Mais la recherche indique que la construction aura une incidence sur la collecte Triplet des effets de la formation, comment est-ce que les d�finitions artificielles similaires et ne sont pas similaires, il y a aussi un travail pertinent d�velopp� sur une construction Triplet, mais cet article sera principalement expos� est une autre m�thode, qui repose sur trois m�thodes de hachage.

Apprentissage en profondeur des codes de hachage binaires pour Fast Image Retrieval - ATELIER CVPR 2015

La raison de choisir cet article � discuter, parce que la m�thode mentionn�e dans cet article de travail id�ologique et au-dessous de l'article mentionner la pens�e excessive plus naturel, pour faciliter la compr�hension.

Mentionn� ci-dessus, la fa�on la plus simple consiste � utiliser la couche de sortie caract�ristique de r�seau neuronal pour calculer la distance dans l'espace afin de d�terminer le degr� de similitude, mais cela se traduira par la consommation et les donn�es � virgule flottante de stockage fl�au de la dimension. Pour ces deux questions, cet article m�thode propos�e est plus directe.

Comment faire des donn�es � virgule flottante? Il sera dispers� dans le type de donn�es binaires, ce qui est une cha�ne de 0 et 1 hachage, alors que quelques-unes seront en mesure de stocker un octet de donn�es.

Dimensions haute comment faire? Il compress� en une des photos de faible dimension.

Voil� pourquoi je dis que l'id�e de cet article est assez simple et facile � comprendre, tr�s appropri� pour le premier article sur la transition.

Ici pour parler de pratiques sp�cifiques de l'article:

Puisque nous voulons �tre les caract�ristiques de sortie discr�tes en 0 et 1, on esp�re la distribution est sym�trique par rapport � une valeur, tant que la valeur seuil binaire peut �tre, donc �tape par �tape pour d�river cette valeur, pense naturellement d'utiliser tanh ou la fonction sigmo�de, �tant donn� que la sortie de z�ro est d'environ 0,5 ou sym�trique. sigmo�de � la place du papier utilis� dans la seconde couche est une fonction de la r�ciproque RELU r�seau pr�-form�, et la sortie est comprim� � une dimension de 12 � 48, et ensuite de r�glage fin.

Dans le processus de r�glage fin, il y a quelques-uns: Notre m�thode g�n�rale de coupe se r�f�re � l'avant droit de la convolution de gel lourd, alors le poids des classificateurs form�s plus tard. Mais ici, � cause d'une r�duction des dimensions de la seconde couche interm�diaire est en fonction d'activation sigmo�de peut provoquer des gradients dispara�t, la capacit� des r�seaux de neurones en fait avoir un certain degr� d'att�nuation. Donc, faire la mise au point du temps, mais les param�tres de la couche sigmo�de � l'aide de la randomisation, les autres param�tres, y compris la plupart des param�tres du classificateur sont conserv�s, puis au cours de la formation, sigmo�de en utilisant le taux d'apprentissage 1E-3, et les usages couche restante 1e- 4 taux d'apprentissage de l'apprentissage. Pour cifar10 parlant, l'utilisation de la mise en valeur des donn�es, peut atteindre environ 89% Pr�cision, r�cup�rer des images de carte peut atteindre 85%, on peut dire la performance est tr�s impressionnant.

lien Documents:

Mise en oeuvre de r�f�rence:

https://github.com/flyingpot/pytorch_deephash

HASHING PROFONDE POUR RAPIDE IMAGE SUPERVIS� EXTRACTION - CVPR 2016

Lorsqu'on se r�f�re aux caract�ristiques que nous esp�rons sortie discr�te au-dessus d'une certaine valeur sur la sym�trie, donc il y a des articles utilis�s en fonction d'activation sigmo�de des caract�ristiques de sortie des couches, mais une r�f�rence directe � la fonction sigmo�de peut entra�ner des probl�mes, et qu'il n'y a aucun moyen de les att�nuer le probl�me? Oui, qui est le proc�d� d'utilisation d'une sortie positive contrainte � l'int�rieur d'une certaine plage.

Ce document CVPR 2016 pratique est le cas, et non comme une couche interm�diaire en utilisant un r�seau class� comme l'article ci-dessus � un hachage, mais l'utilisation du r�seau de neurones apprentissage directement hachage de codage et le codage sera contraint par la m�thode de r�gularisation.

Plus pr�cis�ment, il est contraint de sorte que la sortie du r�seau neuronal d'une mani�re r�guli�re au sein de la {1,1} (0 discr�tiser l'utilisation ult�rieure en tant que valeur de seuil) de sortie, puis de laisser la rencontre du r�seau les conditions suivantes lors de la similitude de la distance de vecteur il devrait �tre proche, loin et vice versa, pour introduire la manifestation sp�cifique suivante du processus par lequel la fonction objectif

La fonction objectif:

Dans laquelle b1, b2 est le vecteur de sortie du r�seau de neurones, y est un drapeau similaire au chronographe est �gal � 0, 1 est pas mentionn�e comme un analogue qui est sup�rieure � deux param�tres, pour commander l'intervalle de temps optimal b1 et b2 m, et est un terme positif du poids appropri�, est visible lorsque les images d'entr�e, y = 0, pour r�duire au minimum l, souhaitable de minimiser la distance entre les deux vecteurs et les termes de r�gularisation. Lorsque les images ne sont pas similaires, y = 1, de telle sorte que la distance minimale L de deux vecteurs requis distribu�s au voisinage de m, et pour r�duire au minimum la r�gularisation.

Le vecteur de derni�re caract�ristique � long terme de r�gularisation de telle sorte que la distribution de sortie {-1, 1}.

Et la figure inf�rieure montre l'influence de m et la distribution de sortie.

Pour-10 ICRA, la carte finale seulement 0,54 � 0,61, la premi�re m�thode est inf�rieure � celle mentionn�e ci-dessus, mais l'essence de cette m�thode pour �tre plus flexible.

lien Documents:

https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Liu_Deep_Supervised_Hashing_CVPR_2016_paper.pdf

Mise en oeuvre de r�f�rence:

https://github.com/yg33717/DSH_tensorflow

Fonction d'apprentissage en fonction profonde avec Hashage supervis�e par paires �tiquettes - IJCAI 2016

Comme repr�sent�, le deuxi�me proc�d� mentionn� ci-dessus, et l'article sensiblement similaire. La couche interm�diaire ne sert pas les caract�ristiques de classification de r�seau, mais de prendre directement un r�seau neuronal l'apprentissage d'une fonction de hachage, et caract�ris� par le proc�d� des contraintes de s�quence de r�gularisation pour d�livrer en sortie une certaine distance.

Le processus suivant est expliqu� par la forme sp�cifique de la fonction objectif de:

Dans lequel b est le vecteur de sortie, Sij d'une �tiquette, similaire � 1, sinon 0, ij = bi * BJT, et W, v est la derni�re couche, respectivement, de poids et de la polarisation, et (x, ) qui est l'inverse de la premi�re la sortie du deuxi�me �tage.

�tapes de mise � jour de l'algorithme est la suivante:

Le proc�d� pour obtenir la valeur de 0,71 � 0,80 sur la carte 10 ICRA-ensembles de donn�es.

lien Documents:

https://cs.nju.edu.cn/lwj/paper/IJCAI16_DPSH.pdf

Mise en oeuvre de r�f�rence:

https://github.com/jiangqy/DPSH-pytorch

r�sum�

Partager cet article avant d'utiliser des m�thodes de r�gles de conception pour extraire des images fonction manuelle est utilis�e pour mesurer la similitude, puis introduit l'�tude en profondeur le processus de recherche d'image, et donne trois articles d�crit le cadre g�n�ral et de la pens�e traite les t�ches de recherche d'images.

(^ 0 ^) partage de bienvenue, � demain!

Route de la soie

Apprenez � conna�tre la Chine

Dry | trois m�thode de r�cup�ration d'image extrait une fonction de manuel � une �tude approfondie

avant-propos

r�sum�