Quatre t�ches n�cessaires � quatre mod�les? Maintenant, un seul mod�le de r�seau de neurones est assez!

Lei Feng r�seau par AI Technology Review: Comme son nom l'indique, � exprim� � (repr�sentation) fait r�f�rence � la fa�on dont l'information est cod�e dans le r�seau. Pour que nous puissions comprendre pleinement le � express �, les tentatives d'auteur pour construire une description de l'image peut �tre compl�t� en m�me temps, des mots similaires, recherche d'images similaires et recherche par image description image description quatre t�ches profondeur de r�seau de neurones, de sorte que nous nous sentons � , a d�clar� l'op�ration pratique � le monde merveilleux. Lei Feng r�seau AI Technology Review compil� comme suit.

Comme nous le savons tous, le r�seau de neurones est tr�s bon � traiter des t�ches de sp�cifiques dans le domaine, mais lorsqu'ils traitent avec des r�sultats multi-t�ches ne sont pas si bon. Ceci est diff�rent du cerveau humain, le cerveau humain est capable d'utiliser les m�mes concepts dans des t�ches diverses. Par exemple, si vous ne l'avez jamais entendu parler de � fractale � (fractale), que vous pouvez regarder l'image ci-dessous:

beaut� math�matique: l'image fractale (via https://fractalfoundation.org/)

Apr�s avoir vu une image fractale, l'humain peut g�rer plusieurs t�ches associ�es �:

Dans une s�rie d'images, de distinguer l'image fractale et l'image d'un chat;
Un morceau de papier, dessiner une carte rugueuse comme fractale (Il ne sera pas parfait, mais ne sera pas libre de graffitis);
Une image fractale similaire dans les images non-forme sont class�es (vous ne h�sitera pas � appuyer sur l'image la plus similaire au moins mani�re similaire � classer);
Fermez vos yeux et imaginez ce qu'il �tait comme l'image fractale (m�me maintenant ne vous donne pas une image fractale ready-made, vous pouvez le lire � la fois, imaginez � quoi il ressemble, ne l'est pas g�nial!)

Alors, comment voulez-vous accomplir ces t�ches il? Y at-il un r�seau de neurones responsable de la gestion de ces t�ches de votre cerveau?

Les neurosciences modernes ce qui donne la r�ponse: Les informations contenues dans le cerveau � travers diff�rents sites � partager et �changer. Comment le cerveau en fait vient de terminer une �tude du champ de ces t�ches, et la capacit� � effectuer des t�ches multiples est de savoir comment produire, nous avons aussi quelques indices - la r�ponse peut �tre pr�sent dans le magasin et la fa�on d'interpr�ter les donn�es dans le r�seau de neurones.

� Repr�sente un � monde merveilleux

Comme son nom l'indique, � exprim� � (repr�sentation) fait r�f�rence � la fa�on dont l'information est cod�e dans le r�seau. Quand un mot, une phrase ou une image (ou autre) est entr�e dans un r�seau neuronal entra�n�, lorsque l'entr�e est multipli�e par la pond�ration et l'op�ration d'activation, qui peut �tre obtenue sur une couche de conversion continu . Enfin, nous obtenons une cha�ne de nombres dans la couche de sortie, nous allons Interpr�t� comme une �tiquette de classe ou de prix ou d'autres t�ches de r�seau qui la formation.

Cette entr�e magique - > Conversion de conversion d'entr�e-sortie se produit en raison de la couche continue est r�alis�e. Ces conversion de donn�es d'entr�e est appel�e � repr�sentation �. Il est une id�e importante est qu'une couche plus facilement des t�ches � effectuer chaque niveau pour faire. Ce proc�d� permet la pr�sence d'une couche continue devient plus facile, et ainsi permet �galement l'actif (sur une couche de conversion d'entr�e de donn�es particulier) devient significative.

Je parle de sens Quels sont-ils? Le regard de Let l'exemple ci-dessous, montrant l'activation de diff�rentes couches de classificateurs d'image:

Le r�le du r�seau est � l'image de classification d'image dans un concept plus avanc� de l'espace de pixels de l'espace. Par exemple, l'image d'origine automobile repr�sent� par une valeur RVB, le premier bord de la premi�re couche est repr�sent�e par l'espace, il est repr�sent� par un cercle et la forme de base de l'espace, utiliser l'objet avanc� est d�marr� avant-derni�re couche (deuxi�me roue de couche , portes, etc.) repr�sentent.

Avec la repr�sentation (en raison du niveau de la profondeur du r�seau apparaissent automatiquement) de plus en plus riche, la t�che de classification d'image devient insignifiante. La derni�re est de faire peser le concept de la roue et la porte est plus comme concept de voiture et plus comme des oreilles de l'homme et les yeux.

De quelle fa�on peut indiquer l'utilisation?

Coder les donn�es d'entr�e stock�es dans ces couches interm�diaires significatives, il est possible d'utiliser les m�mes informations � une pluralit� de t�ches. Par exemple, vous pouvez utiliser un mod�le de langage (une formation, utilis�e pour pr�dire le mot suivant d'un r�seau de neurones r�currents) et expliquer les neurones Activate un sp�cifiques pour pr�dire l'humeur de la phrase.

(Via Unsupervised Neuron Sentiment)

Un fait surprenant est que les neurones �motion dans les t�ches de mod�lisation du langage non contr�l� qui se produisent naturellement. (Voir article: https: //rakeshchada.github.io/Sentiment-Neuron.html). R�seau form� pour pr�dire le mot suivant, mais on n'a pas demand� dans les �motions de pr�diction du r�seau de t�ches. Peut-�tre que l'�motion est un concept tr�s utile que le r�seau afin de mieux mener � bien le langage de mod�lisation et cr��.

Une fois que vous comprenez le concept � express �, vous commencez dans une perspective compl�tement diff�rente de comprendre les r�seaux de neurones profonds. Vous commencerez � exprimer (repr�sentations de d�tection) consid�r�es comme un moyen de rendre la langue de mise en uvre peut �tre converti pour la communication entre les diff�rents r�seaux (identiques ou diff�rentes parties du r�seau).

Pour explorons exprim� en construisant un r�seau � quadruple �

Pour bien comprendre la � exprimer � Construisons un a r�ussi � effectuer quatre t�ches de la profondeur du r�seau de neurones:

Description g�n�rateur d'images : Compte tenu de l'image, g�n�r�e pour le titre
G�n�rateur de mots similaires : �tant donn� un mot, trouver d'autres termes similaires avec
recherche d'images visuellement similaires : �tant donn� une image, pour trouver la plus image similaire
Par image description recherche d'image description : Description du texte est donn�e, avec le contenu de l'image de recherche d�crit

Chaque en lui-m�me est un projet des trois t�ches, n�cessitent g�n�ralement trois mod�les. Mais nous utilisons maintenant Un mod�le Pour effectuer toutes ces t�ches.

Le code sera utilis� dans la pr�paration de Pytorch dans le cahier Jupyter, vous pouvez aller au magasin � t�l�charger:

https://github.com/paraschopra/one-network-many-uses

Partie I: description de l'image (image Captioning)

Il y a beaucoup de bons tutoriels en ligne pour r�aliser l'image d�crite ici est pas en profondeur explication. Je sais que ce tutoriel m�thodes utilis�es exactement de la m�me: cr�er une application automatique d'images de titre (lien Tutorial: https: //daniel.lasiman.com/post/image-captioning/). La principale diff�rence est que j'utilise la mise en uvre Pytorch est atteint, et le tutoriel est Keras.

Pour continuer, vous devez t�l�charger ensemble de donn�es Flickr8K (lien de t�l�chargement 1 Go jeu de donn�es Flickr8K: https: //github.com/jbrownlee/Datasets/releases/download/Flickr8k/Flickr8k_Dataset.zip, mais je ne suis pas s�r que ce lien est valable pour plus de long). Veuillez remplir ce formulaire (https://forms.illinois.edu/sec/1713398), votre e-mail recevra un lien de t�l�chargement. Extraire le fichier zip dans le r�pertoire avec le portable dossier � Flicker8k_Dataset �. Vous devez �galement ( T�l�charger description d'ici et de l'extrait d�crit dans le dossier fichier � caption_datasets �.

mod�le

Description de l'image se compose g�n�ralement de deux �l�ments:

a) un codeur d'image (capteur d'image), qui re�oit l'image d'entr�e et l'image est repr�sent�e dans une description significative du format d'image;

b) ledit d�codeur figure (de d�codeur de sous-titres), qui re�oit la repr�sentation d'image, et d�livre en sortie le texte descriptif.

Un codeur d'image en profondeur un r�seau de convolution, et la Fig ledit d�codeur est un LSTM classique / GRU r�currentes Neural Networks. Bien s�r, nous pouvons les former � partir de z�ro. Mais pour cela, nous avons besoin de plus de nos existants (8k images) plus de donn�es et plus de temps de formation. Par cons�quent, nous ne partons pas de codeur d'image de formation de z�ro, mais l'utilisation d'une image classificateur pr�-formation et l'utiliser pour activer l'avant-derni�re couche.

Vous verrez de nombreux spectacles merveilleux exemple dans cet article, ce qui suit est le premier exemple. Je l'avais utilis� sur IMAGEnet formation disponibles sur le r�seau de cr�ation de PyTorch � image classer 100 cat�gories, et utiliser le r�seau pour contribuer au cycle peut indiquer un r�seau de neurones.

via https://daniel.lasiman.com/post/image-captioning/

Il est � noter que, bien que le r�seau Inception n'a jamais dit des t�ches de g�n�ration effectu�es carte de formation, mais il a fait le travail!

Comme je l'ai fait la formation d'apprentissage apprentissage automatique de la machine dans l'id�e d'un texte, nous utilisons un mod�le de langage pr�-form� comme d�codeur L�gende. Mais cette fois-ci, parce que je r�impl�menter un bon mod�le pour ex�cuter le tutoriel, il suffit de suivre les �tapes d�crites dans le tutoriel va commencer la formation � partir de z�ro un d�codeur.

l'architecture compl�te du mod�le comme indiqu� ci-dessous:

Image via https://daniel.lasiman.com/post/image-captioning/

Vous pouvez commencer mod�le de formation � partir de z�ro, mais vous devrez passer quelques jours sur le temps CPU (je ne dois pas �tre optimis� GPU). Mais ne vous inqui�tez pas, mon mod�le d'ordinateur portable a pass� plusieurs nuits sans sommeil r�sultat form�, disponible pour tout le monde � utiliser. (Si vous �tes � partir de la formation de z�ro, il convient de noter que la perte moyenne d'environ 2,8 � courir quand je me suis arr�t� la formation dans environ 40 �poques o�.)

performance

Faisceau recherche je m�thode (recherche de faisceau) pour obtenir une bonne performance. Ce qui suit est un r�seau centralis� pour tester la carte d'image g�n�r�e cet exemple (r�seau avait jamais vu ces images).

Utilisez mes propres photos pour essayer de voir ce que la carte r�seau qui est g�n�r�:

De bons r�sultats! Impressionnant est que le r�seau conna�t cette image un homme v�tu d'un T-shirt blanc. Et bien que certains disent erreur de syntaxe Figure de la phrase (je crois que plus de formation peut corriger ces erreurs), mais les �l�ments de base sont pris.

Si l'image d'entr�e contient quelque chose de jamais vu dans le r�seau, il a tendance � l'�chec. Par exemple, je suis curieux de savoir quel type de r�seau d'images d'�tiquette donnera iPhone X appos�.

L'effet est pas tr�s bon. Mais dans l'ensemble, je suis tr�s satisfait de ses performances, ce qui est quand nous apprenons � g�n�rer la figure que l'utilisation du r�seau d�velopp� � express � pour construire d'autres caract�ristiques offrent une bonne base.

Partie II: Mots similaires

Rappelez-vous comment nous sommes dit par le diagramme d'images montrant d�cod�. Nous repr�sentons ceci est fourni au r�seau LSTM / GRU, pour g�n�rer une sortie, la sortie sera interpr�t� comme le premier mot, puis revient au premier mot dans un r�seau pour g�n�rer un second mot. Ce processus continue de g�n�rer un r�seau repr�sente une marque sp�ciale jusqu'� la fin d'une phrase.

Pour le mot de retour au r�seau, il faut convertir le mot moyen, puis entrer dans le r�seau. Cela signifie que si la couche d'entr�e contient 300 neurones, puis pour plus de 8000 mots diff�rents pour ne pas dire tous les chiffres, nous devons avoir un mot que seules des num�ros � 300 �. Le processus de conversion dans un dictionnaire de mots de repr�sentation num�rique, le mot est appel� incorpor� (ou des mots repr�sent�s).

Nous pouvons t�l�charger et utiliser des mots existants int�gr�s, tels que word2vec ou Glove. Mais dans ce cas, nous devons apprendre � partir de z�ro un mot int�gr�. Nous partons du mot g�n�r� au hasard ins�rent des, et explorer notre r�seau � la fin de la formation appris quelque chose du mot.

Impossible d'imaginer un espace tridimensionnel num�rique 100, nous allons utiliser une technique appel�e la magie t-SNE apprendra des mots int�gr�s dans la visualisation spatiale � deux dimensions. t-SNE est une technique de r�duction de dimension qui tente de rendre le quartier de l'espace de grande dimension devrait le m�me quartier dans l'espace � faible dimension.

mot de visualisation int�gr�

Le regard de d�posons sur la figure d�codeur a appris � dire le mot de l'espace d'encastrement (contrairement � d'autres t�ches linguistiques en millions de mots et de phrases, notre d�codeur dans l'ensemble des donn�es de formation ne peut voir environ 30000 phrases).

Par cons�quent, nous avons appris que le r�seau comme � jeu �, des mots tels que � joue � et � jeu � est tr�s similaire (ils ont une repr�sentation similaire, des grappes denses, comme indiqu� par la fl�che rouge). Le regard de d�posons sur une autre zone de l'espace � deux dimensions:

Cette zone semble avoir un tas de chiffres - � deux �, � trois �, � quatre �, � cinq � et ainsi de suite. Un autre regard:

La figure, il sait que � les gens � et � enfants � ces deux mots sont similaires. De plus, il en d�duire implicitement la forme de l'objet.

mots similaires

Nous pouvons utiliser pour construire une repr�sentation 100 dimensions d'une fonction qui peut trouver et saisir le mot mots les plus semblables. Il fonctionne tr�s simple: une repr�sentation 100 dimensions, et trouvent similitude avec la base de donn�es et tous les autres cosinus mots.

look Let au � gar�on � la plupart des mots similaires:

Un bon r�sultat. En plus du � Rider �, mais les � enfants �, � enfant � et � enfant en bas �ge � sont corrects.

Ce r�seau consid�r� comme � courir apr�s � des mots similaires sont:

� Poursuites � est compr�hensible, mais je me demande pourquoi il est consid�r� comme � police � et � chasser � semblable.

analogie Word (analogies Word)

Les faits sur le mot int�gr� dans un excitant, vous pouvez calculer le calcul pour eux. Vous pouvez soustraire eux est repr�sent� pour obtenir une direction par deux mots (comme � roi � et � reine �). Lorsque vous mettez dans cette direction est appliqu�e � une autre repr�sentation de texte (tel que � l'homme �), vous obtiendrez une vraie analogie avec le mot (comme � femme �) est une repr�sentation tr�s proche. Voil� pourquoi word2vec par l'introduction de si populaire:

via https://www.tensorflow.org/images/linear-relationships.png

Je suis curieux d'apprendre par tirage au d�codeur pour indiquer si une propri�t� similaire. Bien que les donn�es de formation ne sont pas grandes (environ 30000 phrases) Je suis sceptique sur les r�sultats, mais je l'ai essay�.

R�seau appris l'analogie n'est pas parfait (en raison du nombre d'occurrences de mots �crits sur certains <10 fois, de sorte que le r�seau ne soit pas suffisamment d'informations disponibles pour apprendre). Dans ce cas, je dois regarder attentivement, mais a constat� qu'il ya des analogies.

Si la � correspond circonscription � � � assis �, puis � marche � correspond � quoi? R�seau pense qu'il devrait �tre � pose � (Ce r�sultat est pas mal!)

De m�me, si une pluralit� de � l'homme � est � hommes �, le pluriel � femme � devrait �tre c'est-il:

Le deuxi�me r�sultat est � femmes � tout � fait bonne.

Enfin, si la � herbe � correspondant au � vert �, puis � ciel � ce qui lui correspond:

R�seau croit � ciel � correspondant � la � argent � ou � grise �, bien que le r�sultat ne semble � bleu �, mais il donne des r�sultats sont des mots de couleur. �tonnamment, le r�seau peut �galement en d�duire la direction de la couleur.

Partie III: image similaire

Si le mot pour les mots similaires group�s ensemble, la repr�sentation d'image (prise en charge de lancement sortie du codeur d'image) il? J'utilise la m�me technique est appliqu�e � repr�sentation d'image t-END (-dire la premi�re �tape du d�codeur 300 en tant que dimension d'entr�e dans tenseur figure).

visualisation

Ces points sont une repr�sentation diff�rente de l'image (je n'ai pas utilis� toute l'image 8K, seulement environ 100 �chantillons d'image). Les fl�ches rouges pointent � se regrouper pr�s d'un groupe repr�sent�.

images de course sont regroup�es ensemble.

Les enfants des images de jeu for�t / prairie seront regroup�s.

L'image des joueurs de basket-ball sont �galement regroup�s ensemble.

Trouver image d'entr�e similaire

Trouver des mots similaires pour la t�che, nous avons limit� � trouver des mots similaires dans le vocabulaire du jeu de test (Si le jeu de test n'existe pas un mot, notre point de vue dudit d�codeur ne sera pas apprendre � int�grer le mot). Cependant, pour t�che d'images similaires, nous avons un g�n�rateur de repr�sentation d'image, qui peut recevoir toute entr�e et g�n�re son image de codage.

Cela signifie que nous pouvons construire une fonction de recherche en utilisant la similarit� cosinus m�thode d'image, comme suit:

Etape 1: Obtenir toute la base de donn�es d'image ou le dossier cible, et des repr�sentations de ceux-ci stocke (repr�sent� par un d�codeur d'image est donn�e);

�tape 2: Lorsque l'utilisateur souhaite rechercher les plus semblables � l'image existante peut repr�senter une nouvelle image d'entr�e et de trouver l'image la plus proche (donn�e par la base de donn�es de similarit� cosinus) dans la base de donn�es.

Google image peut �tre utiliser officiellement ce (ou similaire) m�thode pour soutenir sa fonction de recherche d'image invers�e.

Voyons voir comment ce r�seau fonctionne. Je clique sur ce vacances � Goa quand je tir� la photo ci-dessous. (PS: J'adore Goa!)

Notez que cette image est le mien, et le mod�le que nous avons utilis� avait jamais vu cette image. Quand je v�rifie des images similaires de sortie de jeu de donn�es r�seau Flickr8K image suivante:

Il ne ressemble pas? Je ne pensais pas que ce mod�le aura une bonne performance, mais il fait vraiment! La profondeur du r�seau de neurones est fantastique! (Https://www.youtube.com/watch?v=Y-WgVcWQYs4)

Partie IV: recherche d'images en d�crivant

Dans la derni�re partie, nous courrons en sens inverse le g�n�rateur illustr�. Par cons�quent, nous ne recevons pas l'image et g�n�re une carte pour cela, mais SAISIR DITES (description du texte) pour trouver l'image avec la meilleure correspondance.

Il semble beau pour �tre vrai? Bien s�r, vous pouvez croire! Nous faisons ceci:

�tape 1: Tout d'abord, l'entr�e est un tenseur de dimension compl�tement al�atoire 300, plut�t que d'une repr�sentation d'image 300 dimensions du codeur;
Etape 2: geler toutes les couches de l'ensemble du r�seau (par exemple, pas pour guider le calcul de gradient PyTorch);
Etape 3: En supposant tenseur entr�e g�n�r�s au hasard par le codeur d'image qui est entr� dans ledit d�codeur de la figure;
Etape 4: Acc�der au r�seau g�n�re une temporisation al�atoire ladite entr�e et ladite figure utilisateur muni on compare la figure;
Etape 5: comparaison de la g�n�r�e et fournie par l'utilisateur par exemple Diagramme de la figure, � la fois calcul� et il y a une perte;
Etape 6: les gradients de find de tenseurs d'entr�e, de minimiser les pertes (par exemple, chaque valeur num�rique dans quelle direction et 300 le nombre de dimensions doivent �tre chang�s beaucoup, alors que le tenseur est entr� dans la figure ledit d�codeur, la figure audit utilisateur fourni la carte que pr�s);
Etape 7: Le changement de la direction du tenseur de gradient d'entr�e (le taux d'apprentissage est donn�e � un petit pas);
Continuer les �tapes 4 � 7, jusqu'� ce que la convergence ou lorsque la perte est inf�rieur � un certain seuil
Etape finale: prendre le tenseur d'entr�e final, et utiliser sa valeur pour trouver le plus proche des images de similarit� (300 � arpenter la repr�sentation dimensionnelle) par le cosinus;

Ce faisant, nous obtenons les r�sultats tout � fait �tonnante:

Je recherchais � un chien, � Ceci est l'image du r�seau trouv�:

Recherche � un gar�on souriant �:

Enfin, quand je recherche:

Les deux premiers r�sultats sont les suivants:

C'est vraiment une r�v�lation, non?

R�sum� et d�fis

Pour rappel, vous pouvez t�l�charger le code complet pour toutes ces op�rations de mon d�p�t Github (https://github.com/paraschopra/one-network-many-uses) dans. Le r�f�rentiel comprend un mod�le de donn�es de pr�-traitement figure d�crit, g�n�rer ledit r�seau pr�-formation, le code visuel, mais ne comprend pas Flickr8K figure ledit ensemble de donn�es ou - la n�cessit� de t�l�charger s�par�ment (https://forms.illinois.edu/ sec / 1713398).

J'esp�re que vous avez appr�ci� cet article. Si vous voulez plus en profondeur de fonctionnement pratique, il y a un d�fi: pour g�n�rer une image bas�e sur la description donn�e. C'est comme un point de d�part al�atoire est de g�n�rer une carte qui fournit � l'utilisateur une repr�sentation 300 dimensions de la m�me image correspondant, mais vous pouvez aller plus loin, � partir de z�ro pour fournir aux utilisateurs une carte qui g�n�re l'image il?

Ceci est 10 fois plus dur que l'op�ration de l'article, mais je me sens que cela est possible. S'il y a un service d'un tel, il ne peut pas seulement rechercher l'image correspondant au texte et les images peuvent �tre g�n�r�es dynamiquement, que plus fra�che est!

� l'avenir, si les images de Google pour obtenir cette fonctionnalit�, et peuvent fournir des r�sultats pour l'image qu'ils n'existent pas (comme � deux licorne volante dans la pizza faite tapis �), je ne serais pas surpris.

C'est tout. J'esp�re que vous serez en mesure de � repr�senter � la s�curit� du monde, mais nager avec bonheur dans.

via: https: r�seau //towardsdatascience.com/one-neural-network-many-uses-image-captioning-image-search-similar-image-and-words-in-one-model-1e22080ce73d Lei Feng compil� AI Technology Review

Route de la soie

Apprenez � conna�tre la Chine