Comment utiliser l'attention g�n�r�e description du mod�le d'image?

Note de r�seau Lei Feng: Cet article est une compilation de technologie blog AI Yanxishe, l'image de titre original Sous-titrage avec attention

Traduction | Liu Jiao finition | Yuhang

Image Description type de t�che est de donner � l'image un titre est g�n�r�. �tant donn� une image:

Photo licence Source: Domaine public

Notre objectif est d'utiliser un mot pour d�crire l'image, comme � un internaute surfe. � Ce tutoriel utilise un mod�le bas� sur l'attention, il nous fait voir tr�s visuellement ce qui est g�n�r� lorsque le texte du mod�le sera pr�occup�.

Ce mod�le est similaire � la structure de la th�se: Show, assistez et Tell: Image Neural L�gende G�n�ration avec Visual Attention.

Le code de ce tutoriel pour l'utilisation et l'ex�cution tf.keras d�sireux de ces deux outils, il existe des liens vers des contenus d�taill�s peuvent apprendre.

Cela montre un mod�le bloc-notes de fin. Lors de son ex�cution, il t�l�chargera automatiquement ensemble de donn�es MS-COCO, en utilisant un mod�le de formation codeur Inception V3 - d�codeur et la nouvelle image avec le mod�le d�crit dans le texte.

Ce code peut �tre ex�cut� en Colab, mais il a besoin de la version tensorflow > = 1,9

Apr�s cette exp�rience, les donn�es de l'ancien perturb� 30000 d�crit comme un ensemble de formation, ce qui correspond � 20.000 images (images peuvent contenir plus d'une description). La quantit� de formation mod�le de donn�es est relativement faible, il a suffi d'un GPU P100, mod�le de train prend environ deux heures.

T�l�charger MS-jeux de donn�es COCO

jeu de donn�es MS-COCO contient 82.000 images, chaque image sont au moins cinq Description textuelle. Le code suivant sera automatiquement t�l�charg� et d�compress� donn�es au moment de l'ex�cution.

Note: L'avance t�l�charger une bonne donn�es, la taille du fichier de donn�es 13GB.

Le choix si vous souhaitez compresser la taille de l'ensemble de la formation pour r�duire le temps de formation

Ce tutoriel d�crit la s�lection 30000 et leurs images correspondant � mod�le de train, mais quand plus de donn�es, la qualit� des r�sultats exp�rimentaux g�n�ralement am�lior�e.

L'image de pr�-traitement commencements

Cette �tape n�cessite l'utilisation de InceptionV3 (le mod�le form� IMAGEnet) pour chaque Classifier d'image et fonctions extrait de la derni�re couche de convolution.

Tout d'abord, nous devons convertir le format d'image inceptionV3 besoin:

La taille de l'image fixe � (299, 299);

Utilisation fonction preprocess_input pour r�gler le pixel dans une plage de -1 � 1 (pour correspondre au format d'entr�e inceptionV3).

poids pr�formation initialisation InceptionV3 & ret�l�chargement IMAGEnet

Lorsque InceptionV3 la derni�re couche comme une convolution de la couche de sortie, besoin de cr�er un mod�le keras

Envoie l'image d'entr�e trait� par le r�seau de neurones, et extraire le vecteur obtenu dans la derni�re couche est enregistr� dans un format de dictionnaire (nom figure en tant que caract�ristique d'image - > �vecteur caract�ristique);

La s�lection d'un but de la couche de convolution est de faire un meilleur usage des m�canismes attentionnels, et la taille des donn�es de la couche de sortie est 8x8x2048;

......

Vous voulez continuer � lire, s'il vous pla�t passer � notre communaut� AI Yanxishe: https: //club.leiphone.com/page/TextTranslation/628

Plus de contenu passionnant de faire l'IA Yanxishe.

Les diff�rents domaines, y compris la vision par ordinateur, la s�mantique de la parole, la cha�ne de blocs, pilote automatique, l'exploration de donn�es, le contr�le intelligent, langages de programmation et d'autres mises � jour quotidiennement.

Bout du t�l�phone peut scanner le code � deux dimensions d'acc�s:

Lei Feng r�seau (num�ro public: Lei Feng r�seau) Lei Feng r�seau

Route de la soie

Apprenez � conna�tre la Chine

Comment utiliser l'attention g�n�r�e description du mod�le d'image?