Comment utiliser l'attention générée description du modèle d'image?

Note de réseau Lei Feng: Cet article est une compilation de technologie blog AI Yanxishe, l'image de titre original Sous-titrage avec attention

Traduction | Liu Jiao finition | Yuhang

Image Description type de tâche est de donner à l'image un titre est généré. Étant donné une image:

Photo licence Source: Domaine public

Notre objectif est d'utiliser un mot pour décrire l'image, comme « un internaute surfe. » Ce tutoriel utilise un modèle basé sur l'attention, il nous fait voir très visuellement ce qui est généré lorsque le texte du modèle sera préoccupé.

Ce modèle est similaire à la structure de la thèse: Show, assistez et Tell: Image Neural Légende Génération avec Visual Attention.

Le code de ce tutoriel pour l'utilisation et l'exécution tf.keras désireux de ces deux outils, il existe des liens vers des contenus détaillés peuvent apprendre.

Cela montre un modèle bloc-notes de fin. Lors de son exécution, il téléchargera automatiquement ensemble de données MS-COCO, en utilisant un modèle de formation codeur Inception V3 - décodeur et la nouvelle image avec le modèle décrit dans le texte.

Ce code peut être exécuté en Colab, mais il a besoin de la version tensorflow > = 1,9

Après cette expérience, les données de l'ancien perturbé 30000 décrit comme un ensemble de formation, ce qui correspond à 20.000 images (images peuvent contenir plus d'une description). La quantité de formation modèle de données est relativement faible, il a suffi d'un GPU P100, modèle de train prend environ deux heures.

Télécharger MS-jeux de données COCO

jeu de données MS-COCO contient 82.000 images, chaque image sont au moins cinq Description textuelle. Le code suivant sera automatiquement téléchargé et décompressé données au moment de l'exécution.

Note: L'avance télécharger une bonne données, la taille du fichier de données 13GB.

Le choix si vous souhaitez compresser la taille de l'ensemble de la formation pour réduire le temps de formation

Ce tutoriel décrit la sélection 30000 et leurs images correspondant à modèle de train, mais quand plus de données, la qualité des résultats expérimentaux généralement améliorée.

L'image de pré-traitement commencements

Cette étape nécessite l'utilisation de InceptionV3 (le modèle formé IMAGEnet) pour chaque Classifier d'image et fonctions extrait de la dernière couche de convolution.

Tout d'abord, nous devons convertir le format d'image inceptionV3 besoin:

La taille de l'image fixe à (299, 299);

Utilisation fonction preprocess_input pour régler le pixel dans une plage de -1 à 1 (pour correspondre au format d'entrée inceptionV3).

poids préformation initialisation InceptionV3 & retéléchargement IMAGEnet

Lorsque InceptionV3 la dernière couche comme une convolution de la couche de sortie, besoin de créer un modèle keras

Envoie l'image d'entrée traité par le réseau de neurones, et extraire le vecteur obtenu dans la dernière couche est enregistré dans un format de dictionnaire (nom figure en tant que caractéristique d'image - >  vecteur caractéristique);

La sélection d'un but de la couche de convolution est de faire un meilleur usage des mécanismes attentionnels, et la taille des données de la couche de sortie est 8x8x2048;

......

Vous voulez continuer à lire, s'il vous plaît passer à notre communauté AI Yanxishe: https: //club.leiphone.com/page/TextTranslation/628

Plus de contenu passionnant de faire l'IA Yanxishe.

Les différents domaines, y compris la vision par ordinateur, la sémantique de la parole, la chaîne de blocs, pilote automatique, l'exploration de données, le contrôle intelligent, langages de programmation et d'autres mises à jour quotidiennement.

Bout du téléphone peut scanner le code à deux dimensions d'accès:

Lei Feng réseau (numéro public: Lei Feng réseau) Lei Feng réseau

Magic Speed Beiqi nouvel espion SUV ou une version transfrontalière maquette vitesse S6
Précédent
série Apple iPad de bas-clé mise à jour deux nouveaux produits, les nouveaux mini-break rumeurs abandonnées!
Prochain
« Escape Chambre des Secrets » public ouvert sans précédent scandé plaisir chaud
OPPO R11 gobelins ont frappé la couleur briller édition limitée Beat Street Barcelone
Black Shark 2 jeu téléphone mobile contre la iQOO avant, accessoires en élargissant l'expérience de jeu!
La nouvelle version de la transmission automatique convertible officielle Mustang prendre 10 vitesses de la figure.
AR guides d'ondes optiques peuvent l'enregistrer? - Dialogue chatoiement Yu Zheng PDG consonnance
Redmi 7 gamme complète d'apparence collective, sans peur ultime des coûts!
« Forêt Romance » est agressivement thème Floor les activités en cours
De la production de masse à l'expérience, 8K projecteur Comment loin de nous?
Mettre l'accent la nouvelle saison de Super League | cérémonie de lancement de Chongqing Swift tenue dans la nouvelle saison de Super League, l'équipe de chapitre JIANG sera position plus compétitive
Compte à rebours 3 jours | Danemark Piège SNAVS les plus forts visiteront Shanghai
Jed total de 6 nouveaux modèles de configuration, à la fin qui est le plus de la valeur d'achat?
Le riz rouge Note7 réservations à l'avance Pro, un dépôt remboursable pour confirmer Lu Wei Bing!