Note de réseau Lei Feng: Cet article est une compilation de technologie blog AI Yanxishe, l'image de titre original Sous-titrage avec attention
Traduction | Liu Jiao finition | Yuhang
Image Description type de tâche est de donner à l'image un titre est généré. Étant donné une image:
Photo licence Source: Domaine public
Notre objectif est d'utiliser un mot pour décrire l'image, comme « un internaute surfe. » Ce tutoriel utilise un modèle basé sur l'attention, il nous fait voir très visuellement ce qui est généré lorsque le texte du modèle sera préoccupé.
Ce modèle est similaire à la structure de la thèse: Show, assistez et Tell: Image Neural Légende Génération avec Visual Attention.
Le code de ce tutoriel pour l'utilisation et l'exécution tf.keras désireux de ces deux outils, il existe des liens vers des contenus détaillés peuvent apprendre.
Cela montre un modèle bloc-notes de fin. Lors de son exécution, il téléchargera automatiquement ensemble de données MS-COCO, en utilisant un modèle de formation codeur Inception V3 - décodeur et la nouvelle image avec le modèle décrit dans le texte.
Ce code peut être exécuté en Colab, mais il a besoin de la version tensorflow > = 1,9
Après cette expérience, les données de l'ancien perturbé 30000 décrit comme un ensemble de formation, ce qui correspond à 20.000 images (images peuvent contenir plus d'une description). La quantité de formation modèle de données est relativement faible, il a suffi d'un GPU P100, modèle de train prend environ deux heures.
Télécharger MS-jeux de données COCO
jeu de données MS-COCO contient 82.000 images, chaque image sont au moins cinq Description textuelle. Le code suivant sera automatiquement téléchargé et décompressé données au moment de l'exécution.
Note: L'avance télécharger une bonne données, la taille du fichier de données 13GB.
Le choix si vous souhaitez compresser la taille de l'ensemble de la formation pour réduire le temps de formation
Ce tutoriel décrit la sélection 30000 et leurs images correspondant à modèle de train, mais quand plus de données, la qualité des résultats expérimentaux généralement améliorée.
L'image de pré-traitement commencements
Cette étape nécessite l'utilisation de InceptionV3 (le modèle formé IMAGEnet) pour chaque Classifier d'image et fonctions extrait de la dernière couche de convolution.
Tout d'abord, nous devons convertir le format d'image inceptionV3 besoin:
La taille de l'image fixe à (299, 299);
Utilisation fonction preprocess_input pour régler le pixel dans une plage de -1 à 1 (pour correspondre au format d'entrée inceptionV3).
poids préformation initialisation InceptionV3 & retéléchargement IMAGEnet
Lorsque InceptionV3 la dernière couche comme une convolution de la couche de sortie, besoin de créer un modèle keras
Envoie l'image d'entrée traité par le réseau de neurones, et extraire le vecteur obtenu dans la dernière couche est enregistré dans un format de dictionnaire (nom figure en tant que caractéristique d'image - > vecteur caractéristique);
La sélection d'un but de la couche de convolution est de faire un meilleur usage des mécanismes attentionnels, et la taille des données de la couche de sortie est 8x8x2048;
......
Vous voulez continuer à lire, s'il vous plaît passer à notre communauté AI Yanxishe: https: //club.leiphone.com/page/TextTranslation/628
Plus de contenu passionnant de faire l'IA Yanxishe.
Les différents domaines, y compris la vision par ordinateur, la sémantique de la parole, la chaîne de blocs, pilote automatique, l'exploration de données, le contrôle intelligent, langages de programmation et d'autres mises à jour quotidiennement.
Bout du téléphone peut scanner le code à deux dimensions d'accès:
Lei Feng réseau (numéro public: Lei Feng réseau) Lei Feng réseau