AI faire le commentateur sportif? Shanghai Jiaotong University papier CVPR propose un modèle à grain fin de description vidéo

La saison estivale de cette année est passionnant. NBA la chaleur résiduelle n'a pas encore dispersés marquera le début dans un autre événement sportif - la Coupe du Monde. Nous accompagnons une montre passionnante un jeu, en plus des athlètes désespérément sur le terrain, dans les mains de poulet frit et de la bière, il y a un rôle particulier - commentateur sportif.

commentaire merveilleux peut inspirer l'intérêt du public, tirée par les émotions d'un spectateur, des points supplémentaires pour l'ensemble du jeu. Est-il possible de permettre à la machine d'entreprendre cette tâche, il est devenu commentateur sportif? recherche de l'Université de Shanghai Jiaotong vraiment fait de l'intelligence artificielle de décrocha le téléphone. Ils ont mené des recherches décrites dans la vidéo à grains fins vidéo sport (à grains fins Vidéo Sous-titrage pour les sports Narrative), mis en place un nouvel ensemble de données, a proposé un nouveau mécanisme d'évaluation et le modèle. À l'heure actuelle, ce travail a été inclus CVPR2018.

Carte | Assemblée CVPR (Figure source: CVPR)

CVPR (Conférence IEEE sur Vision par ordinateur et reconnaissance, Conférence internationale sur la vision par ordinateur et reconnaissance) est une conférence de haut niveau sur la vision par ordinateur et reconnaissance de formes organisé par l'IEEE. Réunion tenue cette année le 18 Juin à 22 à Salt Lake City, Utah. Cette année, CVPR a reçu un total de plus de 3300 articles, recevant 979

Ces dernières années, en dépit de nouvelles méthodes et modèles de champ de description vidéo après l'autre, la description grain fin est généré automatiquement pour la vidéo est toujours un problème, par exemple, entre les différents individus et leurs actions de description détaillée fréquemment Interact. Mouvement vidéo est une très bonne description des applications vidéo à grains fins, notamment le basket-ball, sport d'équipe de football comme celui-ci.

Carte | tâches vidéo Description vidéo traditionnelle et description fine de la tâche. Description de la vidéo contient plus de détails sur les résultats de grains fins et de l'interaction.

tâche de description traditionnelle vidéo ne peut être décrit le contenu vidéo à partir d'un point de vue macro, par exemple, « la vidéo dans un groupe de personnes qui jouent au football. » La description vidéo contient une description plus fine des grains fins des actions individuelles et les interactions entre eux. Par exemple, « Un homme a passé le ballon à ses coéquipiers, ses coéquipiers passent le ballon au-dessus du défenseur et dunk. »

Dans le basket-ball vidéo, jeu vidéo de football comme celui-ci contient plusieurs interactions des individus, la nature à grains fins de description de la vidéo est de cartographier la vidéo spatiale et temporelle dans plusieurs événements sur plusieurs phrase liées entre elles. La tâche face à deux défis. Tout d'abord, l'équipe a beaucoup de corps de relations complexes (avant, arrière), ainsi que la posture offensive et défensive et la position en évolution rapide. Pour localiser avec précision la position de chaque individu et de déterminer leur rôle et leur fonction est très difficile. D'autre part, certaines actions et interactions importantes entre les individus peuvent être très subtiles, la détection de gros grains traditionnels de ces actions ne peut être trouvé. Cela nécessite un mouvement macroscopique du corps humain, le mouvement du squelette et une modélisation précise des interactions entre les individus.

Pour résoudre ces problèmes, les chercheurs ont établi le modèle de structure de circulation hiérarchiquement groupées, modélisation grains fins du positionnement espace-temps physique et le mouvement et le comportement d'interaction. L'architecture de réseau se compose de trois parties:

  • Lieu et heure et entité spatiale rôle sous-réseaux miniers: la détermination des joueurs de position et de rôle.
  • modélisation de mouvement à grains fins sous-réseaux: décrire l'emplacement des os et la transformation du mouvement rapide.
  • Un ensemble de sous-réseaux de modélisation relationnelle: modéliser la relation entre les athlètes.
  • Enfin, le modèle de réseau avec deux ensemble de LSTM dispose de ce qui précède trois sous-réseau, la génération d'un vecteur de caractéristique. Le recyclage d'une bi-directionnel codec basé sur le décrit vecteur caractéristique la génération du langage naturel.

    Plan | Schéma de la structure du modèle

    Les chercheurs ont mis au point une nouvelle série de données FSN (Sport grain fin jeu de données narrative, jeu de données de commentaires sport à grain fine) résoudre ce problème, il est un groupe de jeu de données de description vidéo de mouvement. Ils ont d'abord réunis 50 vidéo haute définition des jeux NBA sur YouTube, et seront divisés en segments 6000. Ensuite, supprimer un court et de mauvaise qualité, les fragments sélectionnés comprennent 2000 pour établir une variété de fonctionnement détaillé de l'ensemble de données. Vidéo ont été marquées selon le commentaire de basket-ball de façon. Étiquette comprenant deux parties, et chaque description décrit les heures de début et de fin. Décrit en partie par une pluralité de phrases, chaque phrase pour une action d'un sujet, une vidéo correspondant à de petits fragments, des fragments plus petits qui se chevauchent les uns les autres. Une attention particulière à l'action principale est que l'ensemble des données significativement différentes des ensembles de données précédentes. Enfin, l'ensemble de données comprenant un clip vidéo 2000, 6520 phrases. 3,16 phrases moyenne chaque segment vidéo, 29.7 mots descriptifs.

    Figure | comparaison des données de densité de phrase, la densité de l'ensemble du verbe. La plupart de l'action décrite plus détaillée FSN

    Étant donné que les méthodes d'évaluation existantes ne sont pas applicables en la matière, les chercheurs ont également proposé un nouvel indice d'évaluation FCE (à grains fins d'évaluation Description Captioning grains fins d'évaluation). La méthode d'évaluation de la qualité en tenant compte non seulement les descriptions verbales, en tenant compte de l'opération clé, et si l'ordre est bien déterminé de celui-ci.

    FSN chercheurs premier ensemble de données sur la capacité de générer un modèle à grains fins décrites ont été évalués. Les chercheurs ont comparé non seulement, mais aussi les différents modules du nouveau modèle pour explorer la suppression de leurs effets sur les différents ensembles de données sur le nouveau modèle et le modèle a obtenu de bons résultats. Afin de rendre les résultats plus convaincants, l'évaluation humaine qui a également été présenté comme une référence.

    FIG | résultats: fraction de chaque modèle de cidre-D (C), METEOR (M), Bleu (B), Rouge-L (R), SPICE (S) et FCE (F) a. données bleu représente la variation relative des données sur les résultats du jeu de jeu de données METEOR FCE, ont également montré significativement réduit la difficulté de la description à grains fins.

    Les résultats peuvent être vus de modèle LSTM-YT est le pire, en raison de sa structure du modèle qu'il a perdu beaucoup d'informations importantes. Par rapport au modèle participant à l'expérience, le nouveau modèle peut générer une description plus détaillée, les diverses tâches ont obtenu les meilleurs résultats.

    Carte | commentaire exemple de résultat sportif: Référence: Commentaire de référence, modèle complet: nouveau modèle complet

    Sans DE: ne pas utiliser le flux optique (identifier les mouvements subtils de la clé) Sans TF: ne pas utiliser le logo de l'équipe (faire la distinction entre les joueurs et les adversaires)

    Comme on peut le voir sur la figure de l'échantillon, le modèle généré a décrit un plus précis. Toutefois, pour devenir un bon narrateur, seulement capable de décrire avec précision chaque action ne suffit pas. Elle exige également une mine de connaissances pour remplir les détails, en tant que spectateurs Ariadne (quatrième exemple, le modèle décrit la figure d'action de but, mais ne décrit pas que c'est un trois points). Elle exige également la langue distinctive humoristique,, a conduit les émotions du public. C'est un excellent narrateur avec des qualités humaines.

    Mais il y a aussi un défaut évident narrateur humain, il ne peut prendre soin d'un niveau de l'auditoire, pour différents groupes de fans supérieurs, juste pour commencer, il est difficile d'équilibrer les besoins de ce blanc. Si la machine peut assumer la tâche d'interprétation, il peut être personnalisé en fonction des caractéristiques de chaque personne et doit résoudre dit. Nous pouvons nous attendre le lendemain, l'intelligence artificielle peut être utilisé comme commentateur exclusif commentaire sur mesure pour nous, de nous accompagner pour regarder ensemble.

    East Lake neige, la beauté de la séance photo artistique de vêtements chinois
    Précédent
    Ici, les gens ne le font pas comme les pommes, alors pourquoi Cook a également eu l'idée?
    Prochain
    Les enfants passent 30000 classe de programmation Nouvelles, on m'a dit que 9 ans semble un peu tard! Capital « détourné » une autre fosse? (Basse)
    Les enfants passent 30000 classe de programmation Nouvelles, on m'a dit que 9 ans semble un peu tard! Capital « détourné » une autre fosse? (On)
    Musk est une voiture à moteur fusée équipé de la technologie, cent kilomètres en seulement 1,9 secondes succès?
    « Mlle Zhang Da » Hung: élite maintenant comment insupportable?
    Cette année, l'industrie peut faire face à un « shuffle »
    Jouez pour gagner l'équipe allemande! fans mexicains un piétinant, en secouant la terre vraiment secouent trois
    Venture subventions élevées | 1 fonds de démarrage Yi, Netease entrepreneurs chinois vous attend à la compétition
    Yang Liwei dans un message d'inspiration de l'électricité aux étudiants: comment allez-vous, comment la Chine
    Ma grand spectacle: ne se substitue pas avec l'acteur superstar!
    les chefs de l'industrie sont « pot jetés » Pourquoi diable Foxconn Fun « Industrial Internet »
    la gestion de plus grande erreur, est mal défini « excellent »!
    TripAdvisor a annoncé la liste des attractions touristiques 2018: Colisée premier