AI faire le commentateur sportif? Shanghai Jiaotong University papier CVPR propose un mod�le � grain fin de description vid�o

La saison estivale de cette ann�e est passionnant. NBA la chaleur r�siduelle n'a pas encore dispers�s marquera le d�but dans un autre �v�nement sportif - la Coupe du Monde. Nous accompagnons une montre passionnante un jeu, en plus des athl�tes d�sesp�r�ment sur le terrain, dans les mains de poulet frit et de la bi�re, il y a un r�le particulier - commentateur sportif.

commentaire merveilleux peut inspirer l'int�r�t du public, tir�e par les �motions d'un spectateur, des points suppl�mentaires pour l'ensemble du jeu. Est-il possible de permettre � la machine d'entreprendre cette t�che, il est devenu commentateur sportif? recherche de l'Universit� de Shanghai Jiaotong vraiment fait de l'intelligence artificielle de d�crocha le t�l�phone. Ils ont men� des recherches d�crites dans la vid�o � grains fins vid�o sport (� grains fins Vid�o Sous-titrage pour les sports Narrative), mis en place un nouvel ensemble de donn�es, a propos� un nouveau m�canisme d'�valuation et le mod�le. � l'heure actuelle, ce travail a �t� inclus CVPR2018.

Carte | Assembl�e CVPR (Figure source: CVPR)

CVPR (Conf�rence IEEE sur Vision par ordinateur et reconnaissance, Conf�rence internationale sur la vision par ordinateur et reconnaissance) est une conf�rence de haut niveau sur la vision par ordinateur et reconnaissance de formes organis� par l'IEEE. R�union tenue cette ann�e le 18 Juin � 22 � Salt Lake City, Utah. Cette ann�e, CVPR a re�u un total de plus de 3300 articles, recevant 979

Ces derni�res ann�es, en d�pit de nouvelles m�thodes et mod�les de champ de description vid�o apr�s l'autre, la description grain fin est g�n�r� automatiquement pour la vid�o est toujours un probl�me, par exemple, entre les diff�rents individus et leurs actions de description d�taill�e fr�quemment Interact. Mouvement vid�o est une tr�s bonne description des applications vid�o � grains fins, notamment le basket-ball, sport d'�quipe de football comme celui-ci.

Carte | t�ches vid�o Description vid�o traditionnelle et description fine de la t�che. Description de la vid�o contient plus de d�tails sur les r�sultats de grains fins et de l'interaction.

t�che de description traditionnelle vid�o ne peut �tre d�crit le contenu vid�o � partir d'un point de vue macro, par exemple, � la vid�o dans un groupe de personnes qui jouent au football. � La description vid�o contient une description plus fine des grains fins des actions individuelles et les interactions entre eux. Par exemple, � Un homme a pass� le ballon � ses co�quipiers, ses co�quipiers passent le ballon au-dessus du d�fenseur et dunk. �

Dans le basket-ball vid�o, jeu vid�o de football comme celui-ci contient plusieurs interactions des individus, la nature � grains fins de description de la vid�o est de cartographier la vid�o spatiale et temporelle dans plusieurs �v�nements sur plusieurs phrase li�es entre elles. La t�che face � deux d�fis. Tout d'abord, l'�quipe a beaucoup de corps de relations complexes (avant, arri�re), ainsi que la posture offensive et d�fensive et la position en �volution rapide. Pour localiser avec pr�cision la position de chaque individu et de d�terminer leur r�le et leur fonction est tr�s difficile. D'autre part, certaines actions et interactions importantes entre les individus peuvent �tre tr�s subtiles, la d�tection de gros grains traditionnels de ces actions ne peut �tre trouv�. Cela n�cessite un mouvement macroscopique du corps humain, le mouvement du squelette et une mod�lisation pr�cise des interactions entre les individus.

Pour r�soudre ces probl�mes, les chercheurs ont �tabli le mod�le de structure de circulation hi�rarchiquement group�es, mod�lisation grains fins du positionnement espace-temps physique et le mouvement et le comportement d'interaction. L'architecture de r�seau se compose de trois parties:

Lieu et heure et entit� spatiale r�le sous-r�seaux miniers: la d�termination des joueurs de position et de r�le.

mod�lisation de mouvement � grains fins sous-r�seaux: d�crire l'emplacement des os et la transformation du mouvement rapide.

Un ensemble de sous-r�seaux de mod�lisation relationnelle: mod�liser la relation entre les athl�tes.

Enfin, le mod�le de r�seau avec deux ensemble de LSTM dispose de ce qui pr�c�de trois sous-r�seau, la g�n�ration d'un vecteur de caract�ristique. Le recyclage d'une bi-directionnel codec bas� sur le d�crit vecteur caract�ristique la g�n�ration du langage naturel.

Plan | Sch�ma de la structure du mod�le

Les chercheurs ont mis au point une nouvelle s�rie de donn�es FSN (Sport grain fin jeu de donn�es narrative, jeu de donn�es de commentaires sport � grain fine) r�soudre ce probl�me, il est un groupe de jeu de donn�es de description vid�o de mouvement. Ils ont d'abord r�unis 50 vid�o haute d�finition des jeux NBA sur YouTube, et seront divis�s en segments 6000. Ensuite, supprimer un court et de mauvaise qualit�, les fragments s�lectionn�s comprennent 2000 pour �tablir une vari�t� de fonctionnement d�taill� de l'ensemble de donn�es. Vid�o ont �t� marqu�es selon le commentaire de basket-ball de fa�on. �tiquette comprenant deux parties, et chaque description d�crit les heures de d�but et de fin. D�crit en partie par une pluralit� de phrases, chaque phrase pour une action d'un sujet, une vid�o correspondant � de petits fragments, des fragments plus petits qui se chevauchent les uns les autres. Une attention particuli�re � l'action principale est que l'ensemble des donn�es significativement diff�rentes des ensembles de donn�es pr�c�dentes. Enfin, l'ensemble de donn�es comprenant un clip vid�o 2000, 6520 phrases. 3,16 phrases moyenne chaque segment vid�o, 29.7 mots descriptifs.

Figure | comparaison des donn�es de densit� de phrase, la densit� de l'ensemble du verbe. La plupart de l'action d�crite plus d�taill�e FSN

�tant donn� que les m�thodes d'�valuation existantes ne sont pas applicables en la mati�re, les chercheurs ont �galement propos� un nouvel indice d'�valuation FCE (� grains fins d'�valuation Description Captioning grains fins d'�valuation). La m�thode d'�valuation de la qualit� en tenant compte non seulement les descriptions verbales, en tenant compte de l'op�ration cl�, et si l'ordre est bien d�termin� de celui-ci.

FSN chercheurs premier ensemble de donn�es sur la capacit� de g�n�rer un mod�le � grains fins d�crites ont �t� �valu�s. Les chercheurs ont compar� non seulement, mais aussi les diff�rents modules du nouveau mod�le pour explorer la suppression de leurs effets sur les diff�rents ensembles de donn�es sur le nouveau mod�le et le mod�le a obtenu de bons r�sultats. Afin de rendre les r�sultats plus convaincants, l'�valuation humaine qui a �galement �t� pr�sent� comme une r�f�rence.

FIG | r�sultats: fraction de chaque mod�le de cidre-D (C), METEOR (M), Bleu (B), Rouge-L (R), SPICE (S) et FCE (F) a. donn�es bleu repr�sente la variation relative des donn�es sur les r�sultats du jeu de jeu de donn�es METEOR FCE, ont �galement montr� significativement r�duit la difficult� de la description � grains fins.

Les r�sultats peuvent �tre vus de mod�le LSTM-YT est le pire, en raison de sa structure du mod�le qu'il a perdu beaucoup d'informations importantes. Par rapport au mod�le participant � l'exp�rience, le nouveau mod�le peut g�n�rer une description plus d�taill�e, les diverses t�ches ont obtenu les meilleurs r�sultats.

Carte | commentaire exemple de r�sultat sportif: R�f�rence: Commentaire de r�f�rence, mod�le complet: nouveau mod�le complet

Sans DE: ne pas utiliser le flux optique (identifier les mouvements subtils de la cl�) Sans TF: ne pas utiliser le logo de l'�quipe (faire la distinction entre les joueurs et les adversaires)

Comme on peut le voir sur la figure de l'�chantillon, le mod�le g�n�r� a d�crit un plus pr�cis. Toutefois, pour devenir un bon narrateur, seulement capable de d�crire avec pr�cision chaque action ne suffit pas. Elle exige �galement une mine de connaissances pour remplir les d�tails, en tant que spectateurs Ariadne (quatri�me exemple, le mod�le d�crit la figure d'action de but, mais ne d�crit pas que c'est un trois points). Elle exige �galement la langue distinctive humoristique,, a conduit les �motions du public. C'est un excellent narrateur avec des qualit�s humaines.

Mais il y a aussi un d�faut �vident narrateur humain, il ne peut prendre soin d'un niveau de l'auditoire, pour diff�rents groupes de fans sup�rieurs, juste pour commencer, il est difficile d'�quilibrer les besoins de ce blanc. Si la machine peut assumer la t�che d'interpr�tation, il peut �tre personnalis� en fonction des caract�ristiques de chaque personne et doit r�soudre dit. Nous pouvons nous attendre le lendemain, l'intelligence artificielle peut �tre utilis� comme commentateur exclusif commentaire sur mesure pour nous, de nous accompagner pour regarder ensemble.

Route de la soie

Apprenez � conna�tre la Chine

AI faire le commentateur sportif? Shanghai Jiaotong University papier CVPR propose un mod�le � grain fin de description vid�o