handicap�es Microsoft Research Asia Mei Taobo: la machine peut comprendre la vid�o, mais aussi aux "critiques"

Lei Feng r�seau par AI Technology Review 7 Juillet, l'intelligence artificielle et la robotique au sommet mondial tenu comme pr�vu � Shenzhen, organis� par le CCF, Lei Feng r�seau avec l'Universit� chinoise (Shenzhen) Hong Kong a accueilli la conf�rence a r�uni un total de plus de 30 AI de partout dans le monde scientifiques dans le domaine, pr�s de 300 entreprises AI �toiles. Lei Feng r�seau r�cemment lib�rera progressivement l'essence du contenu sur le dos du sommet aux lecteurs de Lei Feng r�seau de soutien � long terme!

Les invit�s de cette pr�sentation est chercheur principal au handicap Microsoft Research Asia Mei Taobo, partager le th�me du � cycle de vie du contenu vid�o: la cr�ation, la transformation et la consommation. �

handicap�es , Chercheur principal � Microsoft Research Asia, la reconnaissance des formes internationale Fellow, ACM scientifique �m�rite et professeur adjoint � l'Universit� chinoise de la technologie de doctorat Sun Yat-sen. Ses recherches portent notamment sur l'analyse multim�dia, la vision par ordinateur et l'apprentissage de la machine, a publi� plus de 100 (indice h 42), a remport� le prix du meilleur article 10 fois, avec plus de 40 brevets am�ricains et internationaux (18 autorisation), la recherche les r�sultats ont �t� transform�s avec succ�s dans une douzaine de produits et services Microsoft. Son �quipe de recherche travaille actuellement une compr�hension approfondie de la vid�o et des images, l'analyse et l'application. Il a �galement �t� IEEE Transactions et ACM sur le multim�dia (IEEE TMM et ACM TOMM) et le comit� de r�daction de la reconnaissance de motif (Pattern Recognition) et d'autres revues acad�miques, et le multim�dia sont un certain nombre de conf�rences internationales (telles que ACM Multimedia, IEEE CIME, IEEE MMSP, etc.) Pr�sident de l'Assembl�e g�n�rale et le Pr�sident du Comit� du programme. Il respectivement en 2001 et 2006, un baccalaur�at et un doctorat � l'Universit� chinoise des sciences et de la technologie.

Pourquoi le � contenu vid�o � ne partage le th�me?

Mei handicap�es Taobo de trois aspects ont parl� de la raison pour laquelle il voulait partager � contenu vid�o � sur ce sujet. Premi�re vid�o avec des informations d'image par rapport � plus riche, mais aussi plus difficile � traiter avec eux, d'autre part, domaine de la technologie de vision par ordinateur, comme la plus grande reconnaissance, le suivi des personnes et d'autres �tudes et du contenu vid�o sur Internet est la recherche relativement moins; Enfin, il a dit, a commenc� � faire des recherches sur le c�t� vid�o il y a dix ans, tout le monde dit que la vid�o est la prochaine sortie, aujourd'hui, il semble que cette affirmation est correcte.

Dans la tradition de la compr�hension visuelle (d'ici 2012) de la m�thode, les probl�mes visuels font essentiellement trois �tapes:

Tout d'abord, appr�ci� qu'un objet, tel qu'une table et l'identification, la d�tection d'une premi�re cl� (tels que les angles, les ar�tes, les faces, etc.);

En second lieu, artificiellement con�u pour d�crire certaines caract�ristiques des attributs visuels de ces points;

En troisi�me lieu, les caract�ristiques de conception de ces personnes utiliseront certains class�s comme la classification et l'entr�e de reconnaissance.

Et maintenant, la profondeur de l'apprentissage, surtout apr�s le d�but de l'ann�e 2012:

� Image Comprendre les taux d'erreur sont � la baisse, la profondeur du r�seau de neurones � partir de la premi�re couche de 8 � 20 couches, jusqu'� maintenant peut atteindre 152 niveau. Nos derniers spectacles de travail que la compr�hension de la profondeur vid�o du r�seau de neurones peut aussi �tre 3D � partir de 201511 couches de 199 couches de CNN font maintenant. "

discours aussi Shi Mei Taobo que le cycle de vie du contenu vid�o peut �tre � peu pr�s Divis� en trois parties, � savoir la cr�ation, la transformation et la consommation de la vid�o.

Cr�ation (cr�ation)

A propos de la fa�on de cr�er une vid�o, un handicap Mei Taobo � un concept de base. � La vid�o est produit une premi�re coupe une lentille vid�o, il peut �tre consid�r� comme une rupture d'un code, et chaque combinaison de la lentille, puis de faire une histoire ou d'un sc�nario, chaque lentille peut aussi �tre une att�nuation suppl�mentaire en sous-shots, chaque sous-objectif peut �tre repr�sent�e par une trame de cl� peut �tre section non-lin�aire du flux vid�o comme articles dans la structuration de tranchage de telle structure en couches qui est faite du traitement et l'analyse vid�o de base arri�re. par le pr�sent arrangement de la vid�o en unit�s diff�rentes, peut faire la vid�o summarization, � savoir un long clip vid�o est automatiquement courte vid�o excitante ou vid�o avec un long num�ro de cadre cl� repr�sentant tr�s visuel repr�sente. ceux-ci permettent un r�sum� de l'utilisateur nonlin�arit� sur la vid�o longue tourn�e rapide possible ".

Mei Shi Taobo dit que Microsoft a un r�sum� vid�o de la technologie utilis�e dans la recherche vid�o Bing, et maintenant il y a huit millions d'utilisateurs dans le monde entier par Bing appel� technique multi-pouce, peut rapidement un aper�u de chaque r�sultat de recherche vid�o.

Curation (traitement)

Lorsque l'utilisateur a la vid�o, les chercheurs ont besoin de faire est de marquer le clip vid�o, vous pouvez rechercher plus tard en fonction de l'�tiquette pour la recherche de contenu vid�o pour aller � l'int�rieur. � Nos travaux r�cents peuvent �tre marqu�s avec plus de 1000 �tiquettes statiques, et plus de 500 �tiquettes actions contenu vid�o. Nous avons con�u le P3D (pseudo resent 3D) est con�u sp�cifiquement pour la compr�hension du contenu vid�o et r�seau r�siduel 3D bien con�u. �

Ne le meilleur r�seau de neurones d'analyse d'image en profondeur est propos� Microsoft Research Asia en 2015, le r�seau r�siduel (ResNet) 152 couche, actuellement couche la plus profonde 1000 peut �tre fait. Mais dans le domaine vid�o, sp�cialement con�u pour la vid�o la plus efficace 3D CNN actuellement que 11 couches.

Pour r�soudre ce probl�me, Shi Mei Taobo a d�clar� l'�quipe des id�es r�cemment emprunt�s ResNet que la technologie 3D CNN que le nombre de couches 199, avant que le taux de reconnaissance peut �tre compar� sur les ensembles de donn�es UCF 101 augmentation 3D CNN 6-7 points de pourcentage. La technologie pour �tiqueter automatiquement la vid�o, il sera utilis� dans le service cloud Azure de Microsoft.

La technologie vid�o pour atteindre l'ext�rieur automatique d'�tiquettes, Mei Shi Taobo �galement d�crit l'�quipe � plus loin � la recherche: un langage naturel couramment paragraphe coh�rent, plut�t que seule �tiquette isol� pour d�crire un morceau de contenu vid�o.

� Par exemple, �tant donn� cette vid�o, nous pouvons g�n�rer un mot pour d�crire cette vid�o? Vid�o avant de dire que c'est une danse, je peux vous dire que c'est ce qu'un groupe de personnes sautant pour une danse, cette technique est appel�e Vid�o Sous-titrage (Vid�o instructions). cette technologie permet la g�n�ration automatique du titre vid�o est possible �.

Microsoft Research Asia utilisent actuellement cette technique dans l'�valuation de la fonction du robot de chat automatique, tel que Microsoft chiendent, lorsqu'un utilisateur t�l�charge une vid�o � chiendent, il louait l'autre. Apr�s un mois de cette ligne de la technologie, le nombre de fans chiendent dans une vid�o sur le site a augment� de 60%. Bien s�r, chiendent peut maintenant �crire de la po�sie moderne en fonction du contenu de l'image dans l'avenir, nous esp�rons pouvoir �crire des po�mes � partir de chiendent vid�o.

� Nous mettons �galement l'�dition vid�o, ajouter des filtres, le style ou faire la conversion, la nature m�me de la vid�o de dessin anim� vid�o des caract�res peut �tre segment� dans une autre sc�ne virtuelle pour aller � l'int�rieur. Vous pouvez imaginer , lorsque deux personnes tombent amoureux dans des endroits diff�rents, nous avons pu lui donner une pi�ce, les obtenir dans la m�me pi�ce, sous les �toiles, sur un chat calme dans un bateau sur le lac. de plus, nous pouvons �galement offrir des contes de services, de sorte que l'original, sans aucune modification et traitement de l'image, les collections vid�o deviennent tr�s attrayant, il y a un certain sens de la conception et de sens visuel de l'histoire, l'effet de cette machine de d�monstration vid�o est g�n�r� automatiquement. en plus artificielle le traitement, la vid�o peut devenir plus � la mode ".

Consommation (consommation)

est souvent �troitement li�es � la vid�o et de la publicit� � la consommation. Mei Tao mentionn�, pr�sentent les annonces vid�o ont deux probl�mes � r�soudre: La premi�re question porte sur ce que la publicit� dans la position de fin de la vid�o, la deuxi�me question est quel genre de publicit� �lectorale, le point d'insertion publicitaire avec les informations que vous n'�tes pas li�s, de sorte que l'acceptation par les utilisateurs encore mieux.

Leur solution consiste � d�composer la vid�o et calculer deux mesures, une discontinuit� (discontinue), une mesure du point d'insertion publicitaire si l'histoire continue, l'autre est l'attrait (attractif), une mesure de quelques-uns de la vid�o originale le contenu est merveilleux. Ces deux mesures en ligne avec diff�rentes combinaisons pour r�pondre aux annonceurs (annonceur) ou les besoins des utilisateurs (des spectateurs).

Enfin, Mei Tao a conclu, � faire des recherches dans les yeux, AI Ye Hao, Ye Hao apprentissage en profondeur, sol ont un long chemin � parcourir. � Bien que la vision par ordinateur a �t� mis au point depuis plus de 50 ans, bien que AI frit tr�s chaud, mais faire de la recherche scientifique et de la technologie, ou vers le bas sur la terre pour r�soudre une sc�ne et l'un des probl�me sous-jacent de base. �

Ce qui suit est le site Mei Taobo partager avec handicap Record, Lei Feng r�seau n'a pas chang� l'intention de finition et de r�daction

Je suis heureux de parler avec vous au sujet des zones de contenu vid�o. Pourquoi parler de contenu vid�o? Il y a trois raisons: La premi�re raison est l'image vid�o avec plus en profondeur de comparaison, la vid�o est quelque chose dans le domaine de l'information, la recherche sur la vid�o est un tr�s grand d�fi. La seconde est que nous voyons des progr�s dans le domaine de la vision, le visage humain, dans de nombreux aspects de la s�curit� sp�ciale, domaine vid�o pour nous tous est une chose relativement nouvelle. Le troisi�me aspect est d'�tudier la vid�o de moi-m�me faire il y a dix ans, tout le monde dit que la vid�o est la sortie suivante, aujourd'hui, il semble que cette affirmation est correcte.

Computer Vision (CV) peut �tre consid�r�e comme une branche de l'intelligence artificielle, l'un des fondateurs des ann�es 1960 CV Marvin Minsky a dit: � un appareil photo connect� � l'ordinateur, l'ordinateur peut comprendre la cam�ra peut voir le monde. � Cet homme fait CV d'un r�ve. Les 50 derni�res ann�es, il y a de nombreux domaines de r�sultats de CV de d�veloppement, si pour r�sumer, d'un point de vue visuel de la compr�hension, des probl�mes de vision font essentiellement trois �tapes: D'abord, comprendre une chose, par exemple, d'identifier une table, nous voulons d�tecter un nombre de lignes, quelques-uns des coins. En second lieu, artificiellement con�u pour caract�riser certaines des caract�ristiques d�tect�es. Troisi�mement, la conception de certains des classificateur. C'est ce que nous faisons tous avant 2012 CV en trois �tapes.

Vous pouvez voir cette figure un certain CV de progression est, pour ne citer que quelques exemples, tels que EIPD papier (Scaled Feature Invariant Transform) du papier a �t� cit� 55.000 fois. En outre, si vous savez que la reconnaissance faciale, il devra trouver le visage de la r�gion. En 2001, nous avons une m�thode de boosting + Cascade, faire un positionnement rapide visage. � ce jour, bien que nous savons qu'il ya plusieurs fa�ons de rep�rer un visage de l'homme apprentissage en profondeur, mais cette m�thode est encore l'une des �tapes de la premi�re doit passer � travers. Jusqu'� pr�sent, cet article a �t� cit� 30.000 fois, un article dans les journaux universitaires ont �t� cit�s plus de 10.000 fois d�j� tout � fait remarquable. Pour 2012 ans plus tard, au fond tout le monde avec l'apprentissage en profondeur, AlexNet dans IMAGEnet ci-dessus peut obtenir un taux d'erreur de pr�s de 15% avec des �tudiants de Hinton, et depuis le d�but, toutes les choses visuelles avec CNN, on peut citer GoogLeNet, AlexNet et ainsi de suite, notre t�che sera de plus en plus, de plus en plus de d�fis, comme ce qui se fait maintenant produite � partir de la langue de l'image, non seulement marqu�e par un certain nombre d'�tiquettes dans une image ou une vid�o, mais aussi de changer ces �tiquettes dans une phrase peut �tre d�crit en langage naturel.

Nous parlons aujourd'hui est la compr�hension vid�o, de comprendre si un pixel ou comprendre une image ou une vid�o, on peut comprendre ce probl�me en plusieurs niveaux. La partie la plus difficile est d'�tre compris des images ou vid�o � l'int�rieur de chaque pixel repr�sente ce que l'�tiquette. Au-del� nous nous soucions de chaque objet dans quelle position, ce qui appartient � la cat�gorie. La troisi�me partie ne concerne pas cet objet en tout lieu, vous me donnez une image ou une vid�o, je savais que cette image ou une �tiquette vid�o ce qui est � l'int�rieur. Un pas de plus, par exemple, je vous donne une image, non seulement n�cessaire pour g�n�rer une �tiquette s�par�e, mais vous pouvez �galement g�n�rer un langage tr�s naturel pour d�crire cette image. Au-del� de cela, je vais vous donner une image, pouvez-vous me donner une histoire, par exemple, maintenant la machine ne peut pas produire une telle histoire.

Nous regardons ce tableau (voir PPT), image Classification (classification d'images) de la premi�re couche de 8 � 20 couches, jusqu'� pr�sent, nous avons 152 couches. Nous avons fait beaucoup de travail � Microsoft, l'image, il y a beaucoup de reconnaissance d'image transfert de style de calcul (conversion calcul reconnaissance image de style) et ainsi de suite. Les produits Microsoft sont associ�s � ce ph�nom�ne sont nombreuses, telles que chiendent peut non seulement discuter avec vos mots, vous pouvez �galement communiquer avec vous � travers des images et des vid�os.

De l'image � la vid�o, doit �tre compris une vid�o que chacune des trames est appr�ci� que le mouvement. Pourquoi parler aujourd'hui de la vid�o?

Chaque jour dans le monde sont maintenant plus de 50 pour cent des gens qui regardent la vid�o en ligne, tous les jours regardera 3,7 milliards de vid�os sur Facebook, ce sera un temps pour regarder 500 millions d'heures de vid�o chaque jour sur YouTube. Nous faisons la vid�o, nous avons d'abord pens� que la publicit�, les annonces vid�o sont au-dessus du taux de 30% d'augmentation d'une ann�e, mais aussi 30 pour cent de croissance par an dans le YouTube ci-dessus. Les gens passent beaucoup de temps sur la vid�o 2,6 fois l'image. G�n�ration de texte et d'images vid�o � plus de 1200%. 2016 utilisateurs de vid�o chinois � plus de 700 millions.

G�n�r� aujourd'hui le contenu vid�o d'un autre point de vue, �diter, g�rer, qui passera par le processus, les technologies � l'appui, nous ordonnons de la cr�ation (cr�ation) � curation (traitement), � la consommation (termes de consommation).

Comment cr�er une vid�o? Et il y a un concept fondamental, vid�o qui en r�sulte est une premi�re coupe de vid�o sur un coup de feu, vous pouvez �tre consid�r� comme un code unique, puis chaque tir, puis compil� dans une histoire, tous les quelques langues peut �tre mis dans une histoire . Chaque tir peut �tre divis� en sous-coups, puis il y a des donn�es que nous faisons pr�misse vid�o.

Aujourd'hui, une vid�o, peut 15 minutes, peut-�tre une heure, je ne peux pas vous donner cinq images cl�s que vous connaissez cet objectif. Une vid�o de 8 minutes peut g�n�rer du contenu pendant 30 secondes, par exemple, une vid�o de mouvement, par l'analyse intelligente de savoir quelle partie de ce mouvement � l'int�rieur de la vid�o doit regarder le plus, ce qui est son objectif.

Un autre sujet est la g�n�ration vid�o, aujourd'hui, je vais vous donner un morceau de texte, vous me donnez une nouvelle vid�o g�n�re, cette chose sonne comme un fantasme, mais il vaut le d�fi. Je vous le dis produire une vid�o, ce qui est un chiffre huit natation non-stop en elle. En plus de vos num�ros 6 et 0, ne peut pas laisser les chiffres 6 et 0 y nager, cette chose est tr�s difficile. Nous avons r�cemment fait une �tude et a constat� que vous pouvez faire des choses simples, comme une personne dans le r�ti de buf. Dans la pratique, cela est difficile, parce que nous g�n�rons la pr�cision vid�o est tr�s faible, donc c'est une chose tr�s difficile.

Une fois que la vid�o doit faire est de jouer des �tiquettes vid�o, jusqu'� pr�sent peuvent �tre marqu�s avec 1000 �tiquettes statiques, vous avez ces �tiquettes statiques peuvent �tre r�gl�es sur le contenu � l'int�rieur. Par exemple, une vid�o qui est apparu un pont, o� le pont � cet endroit. Par exemple, certains sports, que nous pouvons identifier sur le sport, toutes les vid�os de sport � gauche, le droit est notre vie quotidienne de certains des actes. Il y a deux actions les plus difficiles � identifier, est un saut, un triple saut, mais nous pouvons maintenant distinguer ces diff�rences tr�s subtiles.

Cela fait partie de notre parler aujourd'hui seulement technique. Nous avons r�cemment fait un tr�s bon travail, est que nous pouvons faire r�seau en profondeur, � travers un certain nombre de fa�ons dont nous pouvons utiliser le r�seau profond est possible. Par exemple, cela peut �tre fait maintenant � 152 couches, la couche 1001 peut faire surclasse tout r�seau. Nous ne pouvons pas d�velopper l'image de ce site � une vid�o? Je mets la bo�te de convolution � deux dimensions devient tridimensionnel, quand il est convolution, Y et T le long de cette direction X de la convolution. mod�le de couche C3D 13 peut �tre fait, il est tr�s compliqu�. Nous avons une id�e, mettre � briser, on peut trouver le nombre d'objets � rendre ce processus possible, peuvent �galement �tre trait�es sur l'image. Nous avons fait beaucoup de travail, par exemple, cette vid�o est un mouvement de Tai Chi, nous pouvons trouver par P3D quatre points, cela a �t� tr�s grande.

Nous pouvons vous dire exactement chaque joint dans cette vid�o est de savoir comment le mouvement (voir PPT), par exemple, aujourd'hui, je fait un instructeur intelligent de remise en forme, peut briser vos mouvements, vous dire quelle est l'action pas exacte.

Il y a un sous-titrage vid�o (Description de la vid�o), pour vous donner une vid�o, peut g�n�rer un mot pour d�crire cette vid�o. Avant de dire que cette vid�o est une danse, je peux vous dire que c'est ce que la danse.

Ceci est une vid�o que nous avons produit (voir PPT). Agropyre peut faire des commentaires-automatique (r�vision automatique), vous indique non seulement belle, mais aussi vous dire o� aux �tats-Unis. Suivi par un enfant, il dit que votre fille est tr�s belle, tr�s �l�gant. Fondamentalement, il peut faire les commentaires de selfie vid�o aux enfants vid�o � commentaire, vous pouvez donner la vid�o animal � tout commentaire.

Vous pouvez aussi �crire de la po�sie, l'agropyre r�cemment, nous avons publi� un recueil de po�mes. Xiaobing a dit: � Regardez les �toiles, clignotantes quelques �toiles, le soleil sur le soleil, les enfants grenouilles sont loin de l'eau peu profonde, elle a �pous� plusieurs couleurs du monde. �

Nous faisons �galement le transfert de style (style de transfert), vous donner une peinture ou un dessin anim�, ce style ne peut pas �tre transf�r� � la vid�o, il peut �tre exprim� dans l'ondulation de l'eau.

En dessous de cette image est un programme d'animation, nous pouvons mettre ce caract�re segment� dans une autre sc�ne virtuelle � l'int�rieur. Vous pouvez imaginer, quand deux personnes tombent amoureux dans des endroits diff�rents, nous avons pu lui donner une pi�ce et laisser le chat dans la chambre.

Il Storytelling (contes), je ne peux pas vous fournir des services, laissez vos photos, vid�os mieux, dont l'effet est g�n�r� par la machine (voir PPT). Ce style est appel� mode, nous ajoutons simplement processus artificiel, vous pouvez faire votre image vid�o pour devenir plus � la mode. Il est facile d'utiliser une partie de la sc�ne C (pour le march� des consommateurs) � l'int�rieur.

Enfin parler d'un sujet, cette annonce je me suis joint au projet de Microsoft il y a dix ans. � ce moment-l�, nous faire des annonces vid�o ont deux probl�mes � r�soudre: La premi�re question porte sur ce que la publicit� dans la position de fin de la vid�o, la deuxi�me question est quel genre de publicit� �lectorale, cette information de la publicit� avec votre point d'insertion n'est pas pertinent de sorte que l'acceptation par les utilisateurs encore mieux. Comment r�soudre ces deux probl�mes? � ce moment-l�, nous vous proposons un programme, je suis une vid�o, cette d�composition vid�o, nous avons plusieurs valeurs, la premi�re est la discontinuit� (discontinue), regard sur chaque pi�ce est de ne pas annoncer son point de rupture permet � l'utilisateur d'accepter degr� mieux. Il y a une place annonces passionnantes sur sc�ne. Une autre est Attractivit� (attraction), faire calculable, nous avons deux courbes, la courbe a deux fa�ons diff�rentes, la premi�re fa�on est de r�pondre aux besoins des annonceurs.

La vid�o dans la voiture lorsque la sc�ne d'explosion appara�t, nous pouvons identifier le contenu sur, o� vous pouvez mettre l'annonce, fait la publicit� et le contenu en toute transparence. Nous pouvons �galement placer des annonces dans l'histoire locale n�cessaire.

Ont parl� de beaucoup de sc�narios et techniques, mais il semble que les gens sont en train de faire des recherches, AI Ye Hao, Ye Hao apprentissage en profondeur, l'atterrissage d'un long chemin � parcourir, nous devons aller un par un sur la terre pour atteindre.

Ceci est mon discours d'aujourd'hui, je vous remercie!

Lei Feng r�seau arrang� et compil�

Route de la soie

Apprenez � conna�tre la Chine

handicap�es Microsoft Research Asia Mei Taobo: la machine peut comprendre la vid�o, mais aussi aux "critiques" | CCF-GAIR 2017?

Pourquoi le � contenu vid�o � ne partage le th�me?

Cr�ation (cr�ation)

Curation (traitement)

Consommation (consommation)