handicapées Microsoft Research Asia Mei Taobo: la machine peut comprendre la vidéo, mais aussi aux "critiques" | CCF-GAIR 2017?

Lei Feng réseau par AI Technology Review 7 Juillet, l'intelligence artificielle et la robotique au sommet mondial tenu comme prévu à Shenzhen, organisé par le CCF, Lei Feng réseau avec l'Université chinoise (Shenzhen) Hong Kong a accueilli la conférence a réuni un total de plus de 30 AI de partout dans le monde scientifiques dans le domaine, près de 300 entreprises AI étoiles. Lei Feng réseau récemment libérera progressivement l'essence du contenu sur le dos du sommet aux lecteurs de Lei Feng réseau de soutien à long terme!

Les invités de cette présentation est chercheur principal au handicap Microsoft Research Asia Mei Taobo, partager le thème du « cycle de vie du contenu vidéo: la création, la transformation et la consommation. »

handicapées , Chercheur principal à Microsoft Research Asia, la reconnaissance des formes internationale Fellow, ACM scientifique émérite et professeur adjoint à l'Université chinoise de la technologie de doctorat Sun Yat-sen. Ses recherches portent notamment sur l'analyse multimédia, la vision par ordinateur et l'apprentissage de la machine, a publié plus de 100 (indice h 42), a remporté le prix du meilleur article 10 fois, avec plus de 40 brevets américains et internationaux (18 autorisation), la recherche les résultats ont été transformés avec succès dans une douzaine de produits et services Microsoft. Son équipe de recherche travaille actuellement une compréhension approfondie de la vidéo et des images, l'analyse et l'application. Il a également été IEEE Transactions et ACM sur le multimédia (IEEE TMM et ACM TOMM) et le comité de rédaction de la reconnaissance de motif (Pattern Recognition) et d'autres revues académiques, et le multimédia sont un certain nombre de conférences internationales (telles que ACM Multimedia, IEEE CIME, IEEE MMSP, etc.) Président de l'Assemblée générale et le Président du Comité du programme. Il respectivement en 2001 et 2006, un baccalauréat et un doctorat à l'Université chinoise des sciences et de la technologie.

Pourquoi le « contenu vidéo » ne partage le thème?

Mei handicapées Taobo de trois aspects ont parlé de la raison pour laquelle il voulait partager « contenu vidéo » sur ce sujet. Première vidéo avec des informations d'image par rapport à plus riche, mais aussi plus difficile à traiter avec eux, d'autre part, domaine de la technologie de vision par ordinateur, comme la plus grande reconnaissance, le suivi des personnes et d'autres études et du contenu vidéo sur Internet est la recherche relativement moins; Enfin, il a dit, a commencé à faire des recherches sur le côté vidéo il y a dix ans, tout le monde dit que la vidéo est la prochaine sortie, aujourd'hui, il semble que cette affirmation est correcte.

Dans la tradition de la compréhension visuelle (d'ici 2012) de la méthode, les problèmes visuels font essentiellement trois étapes:

Tout d'abord, apprécié qu'un objet, tel qu'une table et l'identification, la détection d'une première clé (tels que les angles, les arêtes, les faces, etc.);

En second lieu, artificiellement conçu pour décrire certaines caractéristiques des attributs visuels de ces points;

En troisième lieu, les caractéristiques de conception de ces personnes utiliseront certains classés comme la classification et l'entrée de reconnaissance.

Et maintenant, la profondeur de l'apprentissage, surtout après le début de l'année 2012:

« Image Comprendre les taux d'erreur sont à la baisse, la profondeur du réseau de neurones à partir de la première couche de 8 à 20 couches, jusqu'à maintenant peut atteindre 152 niveau. Nos derniers spectacles de travail que la compréhension de la profondeur vidéo du réseau de neurones peut aussi être 3D à partir de 201511 couches de 199 couches de CNN font maintenant. "

discours aussi Shi Mei Taobo que le cycle de vie du contenu vidéo peut être à peu près Divisé en trois parties, à savoir la création, la transformation et la consommation de la vidéo.

Création (création)

A propos de la façon de créer une vidéo, un handicap Mei Taobo à un concept de base. « La vidéo est produit une première coupe une lentille vidéo, il peut être considéré comme une rupture d'un code, et chaque combinaison de la lentille, puis de faire une histoire ou d'un scénario, chaque lentille peut aussi être une atténuation supplémentaire en sous-shots, chaque sous-objectif peut être représentée par une trame de clé peut être section non-linéaire du flux vidéo comme articles dans la structuration de tranchage de telle structure en couches qui est faite du traitement et l'analyse vidéo de base arrière. par le présent arrangement de la vidéo en unités différentes, peut faire la vidéo summarization, à savoir un long clip vidéo est automatiquement courte vidéo excitante ou vidéo avec un long numéro de cadre clé représentant très visuel représente. ceux-ci permettent un résumé de l'utilisateur nonlinéarité sur la vidéo longue tournée rapide possible ".

Mei Shi Taobo dit que Microsoft a un résumé vidéo de la technologie utilisée dans la recherche vidéo Bing, et maintenant il y a huit millions d'utilisateurs dans le monde entier par Bing appelé technique multi-pouce, peut rapidement un aperçu de chaque résultat de recherche vidéo.

Curation (traitement)

Lorsque l'utilisateur a la vidéo, les chercheurs ont besoin de faire est de marquer le clip vidéo, vous pouvez rechercher plus tard en fonction de l'étiquette pour la recherche de contenu vidéo pour aller à l'intérieur. « Nos travaux récents peuvent être marqués avec plus de 1000 étiquettes statiques, et plus de 500 étiquettes actions contenu vidéo. Nous avons conçu le P3D (pseudo resent 3D) est conçu spécifiquement pour la compréhension du contenu vidéo et réseau résiduel 3D bien conçu. »

Ne le meilleur réseau de neurones d'analyse d'image en profondeur est proposé Microsoft Research Asia en 2015, le réseau résiduel (ResNet) 152 couche, actuellement couche la plus profonde 1000 peut être fait. Mais dans le domaine vidéo, spécialement conçu pour la vidéo la plus efficace 3D CNN actuellement que 11 couches.

Pour résoudre ce problème, Shi Mei Taobo a déclaré l'équipe des idées récemment empruntés ResNet que la technologie 3D CNN que le nombre de couches 199, avant que le taux de reconnaissance peut être comparé sur les ensembles de données UCF 101 augmentation 3D CNN 6-7 points de pourcentage. La technologie pour étiqueter automatiquement la vidéo, il sera utilisé dans le service cloud Azure de Microsoft.

La technologie vidéo pour atteindre l'extérieur automatique d'étiquettes, Mei Shi Taobo également décrit l'équipe « plus loin » la recherche: un langage naturel couramment paragraphe cohérent, plutôt que seule étiquette isolé pour décrire un morceau de contenu vidéo.

« Par exemple, étant donné cette vidéo, nous pouvons générer un mot pour décrire cette vidéo? Vidéo avant de dire que c'est une danse, je peux vous dire que c'est ce qu'un groupe de personnes sautant pour une danse, cette technique est appelée Vidéo Sous-titrage (Vidéo instructions). cette technologie permet la génération automatique du titre vidéo est possible ».

Microsoft Research Asia utilisent actuellement cette technique dans l'évaluation de la fonction du robot de chat automatique, tel que Microsoft chiendent, lorsqu'un utilisateur télécharge une vidéo à chiendent, il louait l'autre. Après un mois de cette ligne de la technologie, le nombre de fans chiendent dans une vidéo sur le site a augmenté de 60%. Bien sûr, chiendent peut maintenant écrire de la poésie moderne en fonction du contenu de l'image dans l'avenir, nous espérons pouvoir écrire des poèmes à partir de chiendent vidéo.

« Nous mettons également l'édition vidéo, ajouter des filtres, le style ou faire la conversion, la nature même de la vidéo de dessin animé vidéo des caractères peut être segmenté dans une autre scène virtuelle pour aller à l'intérieur. Vous pouvez imaginer , lorsque deux personnes tombent amoureux dans des endroits différents, nous avons pu lui donner une pièce, les obtenir dans la même pièce, sous les étoiles, sur un chat calme dans un bateau sur le lac. de plus, nous pouvons également offrir des contes de services, de sorte que l'original, sans aucune modification et traitement de l'image, les collections vidéo deviennent très attrayant, il y a un certain sens de la conception et de sens visuel de l'histoire, l'effet de cette machine de démonstration vidéo est généré automatiquement. en plus artificielle le traitement, la vidéo peut devenir plus à la mode ".

Consommation (consommation)

est souvent étroitement liées à la vidéo et de la publicité à la consommation. Mei Tao mentionné, présentent les annonces vidéo ont deux problèmes à résoudre: La première question porte sur ce que la publicité dans la position de fin de la vidéo, la deuxième question est quel genre de publicité électorale, le point d'insertion publicitaire avec les informations que vous n'êtes pas liés, de sorte que l'acceptation par les utilisateurs encore mieux.

Leur solution consiste à décomposer la vidéo et calculer deux mesures, une discontinuité (discontinue), une mesure du point d'insertion publicitaire si l'histoire continue, l'autre est l'attrait (attractif), une mesure de quelques-uns de la vidéo originale le contenu est merveilleux. Ces deux mesures en ligne avec différentes combinaisons pour répondre aux annonceurs (annonceur) ou les besoins des utilisateurs (des spectateurs).

Enfin, Mei Tao a conclu, à faire des recherches dans les yeux, AI Ye Hao, Ye Hao apprentissage en profondeur, sol ont un long chemin à parcourir. « Bien que la vision par ordinateur a été mis au point depuis plus de 50 ans, bien que AI frit très chaud, mais faire de la recherche scientifique et de la technologie, ou vers le bas sur la terre pour résoudre une scène et l'un des problème sous-jacent de base. »

Ce qui suit est le site Mei Taobo partager avec handicap Record, Lei Feng réseau n'a pas changé l'intention de finition et de rédaction

Je suis heureux de parler avec vous au sujet des zones de contenu vidéo. Pourquoi parler de contenu vidéo? Il y a trois raisons: La première raison est l'image vidéo avec plus en profondeur de comparaison, la vidéo est quelque chose dans le domaine de l'information, la recherche sur la vidéo est un très grand défi. La seconde est que nous voyons des progrès dans le domaine de la vision, le visage humain, dans de nombreux aspects de la sécurité spéciale, domaine vidéo pour nous tous est une chose relativement nouvelle. Le troisième aspect est d'étudier la vidéo de moi-même faire il y a dix ans, tout le monde dit que la vidéo est la sortie suivante, aujourd'hui, il semble que cette affirmation est correcte.

Computer Vision (CV) peut être considérée comme une branche de l'intelligence artificielle, l'un des fondateurs des années 1960 CV Marvin Minsky a dit: « un appareil photo connecté à l'ordinateur, l'ordinateur peut comprendre la caméra peut voir le monde. » Cet homme fait CV d'un rêve. Les 50 dernières années, il y a de nombreux domaines de résultats de CV de développement, si pour résumer, d'un point de vue visuel de la compréhension, des problèmes de vision font essentiellement trois étapes: D'abord, comprendre une chose, par exemple, d'identifier une table, nous voulons détecter un nombre de lignes, quelques-uns des coins. En second lieu, artificiellement conçu pour caractériser certaines des caractéristiques détectées. Troisièmement, la conception de certains des classificateur. C'est ce que nous faisons tous avant 2012 CV en trois étapes.

Vous pouvez voir cette figure un certain CV de progression est, pour ne citer que quelques exemples, tels que EIPD papier (Scaled Feature Invariant Transform) du papier a été cité 55.000 fois. En outre, si vous savez que la reconnaissance faciale, il devra trouver le visage de la région. En 2001, nous avons une méthode de boosting + Cascade, faire un positionnement rapide visage. À ce jour, bien que nous savons qu'il ya plusieurs façons de repérer un visage de l'homme apprentissage en profondeur, mais cette méthode est encore l'une des étapes de la première doit passer à travers. Jusqu'à présent, cet article a été cité 30.000 fois, un article dans les journaux universitaires ont été cités plus de 10.000 fois déjà tout à fait remarquable. Pour 2012 ans plus tard, au fond tout le monde avec l'apprentissage en profondeur, AlexNet dans IMAGEnet ci-dessus peut obtenir un taux d'erreur de près de 15% avec des étudiants de Hinton, et depuis le début, toutes les choses visuelles avec CNN, on peut citer GoogLeNet, AlexNet et ainsi de suite, notre tâche sera de plus en plus, de plus en plus de défis, comme ce qui se fait maintenant produite à partir de la langue de l'image, non seulement marquée par un certain nombre d'étiquettes dans une image ou une vidéo, mais aussi de changer ces étiquettes dans une phrase peut être décrit en langage naturel.

Nous parlons aujourd'hui est la compréhension vidéo, de comprendre si un pixel ou comprendre une image ou une vidéo, on peut comprendre ce problème en plusieurs niveaux. La partie la plus difficile est d'être compris des images ou vidéo à l'intérieur de chaque pixel représente ce que l'étiquette. Au-delà nous nous soucions de chaque objet dans quelle position, ce qui appartient à la catégorie. La troisième partie ne concerne pas cet objet en tout lieu, vous me donnez une image ou une vidéo, je savais que cette image ou une étiquette vidéo ce qui est à l'intérieur. Un pas de plus, par exemple, je vous donne une image, non seulement nécessaire pour générer une étiquette séparée, mais vous pouvez également générer un langage très naturel pour décrire cette image. Au-delà de cela, je vais vous donner une image, pouvez-vous me donner une histoire, par exemple, maintenant la machine ne peut pas produire une telle histoire.

Nous regardons ce tableau (voir PPT), image Classification (classification d'images) de la première couche de 8 à 20 couches, jusqu'à présent, nous avons 152 couches. Nous avons fait beaucoup de travail à Microsoft, l'image, il y a beaucoup de reconnaissance d'image transfert de style de calcul (conversion calcul reconnaissance image de style) et ainsi de suite. Les produits Microsoft sont associés à ce phénomène sont nombreuses, telles que chiendent peut non seulement discuter avec vos mots, vous pouvez également communiquer avec vous à travers des images et des vidéos.

De l'image à la vidéo, doit être compris une vidéo que chacune des trames est apprécié que le mouvement. Pourquoi parler aujourd'hui de la vidéo?

Chaque jour dans le monde sont maintenant plus de 50 pour cent des gens qui regardent la vidéo en ligne, tous les jours regardera 3,7 milliards de vidéos sur Facebook, ce sera un temps pour regarder 500 millions d'heures de vidéo chaque jour sur YouTube. Nous faisons la vidéo, nous avons d'abord pensé que la publicité, les annonces vidéo sont au-dessus du taux de 30% d'augmentation d'une année, mais aussi 30 pour cent de croissance par an dans le YouTube ci-dessus. Les gens passent beaucoup de temps sur la vidéo 2,6 fois l'image. Génération de texte et d'images vidéo à plus de 1200%. 2016 utilisateurs de vidéo chinois à plus de 700 millions.

Généré aujourd'hui le contenu vidéo d'un autre point de vue, éditer, gérer, qui passera par le processus, les technologies à l'appui, nous ordonnons de la création (création) à curation (traitement), à la consommation (termes de consommation).

Comment créer une vidéo? Et il y a un concept fondamental, vidéo qui en résulte est une première coupe de vidéo sur un coup de feu, vous pouvez être considéré comme un code unique, puis chaque tir, puis compilé dans une histoire, tous les quelques langues peut être mis dans une histoire . Chaque tir peut être divisé en sous-coups, puis il y a des données que nous faisons prémisse vidéo.

Aujourd'hui, une vidéo, peut 15 minutes, peut-être une heure, je ne peux pas vous donner cinq images clés que vous connaissez cet objectif. Une vidéo de 8 minutes peut générer du contenu pendant 30 secondes, par exemple, une vidéo de mouvement, par l'analyse intelligente de savoir quelle partie de ce mouvement à l'intérieur de la vidéo doit regarder le plus, ce qui est son objectif.

Un autre sujet est la génération vidéo, aujourd'hui, je vais vous donner un morceau de texte, vous me donnez une nouvelle vidéo génère, cette chose sonne comme un fantasme, mais il vaut le défi. Je vous le dis produire une vidéo, ce qui est un chiffre huit natation non-stop en elle. En plus de vos numéros 6 et 0, ne peut pas laisser les chiffres 6 et 0 y nager, cette chose est très difficile. Nous avons récemment fait une étude et a constaté que vous pouvez faire des choses simples, comme une personne dans le rôti de buf. Dans la pratique, cela est difficile, parce que nous générons la précision vidéo est très faible, donc c'est une chose très difficile.

Une fois que la vidéo doit faire est de jouer des étiquettes vidéo, jusqu'à présent peuvent être marqués avec 1000 étiquettes statiques, vous avez ces étiquettes statiques peuvent être réglées sur le contenu à l'intérieur. Par exemple, une vidéo qui est apparu un pont, où le pont à cet endroit. Par exemple, certains sports, que nous pouvons identifier sur le sport, toutes les vidéos de sport à gauche, le droit est notre vie quotidienne de certains des actes. Il y a deux actions les plus difficiles à identifier, est un saut, un triple saut, mais nous pouvons maintenant distinguer ces différences très subtiles.

Cela fait partie de notre parler aujourd'hui seulement technique. Nous avons récemment fait un très bon travail, est que nous pouvons faire réseau en profondeur, à travers un certain nombre de façons dont nous pouvons utiliser le réseau profond est possible. Par exemple, cela peut être fait maintenant à 152 couches, la couche 1001 peut faire surclasse tout réseau. Nous ne pouvons pas développer l'image de ce site à une vidéo? Je mets la boîte de convolution à deux dimensions devient tridimensionnel, quand il est convolution, Y et T le long de cette direction X de la convolution. modèle de couche C3D 13 peut être fait, il est très compliqué. Nous avons une idée, mettre à briser, on peut trouver le nombre d'objets à rendre ce processus possible, peuvent également être traitées sur l'image. Nous avons fait beaucoup de travail, par exemple, cette vidéo est un mouvement de Tai Chi, nous pouvons trouver par P3D quatre points, cela a été très grande.

Nous pouvons vous dire exactement chaque joint dans cette vidéo est de savoir comment le mouvement (voir PPT), par exemple, aujourd'hui, je fait un instructeur intelligent de remise en forme, peut briser vos mouvements, vous dire quelle est l'action pas exacte.

Il y a un sous-titrage vidéo (Description de la vidéo), pour vous donner une vidéo, peut générer un mot pour décrire cette vidéo. Avant de dire que cette vidéo est une danse, je peux vous dire que c'est ce que la danse.

Ceci est une vidéo que nous avons produit (voir PPT). Agropyre peut faire des commentaires-automatique (révision automatique), vous indique non seulement belle, mais aussi vous dire où aux États-Unis. Suivi par un enfant, il dit que votre fille est très belle, très élégant. Fondamentalement, il peut faire les commentaires de selfie vidéo aux enfants vidéo à commentaire, vous pouvez donner la vidéo animal à tout commentaire.

Vous pouvez aussi écrire de la poésie, l'agropyre récemment, nous avons publié un recueil de poèmes. Xiaobing a dit: « Regardez les étoiles, clignotantes quelques étoiles, le soleil sur le soleil, les enfants grenouilles sont loin de l'eau peu profonde, elle a épousé plusieurs couleurs du monde. »

Nous faisons également le transfert de style (style de transfert), vous donner une peinture ou un dessin animé, ce style ne peut pas être transféré à la vidéo, il peut être exprimé dans l'ondulation de l'eau.

En dessous de cette image est un programme d'animation, nous pouvons mettre ce caractère segmenté dans une autre scène virtuelle à l'intérieur. Vous pouvez imaginer, quand deux personnes tombent amoureux dans des endroits différents, nous avons pu lui donner une pièce et laisser le chat dans la chambre.

Il Storytelling (contes), je ne peux pas vous fournir des services, laissez vos photos, vidéos mieux, dont l'effet est généré par la machine (voir PPT). Ce style est appelé mode, nous ajoutons simplement processus artificiel, vous pouvez faire votre image vidéo pour devenir plus à la mode. Il est facile d'utiliser une partie de la scène C (pour le marché des consommateurs) à l'intérieur.

Enfin parler d'un sujet, cette annonce je me suis joint au projet de Microsoft il y a dix ans. À ce moment-là, nous faire des annonces vidéo ont deux problèmes à résoudre: La première question porte sur ce que la publicité dans la position de fin de la vidéo, la deuxième question est quel genre de publicité électorale, cette information de la publicité avec votre point d'insertion n'est pas pertinent de sorte que l'acceptation par les utilisateurs encore mieux. Comment résoudre ces deux problèmes? À ce moment-là, nous vous proposons un programme, je suis une vidéo, cette décomposition vidéo, nous avons plusieurs valeurs, la première est la discontinuité (discontinue), regard sur chaque pièce est de ne pas annoncer son point de rupture permet à l'utilisateur d'accepter degré mieux. Il y a une place annonces passionnantes sur scène. Une autre est Attractivité (attraction), faire calculable, nous avons deux courbes, la courbe a deux façons différentes, la première façon est de répondre aux besoins des annonceurs.

La vidéo dans la voiture lorsque la scène d'explosion apparaît, nous pouvons identifier le contenu sur, où vous pouvez mettre l'annonce, fait la publicité et le contenu en toute transparence. Nous pouvons également placer des annonces dans l'histoire locale nécessaire.

Ont parlé de beaucoup de scénarios et techniques, mais il semble que les gens sont en train de faire des recherches, AI Ye Hao, Ye Hao apprentissage en profondeur, l'atterrissage d'un long chemin à parcourir, nous devons aller un par un sur la terre pour atteindre.

Ceci est mon discours d'aujourd'hui, je vous remercie!

Lei Feng réseau arrangé et compilé

Qingming amour poésie antique CCTV a lancé le programme spécial « Yi Ching Ming poésie »
Précédent
amarrage Application drones multi-rotor et les communications tactiques
Prochain
Cette année, les meilleurs films de Hong Kong, ne peuvent être « sans pareil »?
Interview de vote amoy | Gal Gadot: J'espère que, après dix ans peuvent jouer Wonder Woman
Conception et mise en uvre des données de l'enregistreur RT-fil basé sur le drone
« Meilleur évolution du petit ami » avis final de l'exposition Kitty Zhang Kai Zheng ont organisé une « routine d'amour. »
agitation magnétique rotatif automatique pour maintenir une constante de 55 ° C, ce mode de réalisation boisson trop humide | batardeaux de titane
Lui, le plus difficile à jouer l'un des rôles de l'histoire du cinéma
robot marcheur ne peut pas maladroit, de nouvelles méthodes de formation de l'intelligence artificielle DeepMind aller très élégant
Jusqu'à finalement, ce film aurait dû venir
« Flash de la piste 4 » de nouvelles informations: Lien fait la perte de mémoire
« Comme un cur d'ombre » exposer les confrontent vérité l'homme contemporain amour points de douleur de mariage
Vous recherchez Feng Xiaogang
« Wukong Trek » pignon fixe 1 mai drôle terre rire histoire