Zhejiang University - AI avec le bouclier technologie de laboratoire commun publié par AAAI 2020 inclus

site financier Nouvelles  Récemment, l'Université du Zhejiang - avec le bouclier de la technologie Artificial Intelligence Laboratory a publié un document commun « Repenser le Bottom-Up cadre pour la localisation vidéo à base de requête » est l'intelligence artificielle niveau supérieur conférence AAAI 2020 inclus dans le champ a été sélectionné en tant que documents de rapport oral (présentation orale ), il convient de mentionner qui était seulement 5,9% des documents de rapport oral acceptées tout au long de l'Assemblée.

Document propose l'innovation ascendante algorithme de localisation vidéo, surpassant les algorithmes du modèle SOTA Top-Down (State-of-the-Art, actuellement le meilleur), la résolution défaut de conception des tâches de récupération de clip vidéo, l'amélioration du modèle bottom-up actuel sur, pour réaliser de nouvelles percées. Innovations pour l'avenir de la récupération de contenu vidéo, l'examen du contenu et des systèmes de gestion des bâtiments de contrôle des risques de conformité a des applications importantes.

Depuis - depuis « la technologie de bouclier avec l'Université du Zhejiang laboratoire commun de l'intelligence artificielle » a été mis en place, les deux parties continuent de faire des réalisations importantes dans le domaine académique d'études. Laboratoire commun a été officiellement créé en 2018 par l'École des sciences informatiques, professeur de l'Université du Zhejiang Zhuang Ting, servi en tant que co-directeur avec le fondateur Shield Technology, chef de la direction Jiang Tao.

Laboratoire commun pour les technologies de base de recherche d'intelligence artificielle, y compris la direction des applications de recherche d'algorithmes d'apprentissage financiers fédéraux, le traitement du langage naturel environnement de contrôle des risques, la détection d'anomalies de réseau complexe, la compréhension du contenu visuel et de l'algorithme d'inférence de recherche. analyse intelligente visant à la prise de décision de la technologie théorie de base révolutionnaire et le noyau, et combiné avec le domaine de la finance, Internet, le transport, le gouvernement et les affaires publiques, promouvoir l'intelligence de la modernisation industrielle.

 

Les documents inclus dans le AAAI 2020 est la quintessence d'une série de résultats de laboratoire communs importants, le papier à travers les avantages et les inconvénients du clip vidéo en cours cadre de recherche (top-down modèle et modèle ascendante clairsemée) a proposé une nouvelle bottom-up intensive du châssis, afin d'éviter tous les inconvénients de la trame précédente. Pendant ce temps, dispose d'un design basé sur l'équipe une couche de convolution diagramme pyramidal pour améliorer la capacité du réseau fédérateur de codage.

Ce qui suit est un papier crème extrait:  

Dans les tâches de positionnement vidéo en fonction de la requête, de réévaluer le potentiel du cadre du réseau Bottom-Up des performances passées ne sont pas satisfaisantes. Grâce à la colonne vertébrale et le modèle cadre reconception réseau social est proposé Graphique-FPN avec les prévisions Dense (PIB), au-delà du modèle Top-Down SOTA est basée sur les tâches de positionnement vidéo de requête dans deux catégories.

localisation vidéo Statut cadre de l'algorithme  

algorithme de localisation vidéo existant peuvent être classés en deux grandes catégories: Top-Down et Bottom-Up. méthode descendante pré-coupe toute la vidéo en une série de candidats courts vidéo, chaque segment candidat suivant, classification vidéo et la régression, les méthodes ascendantes de requête et de la vidéo en entier, puis transmet chaque image comme « Start / End » marque la distribution de probabilité.

Bien que la méthode actuelle modèle descendante méthode ascendante être plus excellente, mais le Top-Down a de très mauvaises limitations devraient noter que dans le rapport de la performance: la performance du modèle est très sensible au premier exemple de règles heuristiques ou échelle temporelle du nombre de candidats; en second lieu, afin d'améliorer le modèle de taux de rappel, nous avons besoin généralement de choisir un candidat court vidéo très intense, qui a conduit à la méthode descendante nécessite beaucoup de calcul résultant à une vitesse de positionnement plus lent.

méthode ascendante est proposée pour résoudre ces problèmes, et une méthode standard de ascendantes (ci-dessous) se compose de deux parties: respectivement épine dorsale et le réseau de la tête. L'ancien habituellement co-attention ou d'un mécanisme inter-déclenchement pour associer une requête sémantique et chaque image de la vidéo; sortie Backbone (séquence de trames requête-ref) après LSTM / RNN de codage entrera réseau de la tête, chaque prédiction de réseau une vidéo en tant que « start / stop » balise de probabilité.

 
ASCENDANTES figure. 1 Standard Architecture

L'auteur estime que les raisons actuelles de performance de la méthode ASCENDANTES moins approche descendante est erronée en deux parties de la conception du réseau.

A propos de backbone:

-backbone en utilisant seulement interrelations RNN / LSTM entre les trames vidéo (structure) de modélisation, tout en ignorant la scène (scène, un groupe de trames) entre la corrélation;

-backbone utilisés dans la plupart vecteur caractéristique de faible dimension, et le cadre ascendante des besoins d'information sémantique pour être l'emplacement vidéo même dimension supérieure.

réseau A propos de la tête:

- un « Début / Fin » classification marquée, les données de vérité terrain est un ensemble de données extrêmement inégale avant pour chaque image de la vidéo;

- Pour le début et les cadres de fin étiquetage est indépendant des méthodes connues, qui apparemment conduit à la cohérence du modèle ne tient pas compte de l'interception du contenu vidéo.

Le nouveau modèle Bottom-Up Graph-FPN avec les prévisions Dense (PIB)

Le modèle proposé du PIB en deux parties sont améliorées, illustration détaillée ci-dessous montre le PIB.

 
Figure 2 détails du modèle PIB

Dans la colonne vertébrale, le PIB a été introduit couche graphique-FPN pour améliorer les compétences de colonne vertébrale. La première couche de séquence de trame requête ref pour construire une structure de pyramide hiérarchique pour mieux saisir l'information sémantique dimensionnelle élevée, les trames sont ensuite mappés sur scène spatiale à l'échelle multiple (espace de la scène), dans lequel un noeud représente une scène ; Enfin, dans ce scénario convolution de l'espace de la figure, donc la relation entre les scénarios de modélisation efficaces.

Dans le réseau de la tête, la prédiction de la distribution du PIB à l'origine clairsemée remplacée par la prévision dense: il sera toutes les images vidéo entre la marque « début / fin » est considéré comme un échantillon positif (premier plan), le reste est considéré comme un échantillon négatif (arrière-plan ). En même temps, chaque image sera marqué sur leur propre niveau de confiance (limite) limite. Une telle action permettrait de résoudre le problème des échantillons modèles ascendantes mentionnés précédemment répartition inégale.

jeux de tests multiples surclassent SOTA  

Les travaux décrits ici a été testé sur deux fonctions principales, la réinstallation de positionnement vidéo en langage naturel (Natural Language Localisation vidéo) et une vidéo (vidéo Relocalizaiton) une pluralité d'ensembles de données (tacos, Charades-STA, ActivityNet légendes et activité- BRV), la performance SOTA sont mieux que le modèle, ce qui suit est une manifestation concrète.

Tableau 1 Tâches de positionnement vidéo naturelle Langue: modèle PIB pour obtenir le meilleur huit des neuf indicateurs de trois ensembles de données dans

Tableau 2 tâche de réinstallation vidéo: PIB en six modèles sont les meilleurs indicateurs

Regardons à savoir si les résultats d'ablation clairsemés réseau tête (voir le tableau 3), concentrés dans plusieurs données multiples tâches, en utilisant le modèle Dense réseau tête a généralement une performance plus excellente.

 
Tableau 3 Comparaison de modèle et de la tête creuse réseau

Enfin, nous examinons l'utilisation des résultats du modèle PIB, nous pouvons voir si le PIB du cadre est la vérité au sol ont tendance à classer contenait marquer dans cette section du sol du milieu, est une performance relativement bonne de la vérité.

 
La figure 3 montre les résultats expérimentaux
Le haut commandement de la station, un match crucial d'échecs! Zhifu Wonderland a retenti des projets clés « nombre critique »
Précédent
La rétorsion de McDonald, nouilles sèches, rafale de thé, restauration au consommateur?
Prochain
transcription voix + bénédiction écrite à la main, IFLYTEK publier notebook impasse intelligente rupture inefficace
Printemps grandes quantités de données d'investissement: Tencent premier, Ali cinquième, cette société fait deuxième rang
Glory Play4T série Publié: 1199 yuans à vendre les jeunes utilisateurs cultiver, la performance principale et vie de la batterie
bois Sichuan feu Li Senlin: les forces de secours d'incendie aider à battre le point de côté de l'offre côté feu
Nanchang: rénovations de printemps pour rencontrer le passager dynamique Qingming petite vacances
Au cours de l'épidémie, plus de diplômés des colleges réseau de défense
École à nouveau reportée! Regardez l'équilibre, a repris l'usine Maotan Congrès national du peuple est d'apprendre comment organiser?
Trois ministères ont publié 16 nouveaux emplois! Besoins urgents! Vous avez votre majeur?
Depuis le 9 Mars après une autre école! Ces deux provinces dates précises de début
Les entreprises centrales et les industries appartenant à l'État rétrograde effort pour lutter contre l'épidémie sur
Nouvel An chinois cette année, je ne vais pas revenir en arrière ......
« Tu est beau » anges, il est difficile