Zhejiang University - AI avec le bouclier technologie de laboratoire commun publi� par AAAI 2020 inclus

site financier Nouvelles �R�cemment, l'Universit� du Zhejiang - avec le bouclier de la technologie Artificial Intelligence Laboratory a publi� un document commun � Repenser le Bottom-Up cadre pour la localisation vid�o � base de requ�te � est l'intelligence artificielle niveau sup�rieur conf�rence AAAI 2020 inclus dans le champ a �t� s�lectionn� en tant que documents de rapport oral (pr�sentation orale ), il convient de mentionner qui �tait seulement 5,9% des documents de rapport oral accept�es tout au long de l'Assembl�e.

Document propose l'innovation ascendante algorithme de localisation vid�o, surpassant les algorithmes du mod�le SOTA Top-Down (State-of-the-Art, actuellement le meilleur), la r�solution d�faut de conception des t�ches de r�cup�ration de clip vid�o, l'am�lioration du mod�le bottom-up actuel sur, pour r�aliser de nouvelles perc�es. Innovations pour l'avenir de la r�cup�ration de contenu vid�o, l'examen du contenu et des syst�mes de gestion des b�timents de contr�le des risques de conformit� a des applications importantes.

Depuis - depuis � la technologie de bouclier avec l'Universit� du Zhejiang laboratoire commun de l'intelligence artificielle � a �t� mis en place, les deux parties continuent de faire des r�alisations importantes dans le domaine acad�mique d'�tudes. Laboratoire commun a �t� officiellement cr�� en 2018 par l'�cole des sciences informatiques, professeur de l'Universit� du Zhejiang Zhuang Ting, servi en tant que co-directeur avec le fondateur Shield Technology, chef de la direction Jiang Tao.

Laboratoire commun pour les technologies de base de recherche d'intelligence artificielle, y compris la direction des applications de recherche d'algorithmes d'apprentissage financiers f�d�raux, le traitement du langage naturel environnement de contr�le des risques, la d�tection d'anomalies de r�seau complexe, la compr�hension du contenu visuel et de l'algorithme d'inf�rence de recherche. analyse intelligente visant � la prise de d�cision de la technologie th�orie de base r�volutionnaire et le noyau, et combin� avec le domaine de la finance, Internet, le transport, le gouvernement et les affaires publiques, promouvoir l'intelligence de la modernisation industrielle.

�

Les documents inclus dans le AAAI 2020 est la quintessence d'une s�rie de r�sultats de laboratoire communs importants, le papier � travers les avantages et les inconv�nients du clip vid�o en cours cadre de recherche (top-down mod�le et mod�le ascendante clairsem�e) a propos� une nouvelle bottom-up intensive du ch�ssis, afin d'�viter tous les inconv�nients de la trame pr�c�dente. Pendant ce temps, dispose d'un design bas� sur l'�quipe une couche de convolution diagramme pyramidal pour am�liorer la capacit� du r�seau f�d�rateur de codage.

Ce qui suit est un papier cr�me extrait: �

Dans les t�ches de positionnement vid�o en fonction de la requ�te, de r��valuer le potentiel du cadre du r�seau Bottom-Up des performances pass�es ne sont pas satisfaisantes. Gr�ce � la colonne vert�brale et le mod�le cadre reconception r�seau social est propos� Graphique-FPN avec les pr�visions Dense (PIB), au-del� du mod�le Top-Down SOTA est bas�e sur les t�ches de positionnement vid�o de requ�te dans deux cat�gories.

localisation vid�o Statut cadre de l'algorithme �

algorithme de localisation vid�o existant peuvent �tre class�s en deux grandes cat�gories: Top-Down et Bottom-Up. m�thode descendante pr�-coupe toute la vid�o en une s�rie de candidats courts vid�o, chaque segment candidat suivant, classification vid�o et la r�gression, les m�thodes ascendantes de requ�te et de la vid�o en entier, puis transmet chaque image comme � Start / End � marque la distribution de probabilit�.

Bien que la m�thode actuelle mod�le descendante m�thode ascendante �tre plus excellente, mais le Top-Down a de tr�s mauvaises limitations devraient noter que dans le rapport de la performance: la performance du mod�le est tr�s sensible au premier exemple de r�gles heuristiques ou �chelle temporelle du nombre de candidats; en second lieu, afin d'am�liorer le mod�le de taux de rappel, nous avons besoin g�n�ralement de choisir un candidat court vid�o tr�s intense, qui a conduit � la m�thode descendante n�cessite beaucoup de calcul r�sultant � une vitesse de positionnement plus lent.

m�thode ascendante est propos�e pour r�soudre ces probl�mes, et une m�thode standard de ascendantes (ci-dessous) se compose de deux parties: respectivement �pine dorsale et le r�seau de la t�te. L'ancien habituellement co-attention ou d'un m�canisme inter-d�clenchement pour associer une requ�te s�mantique et chaque image de la vid�o; sortie Backbone (s�quence de trames requ�te-ref) apr�s LSTM / RNN de codage entrera r�seau de la t�te, chaque pr�diction de r�seau une vid�o en tant que � start / stop � balise de probabilit�.

� ASCENDANTES figure. 1 Standard Architecture

L'auteur estime que les raisons actuelles de performance de la m�thode ASCENDANTES moins approche descendante est erron�e en deux parties de la conception du r�seau.

A propos de backbone:

-backbone en utilisant seulement interrelations RNN / LSTM entre les trames vid�o (structure) de mod�lisation, tout en ignorant la sc�ne (sc�ne, un groupe de trames) entre la corr�lation;

-backbone utilis�s dans la plupart vecteur caract�ristique de faible dimension, et le cadre ascendante des besoins d'information s�mantique pour �tre l'emplacement vid�o m�me dimension sup�rieure.

r�seau A propos de la t�te:

- un � D�but / Fin � classification marqu�e, les donn�es de v�rit� terrain est un ensemble de donn�es extr�mement in�gale avant pour chaque image de la vid�o;

- Pour le d�but et les cadres de fin �tiquetage est ind�pendant des m�thodes connues, qui apparemment conduit � la coh�rence du mod�le ne tient pas compte de l'interception du contenu vid�o.

Le nouveau mod�le Bottom-Up Graph-FPN avec les pr�visions Dense (PIB)

Le mod�le propos� du PIB en deux parties sont am�lior�es, illustration d�taill�e ci-dessous montre le PIB.

� Figure 2 d�tails du mod�le PIB

Dans la colonne vert�brale, le PIB a �t� introduit couche graphique-FPN pour am�liorer les comp�tences de colonne vert�brale. La premi�re couche de s�quence de trame requ�te ref pour construire une structure de pyramide hi�rarchique pour mieux saisir l'information s�mantique dimensionnelle �lev�e, les trames sont ensuite mapp�s sur sc�ne spatiale � l'�chelle multiple (espace de la sc�ne), dans lequel un noeud repr�sente une sc�ne ; Enfin, dans ce sc�nario convolution de l'espace de la figure, donc la relation entre les sc�narios de mod�lisation efficaces.

Dans le r�seau de la t�te, la pr�diction de la distribution du PIB � l'origine clairsem�e remplac�e par la pr�vision dense: il sera toutes les images vid�o entre la marque � d�but / fin � est consid�r� comme un �chantillon positif (premier plan), le reste est consid�r� comme un �chantillon n�gatif (arri�re-plan ). En m�me temps, chaque image sera marqu� sur leur propre niveau de confiance (limite) limite. Une telle action permettrait de r�soudre le probl�me des �chantillons mod�les ascendantes mentionn�s pr�c�demment r�partition in�gale.

jeux de tests multiples surclassent SOTA �

Les travaux d�crits ici a �t� test� sur deux fonctions principales, la r�installation de positionnement vid�o en langage naturel (Natural Language Localisation vid�o) et une vid�o (vid�o Relocalizaiton) une pluralit� d'ensembles de donn�es (tacos, Charades-STA, ActivityNet l�gendes et activit�- BRV), la performance SOTA sont mieux que le mod�le, ce qui suit est une manifestation concr�te.

Tableau 1 T�ches de positionnement vid�o naturelle Langue: mod�le PIB pour obtenir le meilleur huit des neuf indicateurs de trois ensembles de donn�es dans

Tableau 2 t�che de r�installation vid�o: PIB en six mod�les sont les meilleurs indicateurs

Regardons � savoir si les r�sultats d'ablation clairsem�s r�seau t�te (voir le tableau 3), concentr�s dans plusieurs donn�es multiples t�ches, en utilisant le mod�le Dense r�seau t�te a g�n�ralement une performance plus excellente.

� Tableau 3 Comparaison de mod�le et de la t�te creuse r�seau

Enfin, nous examinons l'utilisation des r�sultats du mod�le PIB, nous pouvons voir si le PIB du cadre est la v�rit� au sol ont tendance � classer contenait marquer dans cette section du sol du milieu, est une performance relativement bonne de la v�rit�.

� La figure 3 montre les r�sultats exp�rimentaux

Route de la soie

Apprenez � conna�tre la Chine

Zhejiang University - AI avec le bouclier technologie de laboratoire commun publi� par AAAI 2020 inclus