Amazon a publi� un nouveau cadre pour la cat�gorie vid�o Web: 1/100 quantit� de donn�es, la prise de pr�cision du mod�le optimal

Lei Feng r�seau AI source d'un commentaire par: R�cemment, le personnel de recherche Johnson Asie, intelligents startups de visage SenseTime et Hong Kong sur une �tude du dossier zoom�e les causes d�velopp�es conjointement un nouveau cadre --OmniSource Lee En utilisant les donn�es Web, la cr�ation d'un nouveau cadre dans le domaine de la reconnaissance vid�o enregistrer.

En adressant des images, des clips vid�o courts et temps ne sont pas incompatibles entre les formats de donn�es tels que la vid�o et les donn�es sont enregistr�es en utilisant la m�thode de l'�quilibre, OmniSource peut mod�liser plus pr�cis�ment la vid�o la plus avanc�e dans classement, mais l'utilisation de donn�es �tait inf�rieure � 100 fois.

uvres OmniSource

Le personnel de recherche sur un point fixe sur que les algorithmes de classification vid�o de formation vir�s g�n�ralement les donn�es requises garantie distincte est co�teuse et prend du temps, parce que contient habituellement vid�o ou plus de coups plus sujets, les regarder quand il est n�cessaire de compl�ter le classement, puis couper manuellement pour lib�rer le segment, puis ajoutez soigneusement annotations.

Architecture figure OmniSource

Le OmniSource est le mode d'obturation int�gr� diverses sources sous diverses formes (moteurs de recherche, m�dias sociaux) l'utilisation des donn�es Web, telles que: des images, des clips vid�o et vid�o non �dit�. Ensuite, le syst�me AI pour filtrer les �chantillons de donn�es de faible qualit�, et ceux qui sont marqu�s par son ensemble d'�chantillons de donn�es (une moyenne de 70% � 80%), la conversion de chaque �chantillon de mani�re � utiliser pour les t�ches standard de temps de destination tout en am�liorer la robustesse de la formation du mod�le de classification.

Apr�s avoir identifi� une t�che donn�e, OmniSource obtient tous les mots-cl�s pour chaque nom de classe de cat�gorie et r�cup�rer les donn�es des sources Web et supprimer automatiquement les donn�es en double. Pour les images fixes, les images � pr�parer � l'avance pour une utilisation pendant la formation conjointe, ce qui leur permettra de d�placer la cam�ra en utilisant l'aide � la vid�o � fant�me �.

Dans la phase de formation United, une fois les donn�es sont filtr�es et converties en donn�es horodatage de destination est d�finie dans le m�me format, et le temps de destination Web OmniSource va peser corpus � grande �chelle, l'ensemble de donn�es sont ensuite enregistr�es en utilisant la m�thode crois�e m�lange, l'�chantillon contenu dans celui-ci et l'�tiquette Utilisation de la formation.

Moins de donn�es, une plus grande pr�cision

Dans cette phase de formation conjointe, selon le personnel de recherche sur un rapport que lorsque la formation vid�o � partir de z�ro avec le mod�le de reconnaissance OmniSource, malgr� une mauvaise effet de r�glage fin, mais l'effet est tr�s bon m�lange croix de donn�es obtenues.

Dans le test, l'�quipe en utilisant les trois ensembles de donn�es d'horodatage de destination:

Cin�matique-400, qui comprend le classement 400, 400, pour chaque cat�gorie, � 10 minutes de vid�o;
Voiture YouTube, qui contient des milliers de vid�os, montrant 196 diff�rents types de vapeur ;
UCF101, comprenant des clips 100 et 101 identifient le type de l'ensemble de donn�es vid�o;

Web a distribu� un ensemble de donn�es. (A) - (c) montre les trois ensemble de donn�es Web avant et apr�s le filtre, chaque cat�gorie de distribution de donn�es est visualis�e. (D) repr�sente l'image (blocs cyan) et l'image restante (bo�tes bleues) �chantillon GG-K400 filtr�s. Bien que le succ�s de filtrer beaucoup de donn�es inappropri�es, mais faire toutes sortes d'autres activit�s de distribution des donn�es est plus in�gale

ressources de site Web, les chercheurs ont recueilli deux millions d'images de Google Recherche d'images, la collection de 1,5 millions d'images et vid�o 500000 provenant d'Instagram, et une collection de plus de 17.000 vid�os de YouTube. La liaison des ensembles de donn�es horodatage de destination, qui sont toutes entr�es au d�but un certain mod�le de classification vid�o.

Selon le rapport, en l'absence de formation, seulement 3,5 millions d'images, et 80 millions de minutes de vid�o peuvent �tre obtenues � partir de l'Internet grimper � prendre les r�sultats des travaux ant�rieurs moins de 2%. Kinetics-400 et dans l'ensemble de donn�es, le mod�le form� est de 3,0% ou moins de pr�cision de mention de pi�ces, pr�cision ADVANCED 83,6%. Pendant ce temps, le meilleur mod�le du cadre dans l'ensemble de donn�es de formation � base z�ro Kinetics-400, a atteint une pr�cision de 80,4%.

La technologie de reconnaissance vid�o �volutive

OmniSource sur le fichier des auteurs, et la plupart des rapports de technologie de pointe, le cadre peut �tre utilis� pour obtenir les m�mes ou m�me de meilleures performances avec une plus simple (et plus l�ger) de la conception principale, sec et perdre plus de clics en plus petite taille. Lee OmniSource l'aide d'un ensemble de donn�es sp�cifiques � la t�che, et utilise un rendement plus �lev� de donn�es, pr�c�dente usures, il zoom� zoom�e r�duit la quantit� de donn�es requises. En outre, le cadre peut �tre pouss� dans toute grande vari�t� de t�ches vid�o, par exemple: l'identification et la classification vid�o � grains fins.

Figure images fixes Source: Reuters / Thomas Peter

Avenir, OmniSource pourrait �tre en mesure de l'appliquer aux cam�ras de s�curit� priv�es visage et dans les lieux publics. Ou il peut �tre un site de r�seautage social comme Facebook et autres, de fournir la conception et des informations techniques n�cessaires algorithmes d'examen vid�o.

Adresse originale:

https://venturebeat.com/2020/04/02/amazon-sensetime-omnisource-framework-web-data-video-recognition/

OmniSource papier Adresse:

https://arxiv.org/pdf/2003.13042.pdf

Lei Feng r�seau AI, une source de Lei Feng r�seau Avis

Route de la soie

Apprenez � conna�tre la Chine

Amazon a publi� un nouveau cadre pour la cat�gorie vid�o Web: 1/100 quantit� de donn�es, la prise de pr�cision du mod�le optimal

uvres OmniSource

Moins de donn�es, une plus grande pr�cision

La technologie de reconnaissance vid�o �volutive