Amazon a publié un nouveau cadre pour la catégorie vidéo Web: 1/100 quantité de données, la prise de précision du modèle optimal

Lei Feng réseau AI source d'un commentaire par: Récemment, le personnel de recherche Johnson Asie, intelligents startups de visage SenseTime et Hong Kong sur une étude du dossier zoomée les causes développées conjointement un nouveau cadre --OmniSource Lee En utilisant les données Web, la création d'un nouveau cadre dans le domaine de la reconnaissance vidéo enregistrer.

En adressant des images, des clips vidéo courts et temps ne sont pas incompatibles entre les formats de données tels que la vidéo et les données sont enregistrées en utilisant la méthode de l'équilibre, OmniSource peut modéliser plus précisément la vidéo la plus avancée dans classement, mais l'utilisation de données était inférieure à 100 fois.

uvres OmniSource

Le personnel de recherche sur un point fixe sur que les algorithmes de classification vidéo de formation virés généralement les données requises garantie distincte est coûteuse et prend du temps, parce que contient habituellement vidéo ou plus de coups plus sujets, les regarder quand il est nécessaire de compléter le classement, puis couper manuellement pour libérer le segment, puis ajoutez soigneusement annotations.

Architecture figure OmniSource

Le OmniSource est le mode d'obturation intégré diverses sources sous diverses formes (moteurs de recherche, médias sociaux) l'utilisation des données Web, telles que: des images, des clips vidéo et vidéo non édité. Ensuite, le système AI pour filtrer les échantillons de données de faible qualité, et ceux qui sont marqués par son ensemble d'échantillons de données (une moyenne de 70% à 80%), la conversion de chaque échantillon de manière à utiliser pour les tâches standard de temps de destination tout en améliorer la robustesse de la formation du modèle de classification.

Après avoir identifié une tâche donnée, OmniSource obtient tous les mots-clés pour chaque nom de classe de catégorie et récupérer les données des sources Web et supprimer automatiquement les données en double. Pour les images fixes, les images à préparer à l'avance pour une utilisation pendant la formation conjointe, ce qui leur permettra de déplacer la caméra en utilisant l'aide à la vidéo « fantôme ».

Dans la phase de formation United, une fois les données sont filtrées et converties en données horodatage de destination est définie dans le même format, et le temps de destination Web OmniSource va peser corpus à grande échelle, l'ensemble de données sont ensuite enregistrées en utilisant la méthode croisée mélange, l'échantillon contenu dans celui-ci et l'étiquette Utilisation de la formation.

Moins de données, une plus grande précision

Dans cette phase de formation conjointe, selon le personnel de recherche sur un rapport que lorsque la formation vidéo à partir de zéro avec le modèle de reconnaissance OmniSource, malgré une mauvaise effet de réglage fin, mais l'effet est très bon mélange croix de données obtenues.

Dans le test, l'équipe en utilisant les trois ensembles de données d'horodatage de destination:

  • Cinématique-400, qui comprend le classement 400, 400, pour chaque catégorie, à 10 minutes de vidéo;

  • Voiture YouTube, qui contient des milliers de vidéos, montrant 196 différents types de vapeur ;

  • UCF101, comprenant des clips 100 et 101 identifient le type de l'ensemble de données vidéo;

Web a distribué un ensemble de données. (A) - (c) montre les trois ensemble de données Web avant et après le filtre, chaque catégorie de distribution de données est visualisée. (D) représente l'image (blocs cyan) et l'image restante (boîtes bleues) échantillon GG-K400 filtrés. Bien que le succès de filtrer beaucoup de données inappropriées, mais faire toutes sortes d'autres activités de distribution des données est plus inégale

ressources de site Web, les chercheurs ont recueilli deux millions d'images de Google Recherche d'images, la collection de 1,5 millions d'images et vidéo 500000 provenant d'Instagram, et une collection de plus de 17.000 vidéos de YouTube. La liaison des ensembles de données horodatage de destination, qui sont toutes entrées au début un certain modèle de classification vidéo.

Selon le rapport, en l'absence de formation, seulement 3,5 millions d'images, et 80 millions de minutes de vidéo peuvent être obtenues à partir de l'Internet grimper à prendre les résultats des travaux antérieurs moins de 2%. Kinetics-400 et dans l'ensemble de données, le modèle formé est de 3,0% ou moins de précision de mention de pièces, précision ADVANCED 83,6%. Pendant ce temps, le meilleur modèle du cadre dans l'ensemble de données de formation à base zéro Kinetics-400, a atteint une précision de 80,4%.

La technologie de reconnaissance vidéo évolutive

OmniSource sur le fichier des auteurs, et la plupart des rapports de technologie de pointe, le cadre peut être utilisé pour obtenir les mêmes ou même de meilleures performances avec une plus simple (et plus léger) de la conception principale, sec et perdre plus de clics en plus petite taille. Lee OmniSource l'aide d'un ensemble de données spécifiques à la tâche, et utilise un rendement plus élevé de données, précédente usures, il zoomé zoomée réduit la quantité de données requises. En outre, le cadre peut être poussé dans toute grande variété de tâches vidéo, par exemple: l'identification et la classification vidéo à grains fins.

Figure images fixes Source: Reuters / Thomas Peter

Avenir, OmniSource pourrait être en mesure de l'appliquer aux caméras de sécurité privées visage et dans les lieux publics. Ou il peut être un site de réseautage social comme Facebook et autres, de fournir la conception et des informations techniques nécessaires algorithmes d'examen vidéo.

Adresse originale:

https://venturebeat.com/2020/04/02/amazon-sensetime-omnisource-framework-web-data-video-recognition/

OmniSource papier Adresse:

https://arxiv.org/pdf/2003.13042.pdf

Lei Feng réseau AI, une source de Lei Feng réseau Avis

Seulement 299 $, Facebook sur la version de vente rénové Rift CV1
Précédent
Mises à pied, des réductions de salaire, les retards du projet, sous l'influence de l'épidémie, que l'industrie croissance à contre-courant?
Prochain
"Double Dutch" 600 pages sera officiellement publié! Problème le plus légendaire génie mathématicien est résolu?
chien de chiot est un chien! DeepMind grand mouvement au visuel pour les médias, faire la traduction automatique non supervisée est très efficace
ACL 2020 a publié les résultats du recrutement, l'affichage briser 3000, l'histoire du feu dans le haut de la PNL feriez-vous?
Cour de l'administrateur de l'insolvabilité approche de gestion hiérarchique de Tianjin populaire supérieur
Xi Jinping temps de Contagion
haut émergents: voiture 5G sous la nouvelle infrastructure de réseau numérique, ce qui permet l'innovation automatique de conduite et de transport intelligents
Multi-ciblage dans des scénarios complexes - Résumé de l'algorithme d'apprentissage en profondeur
La perception visuelle, ainsi que le poste de pilotage intelligent et, ADI peut saisir l'occasion de conduire une conduite automatique?
Pourquoi LSTM si efficace? Les cinq secrets que vous devez savoir
anti-écoute électronique hard-core! Mac dispose spécifiques à l'iPad: la plupart mécanisme de protection stricte de l'industrie, basée sur la puce T2
La dernière Linux Mint 20 Divulgation: Code « Ulyana », abandonner les systèmes 32 bits
300 millions $, « le père japonais de l'Internet » a vendu 14 millions d'adresses IPv4