Sur la base de distillation à couplage de connaissances, 200 fois plus rapide, une détection de zone d'affichage vidéo algorithme

Auteur | iqiyi Zebian | Jia Wei

20207 Février - 12 Février 2020 AAAI aura lieu à New York. Il n'y a pas longtemps, un fonctionnaire de l'Assemblée générale a annoncé les documents de cette année informations incluses: Reçu 8800 à soumettre des articles, la revue 7737, recevant 1591, le taux d'acceptation de 20,6%. Cet article décrit la thèse en collaboration avec Beihang iqiyi et d'autres organismes « ultrarapides vidéo de prévision de l'attention avec Couplé connaissances Distillation ».

Documents lien: https: //arxiv.org/pdf/1904.04449.pdf

Cet article a conçu un réseau ultra-léger UVA-Net, et propose un procédé de couplage formation de réseau basée sur la connaissance de la distillation, peut être comparable à 11 nouveaux modèles dans le sens de la prévision des performances vidéo de l'attention, alors que son espace de stockage seulement occupe 0,68 Mo, le GPU, la vitesse du processeur atteint 10,106FPS, 404FPS, amélioré 206 fois plus rapide que le modèle précédent.

Étant donné que les modèles de précision de détection de zone d'affichage vidéo classiques ont tendance à avoir des exigences plus élevées sur la puissance de calcul et la capacité de stockage, la vitesse de traitement est lent, ce qui entraîne un gaspillage de ressources. Par conséquent, la nécessité de détection de zone saillante vidéo pour répondre aux deux questions suivantes: 1) comment réduire la quantité de calcul et le modèle d'exigence de mémoire, d'améliorer l'efficacité? 2) Comment extraire la vidéo d'une co-fonctionnalité espace-temps efficace, afin d'éviter le taux exact est tombé?

Pour résoudre ces problèmes, les auteurs ont proposé des connaissances couplage distillée vidéo légère SAILLANT méthode de détection de la région. détection de région vidéo légère de difficultés est la capacité insuffisante de généralisation du modèle, combiné avec les repères spatiaux dans le domaine temporel difficiles à détecter les méthodes d'impact de performance. À cette fin, les auteurs proposent une structure de réseau légère UVA-Net, et d'améliorer les performances de détection de zone saillante vidéo en utilisant les méthodes de formation de distillation couplée de connaissances.

MobileNetV2 comme une structure de réseau léger (comme le montre le tableau 3 (a) ci-dessous), tandis que la compacité du réseau grandement améliorée, et une certaine perte de précision. Sur la base de la structure de bloc MobileNetV2 CA-Res proposé, en particulier, comme indiqué dans le tableau 3 (b), l'utilisation d'une telle structure de réseau formée modèle 206 fois plus rapide que la méthode précédente.

De la méthode de distillation à couplage de connaissances pour former le réseau, le procédé d'abord utilisé comme trames vidéo à faible entrée de résolution dans la vidéo autant que possible de conserver un temporel de principe important et la détection de l'information spatiale dans une région désirée, réduire le réseau de calcul , la structure temporelle et spatiale puis utiliser complexe du réseau en tant que modèle d'enseignant, couplé à la connaissance de la distillation, structure simple formation supervisée du modèle étudiant espace-temps commun, une réduction significative de la taille des paramètres du modèle et le besoin d'espace de stockage. Comme représenté en particulier sur. La figure 6.

Figure 6: la connaissance basée sur la vidéo ultra-haut débit couplage significatif distillée Procédé de détection de région.

L'évaluation des données de modèle fixées sur les résultats spécifiques AVS1K comme indiqué dans les tableaux 4 et 5. De la table, nous pouvons voir les UVA-DVA-64 et d'autres modèles de haute performance pour obtenir une performance comparable, mais le modèle ne 2.73M, des vitesses allant jusqu'à 404,3 FPS, tandis que les UVA-DVA-32 performance légèrement réduite, mais seul modèle 0.68m, des vitesses allant jusqu'à 10106 FPS.

Tableau 4: Comparaison des performances sur le AVS1K.

Tableau 5: Résultats sur ensemble de données de trame représentant AVS1K (a) de trame vidéo, (b) réalité de terrain, (c) HFT, (d) SP, (e) PNSP, (f) SSD, (g) LDS ,. (h) EDN, (i) iSEEL, (j) DVA, (k) SalNet, (l) m, (m) UVA-DVA-32, (n) UVA-DVA-64.

Les auteurs suggèrent le couplage distillation ultra vidéo haute vitesse basée sur la connaissance de manière significative par rapport aux méthodes existantes de l'algorithme de détection de région internationale de haut niveau, la précision et 11 sortes de méthodes internationales de haut niveau plutôt, peut résoudre efficacement la tâche en moins de capacité de généralisation du modèle, le domaine temporel repères spatiaux combiné avec le problème difficile de plomb, et a de bons résultats de la détection de la région de saillant vidéo et migrer facilement à d'autres tâches.

À l'heure actuelle, la technologie a été appliquée à iqiyi tentative de recherche pour le drame, la création vidéo intelligente et d'autres produits, la détection d'importantes régions de retour sur investissement de compréhension précise des images, le contenu vidéo a une grande aide. Par exemple iqiyi version verticale du mode de création intelligente, ne conservant que de contenu vidéo à partir du contenu vidéo lui-même d'améliorer la compréhension de l'expérience de visualisation de l'utilisateur. De plus, l'analyse de l'importance de la vidéo iqiyi multiples instructif d'affaires, par exemple des merveilles iqiyi (radar AI), il suffit de regarder à TA et ainsi de suite, donnant aux utilisateurs une meilleure expérience.

S'il vous plaît citer la littérature:

Fu, K., Shi, P., Song, Y., Ge, S., Lu, X. & Li, J. (2019). Ultrarapides vidéo prévision de l'attention avec Couplé connaissances Distillation. En AAAI 2020.

Rapport AAAI 2020:

En vertu de la nouvelle épidémie de coronavirus, AAAI2020 vont également à la réunion?

Vu refuser l'entrée aux États-Unis, les participants du site AAAI2020 échouèrent, le papier comment partager?

AAAI meilleur article publié

AAAI 2020 l'ouverture officielle, 37% des communications acceptées en provenance de Chine, la première place pendant trois années consécutives Takeover

Une vue de texte intégral, la connaissance carte @AAAI 2020

Hinton AAAI2020 texte intégral du discours: Le réseau a finalement fait la capsule droite chose

Actes de AAAI 2020: AAAI 2020 @ papier Wangjing interprétera (PPT télécharger)

Qu'est-ce que la PNL étudie la direction du vent sur le 2020 AAAI là?

six documents Microsoft en vedette AAAI 2020

Jingdong SKK 6 en vedette AAAI 2020 papier

AAAI 2020 série de lecture de papier:

01. construire de meilleurs modèles de reconnaissance et de traduction vocale par le biais de la traduction interactive

02. nouvelles perspectives pour explorer la « détection d'objet » relation mutuellement bénéfique avec la « division d'instance » de

03. Lorsqu'une nouvelle mise en commun bilinéaire en perspective, la redondance, la nature soudaine du problème vient?

04. histoire en utilisant le graphique de la scène pour générer une séquence d'images pour la

05,2100 gloire du champ du roi, 1c1 pourcentage de victoires de 99,8%, Tencent doit réaliser l'interprétation technique de la grippe aviaire

06. apprentissage multi-tâches, comment concevoir un meilleur mécanisme de partage des paramètres?

07. sa langue et d'oublier? Ce modèle peut vous aider | inverse modèle multi-canal dictionnaire

08. DualVD: un dialogue visuel nouveau cadre

09. Avec BABELNET construire une connaissance sémème en plusieurs langues

10. Gully facile à remplir: fin-to-speech traduction, méthode de pré-convergence de la formation et de réglage fin

11. Le temps est peut-être de vous deux? segments de contenu vidéo à partir d'un diagramme de temps de détection en deux dimensions

12. mécanismes de boule de neige pour l'apprentissage et moins de temps relation réseau de neurones

13. En détectant le modèle de caractérisation sémantique et démêler syntaxique des mécanismes cérébraux

14. Le guidage fiducial multimodal formule multimodal abstraction automatique

15. L'utilisation du mécanisme à long d'attention pour générer la traduction de la diversité

16. échantillon zéro apprendre à élargir la carte des connaissances (Vidéo Interprétation)

17. La récupération vidéo basée sur l'image du code de requête est open source!

18. conception de réseau basé sur NAS GCN (lecture vidéo)

19. diagnostic neurocognitive du système éducatif intelligent, l'apprentissage à partir des données d'interfonctionnement fonction

Figure 20. La convolution en plusieurs étapes de l'algorithme d'auto-apprentissage supervisé

21. Le nouveau modèle, générant un dialogue plus fluide, plus personnalisé (interprétation vidéo, PPT ci-joint)

22. La reconnaissance de texte pour le découplage attention du réseau

23. L'étude zéro-échantillon sur la base de caractéristiques visuelles contre la méthode résiduelle

24. Le module d'évaluation est introduit, et la maîtrise de la fidélité de traduction de la machine de levage (déjà ouvert)

25. L'aide d'attitude collaborative multi-caméras à l'initiative pour atteindre la piste cible

26. réexaminer l'évaluation de l'image esthétique et trouver les faits saillants point focal

27. amélioration des objectifs de formation, afin d'améliorer la qualité de la traduction du modèle non-autorégression (déjà ouvert)

28: balises de classification à double vue utilisant une pluralité de faibles améliorer les performances de classification

29. D'après l'apprentissage de renforcement progressif de la politique de l'arbre

30. La représentation commune basée sur la traduction automatique neuronal (interprétation vidéo)

31. Le module d'évaluation est introduit, et la fluidité de la fidélité de la traduction automatique de levage (lecture vidéo)

32. Quelques fois boule de neige mécanisme de réseau neuronal une relation d'apprentissage (interprétation vidéo)

33. Le non-retour auto-traduction de la machine (interprétation vidéo) sur la base des cibles de formation des n-uplets

34. ensemble de données Examen judiciaire (interprétation vidéo, avec lien de téléchargement)

35. supervision faible segmentation sémantique (lecture vidéo)

36. réseaux de neurones binaires rares, ne nécessite aucune compétence, précision faite SOTA (interprétation vidéo)

Texte de la limite à 37. - Procédé de détection d'un texte de forme arbitraire

38. modèle DCMN +: fissure « compréhension à la lecture » des problèmes, a remporté d'obtenir les performances du monde

39. Le double canal modèle de raisonnement en plusieurs étapes, un meilleur dialogue visuel pour résoudre les problèmes générés

40. Inverser R? Affaiblir les caractéristiques de saillants de la mise à niveau est d'apporter classification grains fins

41. RiskOracle: une méthode de prédiction accident de la circulation à grain fin espace-temps

42. Le court moment, comment prévoir? - métrage basé sur le ARIMA tenseur reconstruit

43. Les jeux de société auxiliaires font, un saut marqué (interprétation vidéo)

45. La nouvelle détection cible du faible cadre de supervision

46. algorithme d'optimisation NAS, 10 fois plus rapide!

47. L'utilisation du mécanisme d'attention pour obtenir un positionnement optimal de la caméra (interprétation vidéo)

48. Diou et Ciou: IoU corriger dans la détection cible ouverte

49. Pour la méthode d'alignement de la face vidéo de masse

50. KPNet, la poursuite du détecteur de visage léger (vidéo interprétation)

51. La déclaration de la source et la cible n'est plus indépendant, représentent conjointement plus pour améliorer la performance de la traduction automatique

52. forêt complètement dépendante: la facilité de manière significative l'erreur transfert Relation Extraction

Du général à la connaissance spécifique de la migration, Tencent AI Lab fait dans différents domaines en fonction du domaine de la transformation du réseau de traduction automatique
Précédent
Reproductibilité du papier, si l'analyse quantitative?
Prochain
Recrutement Ordre: affaires ici, « truc du printemps » ne pas paniquer
Source et déclaration cible n'est plus indépendant, représentent conjointement plus pour améliorer la performance de la traduction automatique
Juste et exacte est tout aussi important! CMU a proposé l'apprentissage des méthodes de caractérisation juste pour obtenir algorithme d'équité
Les données ne peuvent être utilisées sans discernement, la nouvelle décennie, pourquoi les entreprises devraient utiliser le partage de données nouveau paradigme?
Tencent AI Lab fait « forêt entièrement dépendante » atténuer de manière significative l'erreur est passé extraction de relations
Hinton AAAI2020 Discours: Le réseau a finalement fait la capsule droite chose
Aujourd'hui papier | gradient de cisaillement, NER, traitement du langage naturel, la fonction de l'intensité de l'apprentissage libre
Sloan Research Award 2020 a annoncé que 16 scientifiques chinois ont été sélectionnés, quatre du numéro de l'hôpital l'Université de Pékin
Une vue de texte intégral, les connaissances AAAI sur la carte 2020
Livre d'aujourd'hui | apprentissage petit échantillon, l'apprentissage machine, une seule image désembuage, détection de cible zéro échantillon
8% du fragment d'ADN humain du virus, pour la lecture culturelle et historique du livre Fête du Printemps
Comment la stigmatisation sociale puissante poussé au fond? livres financiers Lire pour le Nouvel An chinois