Tencent open source DVQA, le premier algorithme national d'évaluation de la qualité vidéo, utilisé dans les conférences de Tencent

Yunzhong depuis le temple d'Aofei Rapport Qubit | Numéro public QbitAI

Êtes-vous toujours préoccupé par l'évaluation de la qualité audio et vidéo?

À l'ère de l'audiovisuel, les applications audio et vidéo sont de plus en plus utilisées: diffusion en direct, courtes vidéos, programmes vidéo, appels audio et vidéo ... Avec l'éclatement de la demande, les demandes des utilisateurs pour la qualité audio et vidéo sont devenues plus fortes.

Existe-t-il une méthode efficace et "garantie"?

La dernière open source de Tencent est ici.

Tencent Multimedia Lab, l'algorithme d'évaluation de la qualité vidéo de référence complète basé sur l'apprentissage profond récemment conçu DVQA, est officiellement open source sur Github. Les performances de ce modèle d'algorithme sont actuellement à la pointe de l'industrie sur les ensembles de données de test publics.

Quel problème est résolu?

Dans l'ensemble de la liaison vidéo, la plupart des modules peuvent être mesurés avec précision, tels que l'acquisition, le téléchargement, le prétraitement, le transcodage, la distribution, etc. Cependant, la partie inconnue est précisément la partie la plus critique, c'est-à-dire quelle est l'expérience de visionnage vidéo de l'utilisateur.

À l'heure actuelle, les méthodes d'évaluation de la qualité vidéo dans l'industrie sont divisées en deux catégories: l'évaluation objective de la qualité et l'évaluation subjective de la qualité.

Le premier calcule le score de qualité de la vidéo et le subdivise davantage selon que la vidéo haute définition est utilisée comme référence, que la vidéo source soit une vidéo professionnelle ou une vidéo générée par l'utilisateur.

Ce dernier s'appuie principalement sur les yeux humains pour regarder et marquer, ce qui peut refléter intuitivement la perception du public de la qualité de la vidéo.

Cependant, ces méthodes ont encore des problèmes tels que la déviation de la perception longue et laborieuse, coûteuse et subjective.

La solution d'évaluation de la qualité vidéo proposée par Tencent Multimedia Lab utilise d'abord la «plate-forme d'évaluation de la qualité subjective en ligne» pour construire une base de données de qualité subjective à grande échelle conformément aux besoins de l'entreprise.

Dans le même temps, les données subjectives collectées sont utilisées pour former un algorithme d'évaluation de la qualité objectif basé sur l'apprentissage en profondeur.

Enfin, l'algorithme d'évaluation de la qualité formé est déployé dans le secteur d'activité et la surveillance en boucle fermée peut avoir des problèmes de qualité.

À partir des trois perspectives ci-dessus, la DVQA peut répondre aux deux principaux besoins d'efficacité et de précision en prenant en compte différents services et scénarios.

DVQA contient plusieurs modèles d'algorithmes d'évaluation de la qualité, cette fois open source est l'algorithme C3DVQA pour la vidéo PGC.

Ce projet est développé en utilisant Python, et le module d'apprentissage en profondeur utilise PyTorch.

Le code utilise une conception modulaire pour faciliter l'intégration des nouvelles technologies d'apprentissage en profondeur, des modèles personnalisés flexibles, ainsi que la formation et les tests de nouveaux ensembles de données.

En termes de conception d'algorithmes, la structure de réseau utilisée par C3DVQA est la suivante:

L'entrée est vidéo endommagée et vidéo résiduelle. Le réseau contient deux couches de convolution bidimensionnelle pour extraire les caractéristiques spatiales image par image. Après la cascade, des couches convolutives 3D à quatre couches sont utilisées pour apprendre les caractéristiques spatio-temporelles des articulations.

La sortie de convolution tridimensionnelle décrit l'effet de masquage spatio-temporel de la vidéo, puis l'utilise pour simuler la perception de l'il humain sur le résidu vidéo: où l'effet de masquage est faible, le résidu est plus facilement perçu; où l'effet de masquage est fort, l'arrière-plan complexe est plus Peut masquer la distorsion de l'image.

Le réseau se termine par une couche de mise en commun et une couche entièrement connectée. L'entrée de la couche de mise en commun est le résultat de la trame résiduelle traitée par l'effet de masquage, qui représente le résidu perceptible de l'il humain. La couche entièrement connectée apprend la relation de régression non linéaire entre la qualité globale perçue et l'intervalle de score de qualité cible.

Quel est l'effet?

Dans les résultats de l'évaluation, Tencent Multimedia Lab a vérifié les performances de l'algorithme proposé sur deux ensembles de données de qualité vidéo, LIVE et CSIQ.

Et utilisez les standards PLCC et SROCC comme critères de qualité pour comparer les performances de différents algorithmes.

Comparez le C3DVQA proposé avec les algorithmes d'évaluation de la qualité de référence complète couramment utilisés, y compris PSNR, MOVIE, ST-MAD, VMAF et DeepVQA, les résultats sont les suivants:

À l'heure actuelle, l'algorithme d'évaluation a été utilisé dans de nombreux produits internes et externes de Tencent. Par exemple, la conférence de Tencent utilise des centaines d'indicateurs de laboratoire qui répondent aux normes ITU / 3GPP / AVS et autres normes nationales et étrangères pour juger et surveiller en boucle la qualité de l'expérience utilisateur de l'ensemble du réseau. , De l'expérience réelle de l'utilisateur, optimisez constamment les performances du produit.

Équipe de production

Tencent Multimedia Lab, la meilleure équipe de recherche et développement en communication et traitement audio et vidéo de Tencent, se concentre sur la communication audio et vidéo en temps réel, la recherche d'algorithmes frontaux de codec audio et vidéo, les normes internationales audio et vidéo, le traitement d'image de vision par ordinateur, l'évaluation de qualité audio et vidéo de bout en bout. Dans les technologies de communication et de traitement audio et vidéo en temps réel, les normes internationales audio et vidéo et d'autres domaines ont accumulé des solutions complètes et un niveau technique de pointe.

Initialement nommé "Tencent Audio and Video Lab", il a été officiellement renommé "Tencent Multimedia Lab" en 2019.

À l'heure actuelle, la tête du laboratoire est le Dr Liu Shan, un scientifique exceptionnel de Tencent, et la seule femme au plus haut rang du système technologique T5 de Tencent.

Liu Shan est diplômée du Département de génie électrique de l'Université de Tsinghua, maîtrise et doctorat du Département de génie électrique de l'Université de Californie du Sud et a officiellement rejoint Tencent en 2017.

Portail:

Adresse open source:

https://github.com/Tencent/DVQA

Adresse miroir domestique:

https://git.code.tencent.com/Tencent_Open_Source/DVQA

- Terminer -

Recrutement sincère

Les qubits recrutent des rédacteurs / journalistes et le lieu de travail est à Zhongguancun, Pékin. Au plaisir de voir des étudiants talentueux et enthousiastes se joindre à nous! Pour plus de détails, veuillez répondre au mot "recrutement" sur l'interface de dialogue QbitAI.

Qubit QbitAI · Auteur du contrat principal

' ' Suivre les nouveaux développements dans la technologie et les produits d'IA

Le danger de l'épidémie et la possibilité pour deux types de véhicules sans pilote d'atterrir | Atelier d'innovation "Après l'épidémie" Partage de la série
Précédent
investissement de 200 millions $ dans du nouveau matériel et logiciel + service! l'industrie informatique Huawei pour accélérer la construction écologique de
Prochain
Retirer l'agent de sécurité, uniquement par les conducteurs AI faire de l'argent, ne vous attendez pas à faire est de prendre la tête de cette entreprise
la chaîne rivale de Maas a fait faillite! Il a brûlé 3,4 milliards $, avait été fortement investi Fils
La nouvelle pneumonie couronne nouvelle recherche: face vers le bas ventre, peut améliorer la fonction pulmonaire chez les patients avec couronne sévère nouveau virus
Huawei ouvert de cadre de recherche AI MindSpore! la formation du temps, peut être déployé multi-scène
New universités de recherche de la couronne Ouest sont montés à bord de la couverture de la science, le monde est première structure pleine longueur ACE2 l'analyse syntaxique
Le paysage en trois dimensions passe de la deuxième à la seconde animation Miyazaki Hayao, mais Ishihara Limei Ghibli peut aussi | Open source
Google propose un algorithme d'optimisation de second ordre "shampooing", le temps de formation du Transformer réduit de 40%
Tencent & Tsinghua a publié les dernières réalisations dans le domaine des nouvelles infrastructures: services de diagnostic de l'IA d'équipement de batterie de centre de données
Le don de sang de 29,840 ml Gongshu cent travailleurs médicaux « aider le sang dans le travail. »
Monde « petits produits » Bienvenue dans 41 pays étrangers 245 Yiwu « affaires »
Sans quitter la maison! VW montrera 1: 1 à la ligne gravé
Total des 1.533 véhicules au premier trimestre à des livraisons totales de véhicules Wei-que prévu Mars