Explication d�taill�e de l'application de la technologie d'am�lioration vid�o iQIYI ZoomAI

Dingdong ~ Vous avez �t� touch� par le bien-�tre! � partir de maintenant, "2020 AI Developer Ten Thousand Conference" 299 billets sont gratuits! Acc�dez � la page d'inscription [2020 AI Developer Ten Thousand Conference (Online Live Tickets) -IT Training Live-CSDN Academy], cliquez sur "S'inscrire maintenant", utilisez le code de r�duction "AIP1410" lors du r�glement, le prix deviendra "0" yuan !

Regarder divers programmes vid�o est devenu une m�thode actuelle de divertissement et de loisirs. Les progr�s de la technologie et la mise � niveau de la vitesse du r�seau ont am�lior� notre plaisir visuel, mais vous rencontrerez toujours certaines situations, telles que le scintillement et la couleur des vieux films / s�ries t�l�vis�es. Dim; la bande passante de l'utilisateur est limit�e, choisissez le mode de flux binaire faible; la qualit� vid�o / courte vid�o t�l�charg�e par l'UP principal est incontr�lable, etc. Alors, comment optimiser la technologie pour fournir aux utilisateurs un contenu vid�o de meilleure qualit�?

Le professeur Jiang Zidong, ing�nieur principal en algorithmes d'iQIYI, a r�cemment partag� un cours ouvert sur l'application de la technologie d'am�lioration vid�o iQIYI ZoomAI sur la plate-forme du camp de base de technologie AI. Gr�ce � ce cours, vous serez en mesure de comprendre l'application des algorithmes d'IA dans le domaine de l'am�lioration de l'image et des affaires iQiyi; comprendre l'�volution technique des mod�les d'apprentissage profond tels que la super-r�solution, l'am�lioration des couleurs et la suppression des rayures, ainsi que les d�fis et les solutions en ing�nierie .

Ce qui suit est le compte rendu du discours de l'enseignant Jiang Zidong

Bonsoir tout le monde! Je suis Jiang Zidong, un ing�nieur en algorithme d'iQiyi. Je suis honor� de participer � cet �v�nement aujourd'hui. Je souhaite �galement la bienvenue � tout le monde pour participer � ce partage de la technologie d'am�lioration vid�o ZoomAI. C'est �galement l'un de mes principaux emplois chez iQiyi.

Ce partage aura probablement ces quatre aspects:

Tout d'abord, l'arri�re-plan de cette technologie et pourquoi avons-nous besoin d'une am�lioration vid�o?

Deuxi�mement, nous pr�sentons les principes de diverses technologies d'am�lioration dans des vid�os ou des images, y compris les derniers articles acad�miques, et certaines de nos propres pens�es et tentatives.

Troisi�mement, pr�senter le cadre de la technologie iQiyi ZoomAI et son application dans divers secteurs d'activit�.

Quatri�mement, partagez le r�sum� et quelques r�f�rences.

1. L'importance et l'�tat de la technologie d'am�lioration vid�o / image

Voyons maintenant pourquoi nous voulons am�liorer la vid�o. Depuis l'ann�e derni�re, tout le monde s'entend pour dire que l'industrie de la vid�o est entr�e dans l'�re de l'Ultra HD. L'ann�e derni�re, CCTV a �galement lanc� une nouvelle cha�ne de t�l�vision ultra haute 4K. Nous constaterons que les produits mat�riels sur le march� sont essentiellement Ultra HD ou 4K. Il s'agit d'un �cran de t�l�vision, d'un d�codeur, d'un appareil VR, etc. En fait, bien que nous ayons autant de p�riph�riques mat�riels haute d�finition, nous n'avons en fait pas autant de ressources vid�o ultra haute d�finition. On peut m�me dire que la qualit� de nombreuses ressources vid�o est tr�s faible. Pourquoi cela arrive-t-il? Nous avons r�sum� les raisons suivantes:

La premi�re raison est que le comportement de l'utilisateur est incontr�lable. Tout le monde sait que les applications vid�o ou images UGC r�centes sont tr�s populaires, c'est-�-dire que les utilisateurs peuvent filmer, produire et t�l�charger eux-m�mes de nombreuses courtes vid�os et images. Par exemple, comme Weibo, Douyin, Circle of Friends, etc., iQIYI a �galement beaucoup d'applications telles que la vid�o, le pain d'�pice et les bulles, mais le comportement de l'utilisateur est incontr�lable et l'utilisateur manque d'�quipement de prise de vue professionnel et de comp�tences de prise de vue. Par exemple, la prise de vue en basse lumi�re provoque beaucoup de bruit en arri�re-plan et l'image est trop sombre. Par exemple, l'image est compress�e plusieurs fois pendant la diffusion, ce qui entra�ne un bruit de compression important.

La deuxi�me raison est que sa source est tr�s ancienne. Par exemple, dans les deux exemples suivants, "Longing" � gauche a 90 ans et "Nurse Diary" � droite est un film en noir et blanc de 1957.

Parce que la r�solution des m�dias pr�c�dents comme VCD et DVD est inf�rieure � 720P. On peut le regarder bri�vement, par exemple, c'est l'effet de "D�sir", il y a beaucoup de bruits sur le visage du personnage, et il y a beaucoup de rayures sur le fond. Vous pouvez voir qu'il y a beaucoup de bruit sur le visage, puis il y aura des rayures dans le film, qui sont des lignes horizontales, et les d�tails sont �galement flous. Ensuite, comme le "Journal de l'infirmi�re" ici, vous pouvez voir qu'il y a une �vidence Beaucoup de rayures et de taches blanches. Nous pouvons voir qu'il y a beaucoup de rayures blanches ou noires sur la table � c�t�. La raison en est que cela peut �tre le dommage du film lui-m�me, ou qu'il peut �tre introduit pendant le processus de conversion du film en num�risation, ce qui entra�nera ces probl�mes � droite, tels que les rayures, le bruit et la gigue.

Enfin, les utilisateurs choisissent activement le faible d�bit binaire. Un probl�me objectif est que m�me si la qualit� est bonne, je dois regarder la faible qualit�. Pourquoi? Parce que, par exemple, ce peut �tre la fin du mois, ou le signal r�seau � l'endroit o� je me trouve n'est pas bon, je dois choisir le mode low stream. �tant donn� que le faible d�bit binaire est s�lectionn�, le serveur r�duira la r�solution autant que possible et ajoutera plus de compression, ce qui g�n�rera beaucoup de bruit de compression.

Cela montre qu'il existe plusieurs raisons pour une vid�o de faible qualit�. Alors que tout le monde poursuit de plus en plus haut, le besoin d'am�liorer la qualit� des vid�os ou des images est devenu de plus en plus urgent. Nous pouvons regarder la litt�rature pertinente sur l'am�lioration de l'image et de la vid�o au fil des ans, et nous pouvons voir que c'est une tendance � l'am�lioration progressive.

2. Le principe de la technologie d'am�lioration vid�o / image et les d�fis auxquels elle est confront�e

Parce que nous avons mentionn� pr�c�demment que les raisons de la mauvaise qualit� des images ou des vid�os sont multidimensionnelles. En fait, chaque dimension fait l'objet de recherches acad�miques et industrielles.

La super-r�solution est de r�soudre le probl�me de la basse r�solution; le d�bruitage et la nettet� sont de r�soudre le probl�me du bruit de fond ou du bruit de compression; l'am�lioration des couleurs est de r�soudre le probl�me de la couleur grise; l'interpolation est la faible fr�quence d'images; le grattage est d� au film Il y a de nombreuses rayures sur la vid�o caus�es par les dommages, ou des points blancs, des blocs blancs ou des taches d'eau.

Examinons d'abord le probl�me de la super r�solution. Je pense que la description de ce probl�me devrait �tre comprise par les amis qui viennent dans cette classe. C'est une image basse r�solution. Apr�s un module, cela devient une haute r�solution. Figure. Si nous utilisons le mod�le d'apprentissage en profondeur le plus populaire pour compl�ter cela, il s'agit g�n�ralement d'un mod�le CNN, obtenez une carte � haute r�solution, puis nous avons une vraie carte � haute r�solution, entre les deux Prendre une perte et minimiser cette perte pour optimiser les coefficients dans le CNN par transfert inverse.

Il y a deux probl�mes principaux: le premier est la conception structurelle de CNN, comment concevoir cette structure de mod�le, afin qu'elle puisse effectivement restaurer ou cr�er plus de pixels. En fait, il s'agit ici de cr�er des pixels, car les pixels d'origine sont peu nombreux, et deviennent plus de pixels apr�s haute r�solution.

Le deuxi�me point est de savoir comment le choix de la fonction Loos peut rendre les d�tails ou les bords de l'image plus clairs.

Jetons un coup d'il � plusieurs pratiques courantes:

La premi�re cat�gorie est le super score d'une seule image.

L'entr�e est une image et la sortie est une image haute r�solution de l'image d'entr�e. Cette image est un r�sum� de cet article de DBPN dans le coin inf�rieur droit. Je l'ai apport�. Premi�rement, le coin sup�rieur gauche est la m�thode DNN originale, qui est une petite image. Elle est d'abord amplifi�e par un processus d'interpolation traditionnel, comme l'interpolation bilin�aire, puis amplifi�e par un r�seau enti�rement convolutionnel. Le plus classique ici est le SRCNN, qui utilise l'apprentissage en profondeur pour obtenir des super scores, suivi de son VDSR �volutif. La principale diff�rence entre le VDSR est qu'il forme finalement la diff�rence entre les deux, au lieu de g�n�rer directement Zhang Zhang's Figure. Ce r�sidu global sera �galement utilis� ult�rieurement, et l'effet de mesure r�el est bon.

Le coin inf�rieur gauche est la premi�re convolution compl�te, et enfin un processus de sur�chantillonnage qui peut utiliser la d�convolution ou des sous-pixels, qui repr�sentent FSRCNN et EDSR. Il a l'avantage que la taille de l'image d'entr�e est relativement petite lorsqu'il effectue cette convolution compl�te, donc le premier avantage est sa vitesse. Ensuite, cela m'a donn� une chance de former cette chose, c'est-�-dire que mon zoom n'est pas un zoom direct, il peut avoir un coefficient d'entra�nement.

Bien que les deux � droite soient de nouvelles m�thodes, en fait, elles conviennent pour zoomer deux fois ou plus. Comme le zoom ci-dessus comme celui-ci Lap, la premi�re fois que vous entendez le nom, vous savez que vous d�composez d'abord l'image, puis Par exemple, si vous souhaitez effectuer un zoom avant huit fois, vous devez d'abord zoomer deux fois, puis deux fois, puis deux fois, au lieu de huit fois � la fois.

Le DBPN dans le coin inf�rieur droit est une image qui est d'abord agrandie puis r�duite, puis agrandie puis r�duite, puis chaque module au milieu est tous connect�s par une m�thode telle que DenseNet, et enfin un r�sultat est obtenu apr�s la fusion. Il y a des comparaisons de donn�es dans le propre article de DBPN. Ses performances ne sont pas aussi bonnes que EDSR lorsqu'il est agrandi deux fois. Ce n'est que lorsque le multiple �lev� d�passe le score que l'avantage peut se refl�ter dans cette structure. Le prix est que la complexit� de l'op�ration et le temps qu'elle consomme ainsi que la consommation de m�moire m�moire vont augmenter.

Le deuxi�me type est la super-r�solution bas�e sur des images multi-images.

Parce que dans de nombreux cas, nous traitons de vid�o, nous pouvons r�ellement utiliser la relation entre les images avant et arri�re de la vid�o, car les images avant et arri�re ont plus de d�tails, nous pouvons afficher plus de d�tails. Comment fusionner la relation entre les cadres avant et arri�re? Une fa�on consiste � utiliser le temps comme nombre de canaux. Dans des circonstances normales, nous avons trois canaux pour une image. S'il y a trois images, il s'agit en fait de neuf canaux. Ensuite, traitez-la comme une chose � neuf canaux, puis effectuez directement le traitement suivant par convolution 2D. Vous pouvez �galement utiliser Autre dimension, le temps est g�r� par convolution 3D.

La deuxi�me m�thode de fusion des images avant et arri�re consiste � utiliser le flux optique, qui est �galement tr�s populaire r�cemment et sera utilis� dans de nombreux domaines de la vid�o. Parmi les algorithmes qui prennent en compte la relation entre les images avant et arri�re, il existe une grande classe de m�thodes qui utilisent le flux optique. Voyons bri�vement ce qu'est le flux optique. Regardez cette personne � gauche. Quand il a pris une fl�che de son dos, son coude est pass� de cette position � cette position. En fait, chaque pixel ici Le mouvement du point est le flux optique. Si une compr�hension grossi�re peut �tre consid�r�e comme une sorte d'estimation de mouvement.

Parce qu'il existe diff�rents r�seaux qui peuvent apprendre le flux optique, en supposant que notre flux optique a �t� appris, comment pouvons-nous nous int�grer? Il est mentionn� dans l'article TOFlow que si nous avons ce cadre et ses cadres pr�c�dent et suivant, nous pouvons l'estimer en fonction du flux optique entre les deux cadres, le cadre actuel bas� sur le point pr�c�dent, ou selon La trame suivante pour estimer la trame actuelle, donc nous avons trois trames actuelles, c'est-�-dire la trame actuelle r�elle et deux trames actuelles estim�es, nous assemblons ces trois trames, apr�s un processus de convolution 2D et 3D, Vous pouvez obtenir la carte super-r�solution r�sultante.

La structure de notre mod�le actuel est la suivante: d'abord, nous utilisons le traitement d'une seule trame, puis le sur�chantillonnage une fois, puis les r�sidus globaux.

Parce que nous avons en fait compar� la diff�rence entre une seule image et plusieurs images, et nous avons constat� qu'� l'il nu, l'effet de l'image unique est tr�s proche de celui de l'image multiple. Dans ce cas, la consommation de plusieurs images sera beaucoup plus importante, et il y aura Certains autres effets, nous avons donc choisi une m�thode de traitement d'image unique. Pourquoi n'utiliser qu'un seul sur�chantillonnage? Dans notre sc�nario commercial, l'image sera essentiellement agrandie deux fois, il est peu probable qu'elle soit agrandie quatre fois, il est donc le plus rentable d'utiliser directement une seule photo. La structure de DenseNet est d'emprunter l'id�e de DBPN et d'introduire plus de fonctionnalit�s de bas niveau. Ensuite, les r�sidus globaux, car apr�s VDRI, la plupart des super scores prendront essentiellement la forme de r�sidus globaux. Parce qu'il est concevable que l'image basse r�solution et l'image haute r�solution soient fondamentalement les m�mes aux basses fr�quences. La seule diff�rence est les d�tails. Cet ajout signifie que l'image de droite est la composante basse fr�quence. Apprenez simplement ces d�tails � haute fr�quence.

En ce qui concerne le choix de la fonction de perte, la plus courante est la perte de L1 ou L2, c'est-�-dire mse ou mae. De nombreux articles ont �galement �t� discut�s. La perte de mse entra�nera naturellement une image floue. Il existe une grande classe appel�e Perte de GAN, qui g�n�re des pixels en fonction de la distribution de l'image. La perte de GAN peut �tre consid�r�e comme tr�s �tonnante dans de nombreuses d�mos, mais nous avons constat� qu'il y a deux probl�mes majeurs dans le processus d'utilisation.

Le premier peut causer le probl�me de l'incoh�rence s�mantique. Nous pouvons regarder la bo�te. � gauche, il n'y a pas de GAN, et � droite est GAN. Vous pouvez voir que l'image de droite est en effet beaucoup plus claire que la gauche.

Mais le probl�me est "trop clair". La vraie coiffure de l'image originale � l'extr�me droite est en fait un soleil, mais bien que l'image agrandie par GAN soit tr�s claire, elle ne peut pas voir le soleil. Cela change donc la s�mantique du graphique. Bien que celui de gauche soit flou, il ne peut tout simplement pas �tre vu clairement, mais la s�mantique n'est pas modifi�e. Si nous visons des images t�l�charg�es par des utilisateurs d'images UGC, nous ne pouvons pas modifier l'intention initiale de l'utilisateur sans autorisation. Nous devons faire un compromis entre la pr�cision s�mantique et les images floues. Nous pensons que la pr�cision s�mantique est plus importante.

Le deuxi�me probl�me avec les GAN est d'amplifier le bruit. Les images � basse r�solution sont souvent accompagn�es de bruit, qui peut �tre visualis� par le GAN comme une chose sp�cifique.

Notre choix final est mse plus une perte de gradient. La perte de gradient est en fait une perte courante dans le r�seau de pr�diction d'action, ce qui n�cessite que le gradient du graphique g�n�r� et du graphique r�el soit coh�rent. Parce que le d�grad� est le bord. Dans de nombreux cas, notre super score est de rendre les bords plus nets. Apr�s avoir ajout� la perte de gradient, les bords de l'ensemble du r�seau auront tendance � �tre nets. Nous pouvons regarder l'exemple suivant, celui de gauche est le plus courant, et voici le los sans gradient, et la perte de gradient est ajout�e ici, c'est-�-dire que le bord des cheveux est plus net.

Ci-dessous, nous pouvons voir un exemple de super score dans la vid�o. Cet exemple a �t� montr� au Congr�s mondial iQIYI l'ann�e derni�re. Vous pouvez voir que l'image globale � gauche est plus floue et l'image � droite sera plus claire. Il s'agit d'une vid�o de 540P � 1080P.

J'ai d�j� pr�sent� un algorithme de cloud. En fait, la m�thode d'apprentissage en profondeur ne convient pas au terminal mobile. Bien qu'il existe des cadres d'apprentissage en profondeur mobile tels que tflite et ncnn, il n'a pas �t� bien adapt� � la machine apr�s tout. De nombreux t�l�phones mobiles bas de gamme ne peuvent pas r�ellement ex�cuter ce mod�le de g�n�ration. Nous consid�rons principalement l'efficacit� du c�t� mobile, nous utilisons donc un filtre monocouche pour r�aliser la formation et l'optimisation.

Apr�s avoir parl� de super-r�solution, parlons du probl�me du d�bruitage. Le bruit dans l'image est principalement le bruit de fond et le bruit de compression. G�n�rez un r�seau, donc fondamentalement tout ce qui est mentionn� pr�c�demment peut apprendre les uns des autres. Par exemple, le c�t� droit guide �galement ces r�sidus globaux.

En fait, il y a deux principaux probl�mes de d�bruitage:

La premi�re est que le d�bruitage lui-m�me est un filtre passe-bas, c'est-�-dire qu'il peut essentiellement �tre approch� comme un filtre passe-bas. Comment puis-je conserver les bords et les d�tails autant que possible lors de la suppression du bruit?

La seconde est de savoir comment simuler un bruit r�el, car de nombreux articles ont en fait dit que de nombreuses m�thodes de d�bruitage sont tr�s bonnes sur l'ensemble de test de bruit synth�tique, car elles sont �galement form�es � l'aide de m�thodes synth�tiques artificielles lors de la formation, par exemple Ajoutez un bruit gaussien, mais cette fois peut ne pas fonctionner sur l'image r�elle, alors comment mieux simuler la cause r�elle est �galement un gros probl�me.

Nous pouvons jeter un oeil � deux r�seaux de d�bruitage classiques. Le premier est DNCNN, qui est un mod�le enti�rement convolutionnel. Nous entrons un graphique de bruit, et apr�s une convolution multicouche, nous obtenons finalement un r�sidu global. Lors de l'entra�nement, il ajoute divers niveaux de d�bruitage gaussien � l'ensemble d'apprentissage pour simuler l'ensemble de donn�es qui provoque plus de m�lange. Le deuxi�me est CBDNet, qui est CVPR en 2019. Son r�seau est divis� en deux parties. Tout d'abord, nous devons estimer le niveau de bruit apr�s une image, puis saisir le niveau de bruit estim� dans le deuxi�me r�seau, ajouter l'image d'origine, puis calculer un Le chiffre final g�n�r�. Il introduit �galement une perte asym�trique au milieu, qui est bas�e sur l'exp�rience pour trouver l'estimation de bruit pr�c�dente. Si l'estimation est �galement inexacte, l'estimation plus petite est meilleure que l'estimation plus grande. La perte asym�trique signifie que la p�nalit� des deux c�t�s est incoh�rente.

Lorsque nous faisons cela, nous adoptons un r�seau de bout en bout pour terminer le d�bruitage et la nettet� en m�me temps. Le bruit est principalement le bruit de fond et le bruit de compression. Dans le m�me temps, le d�bruitage et la nettet� sont effectu�s pour compenser le flou des bords provoqu� par le d�bruitage La structure du r�seau est tr�s similaire au super score pr�c�dent.

Comment terminer la cr�ation et l'aff�tage en m�me temps? En fait, l'id�e g�n�rale est d'ajouter une certaine proportion de bruit et de flou dans l'ensemble d'entra�nement, puis de rester proche de la situation r�elle, puis de s'adapter constamment, puis d'obtenir un meilleur effet.

Vous pouvez voir quelques exemples de vraies images. Le bruit autour de la main verte a disparu. Ensuite, dans l'image de "D�sir" � droite, par exemple, le texte est mis en surbrillance, et la texture en treillis des v�tements sera plus claire.

Ensuite, regardons le probl�me suivant, le probl�me de l'am�lioration des couleurs. Il r�sout principalement le probl�me de la luminosit� de l'image ou de la vid�o, des couleurs trop lumineuses, surexpos�es ou sombres. Il existe deux m�thodes principales, la premi�re est le mode bo�te noire Il s'agit d'un mod�le de g�n�ration de bout en bout, qui consiste � prendre un mauvais graphique et, apr�s ce r�seau, � convolution compl�te ou non, puis � g�n�rer un bon graphique, tel que DPE repr�sente 18 ans de CVPR. Le r�seau pr�c�dent est une structure non r�tablie. Apr�s avoir sorti une image, alors si nous avons une paire de personnes concern�es, c'est-�-dire qu'il y a une mauvaise image et la bonne image correspondante apr�s PS artificiel, alors nous pouvons utiliser la perte de mse + La perte de GAN pour le faire, si nous n'avons pas de donn�es appari�es, nous utilisons cycleGAN pour le faire. Pourquoi est-ce le mode bo�te noire? Parce que ce que nous obtenons finalement est un graphique am�lior�, nous ne savons pas comment il transforme un mauvais graphique en un bon graphique.

Le deuxi�me type est le mod�le � bo�te blanche. Ce r�seau n'est pas un r�seau g�n�ratif, mais un mod�le de r�gression. Entrer l'image d'origine et sortir divers param�tres li�s aux couleurs.L'�tape suivante consiste � utiliser la m�thode de traitement d'image normale pour traiter l'image d'origine. On peut se r�f�rer � la m�thode d'exposition propos�e par Microsoft, qui int�gre l'apprentissage par renforcement et GAN, �tape par �tape pour transformer un mauvais graphique en un bon graphique, pourquoi l'apprentissage par renforcement? C'est la m�me chose que de jouer aux �checs. Par exemple, il y a 12 pi�ces, dont chaque �tape doit �tre effectu�e en premier, laquelle doit �tre effectu�e plus tard, et le montant de chaque �tape peut �tre ajust�.

Nous pouvons r�sumer ces deux m�thodes: premi�rement, le mod�le de bo�te noire est relativement facile � former, car il s'agit d'un mod�le g�n�ratif, et les mod�les g�n�ratifs utilis�s auparavant peuvent �tre form�s. Mais son probl�me est qu'il peut y avoir des valeurs aberrantes dans les blocs de couleur qui peuvent provoquer des incoh�rences s�mantiques. Apr�s tout, le principe de convolution se traduit par le fait que la valeur de pixel de sortie est li�e � d'autres valeurs de pixel dans le champ r�cepteur en plus de la valeur de pixel d'origine. Le deuxi�me probl�me est que si l'image d'origine est tr�s grande, cette fois sera tr�s lente.

Le mod�le de bo�te blanche est en fait plus conforme aux habitudes du PS humain. Apr�s avoir obtenu une image, il vous suffit de savoir quels param�tres ajuster pour changer. Et il est plus adapt� au traitement vid�o. Mais son probl�me est que la formation est difficile � faire converger, et les meilleurs exemples en vigueur peuvent ne pas �tre aussi bons que les bo�tes noires.

Afin de stabiliser le mod�le en ligne, nous avons con�u une version bo�te blanche tr�s simplifi�e par rapport � l'exposition. Tout d'abord, nous n'introduisons plus l'apprentissage par renforcement, nous ne traitons que ces trois quantit�s: exposition, saturation et balance des blancs. Parce qu'apr�s de nombreuses exp�riences, nous avons constat� que ces trois valeurs sont les plus importantes pour ajuster la couleur de l'image. Ensuite, nous avons fix� sa commande. Enfin, nous avons deux pertes lorsque nous demandons une perte. La premi�re perte est le mse du graphique am�lior� et le tr�s bon graphique, car nous avons des ensembles de donn�es appari�s, comme le FiveK d'Adobe. La seconde perte est le mse du param�tre de r�glage de la couleur Comment cette valeur de v�rit� est-elle obtenue? Nous pouvons �galement cr�er des ensembles de donn�es auto-construits. Apr�s avoir obtenu une bonne image, nous r�duisons d�lib�r�ment son exposition et sa saturation. � ce stade, nous savons r�ellement combien d'exposition et de saturation doivent �tre ajout�es pour la r�cup�rer. . Nous pouvons donc �galement fusionner ces deux pertes, d'une part pour obtenir la perte de ce mse, d'autre part pour rendre ces pertes de r�gression �galement plus petites, ce qui peut rendre l'ensemble du mod�le plus stable. Dans le m�me temps, son calcul est tr�s petit, une grande image peut �tre r�duite � 64 � 64 pour le traitement.

En regardant l'effet de traitement final, les premi�re et troisi�me colonnes sont les images originales, et les deux colonnes � droite sont les images am�lior�es. Apr�s avoir ajust� la luminosit�, la saturation et la balance des blancs, nous pouvons voir que l'effet est toujours correct.

La question suivante est de savoir comment maintenir la coh�rence entre les images dans le traitement vid�o. Dans de nombreux cas, notre vid�o est r�alis�e image par image. Comment vous assurer que la couleur rouge de cette image est rouge positif et que l'image suivante doit �galement �tre rouge positif. Si elle devient de plus en plus sombre plus tard, vous trouverez Les couleurs tremblent. Comment r�soudre ce probl�me? Il y a tr�s peu de discussions sur ce probl�me dans les journaux publics, et nous avons con�u une solution: d'abord passer la segmentation de la sc�ne, puis effectuer le mod�le de bo�te blanche. Une fois qu'une image vid�o est segment�e, nous pouvons la diviser en diff�rentes sc�nes. La base de cette segmentation de sc�ne est de trouver les changements soudains de la couleur de l'image. Ensuite, nous s�lectionnons une image dans chaque sc�ne pour effectuer le mod�le de bo�te blanche afin d'obtenir les param�tres. , Toutes les images de cette sc�ne utilisent les m�mes param�tres pour l'am�lioration des couleurs.

Nous pouvons regarder un exemple vid�o simple, les am�liorations de couleur apport�es � "D�sir", telles que les feuilles seront plus vertes.

Apr�s avoir termin� l'am�lioration des couleurs, regardez les rayures ci-dessous. Le grattage est en fait un probl�me relativement mineur, et il y a relativement peu de papiers, principalement parce que le film lui-m�me a �t� endommag�. Par exemple, certaines personnes peuvent gratter le film, et il y aura une rayure quand il sera finalement diffus�, ou il sera perturb� par la t�te magn�tique ou quelque chose pendant la lecture, et ce type d'ondulation de haut en bas se d�placera.

La solution � ce type de probl�me, la m�thode classique est une approche en deux �tapes, d'abord la d�tection des rayures, puis supprimez les rayures, la d�tection des rayures dans la plupart des cas adopte la m�thode de d�tection en ligne droite, la d�tection en ligne droite consiste � trouver l'espace Lignes verticales, lignes horizontales et lignes droites, puis utilisez l'interpolation spatiale ou l'interpolation temporelle pour compl�ter cette ligne avec d'autres pixels. Ses d�fauts sont plus �vidents: premi�rement, si la rayure n'est pas une ligne droite, c'est une tache d'eau, c'est une tache blanche, elle est courb�e et l'effet peut ne pas fonctionner. Deuxi�mement, l'image elle-m�me peut avoir des lignes horizontales ou verticales, telles que des poteaux t�l�phoniques ou des textures sur la table, elle sera donc supprim�e par erreur.

Alors, comment g�rer cette m�thode? Nous pouvons nous r�f�rer � la m�thode de flux optique mentionn�e dans le super score pr�c�dent pour concevoir, mais il y a ici une pr�misse que la rayure ne peut appara�tre qu'� cette position de cette image, et elle n'appara�tra pas � la m�me position des images pr�c�dente et suivante. Ceci est d�termin� par le principe des rayures, car il est impossible que deux films produisent exactement les m�mes rayures au m�me endroit. Une fois que nous avons cette pr�misse, nous pouvons concevoir le mod�le ci-dessus, utiliser le flux optique pour estimer une certaine trame, puis effectuer la fusion.

Mais il y a un probl�me, comment pouvons-nous nous assurer que les images 2k avant et apr�s cela sont dans la m�me sc�ne? Parce qu'il y a des clips dans la vid�o normale, une commutation de sc�ne se produit. � ce moment, l'algorithme de sc�ne que nous venons de mentionner peut �tre r�utilis�. Nous pouvons voir l'effet final.

La derni�re question concerne l'insertion d'images. La technique d'insertion d'images est en fait tr�s facile � comprendre, c'est-�-dire que la fr�quence d'images vid�o d'origine est relativement faible. Comment pouvons-nous augmenter la fr�quence d'images de la vid�o pour rendre l'exp�rience de visionnage de films plus fluide, comme les sports en direct, ou Les films d'animation ou de combat, les films d'arts martiaux peuvent �tre plus utilis�s. Les m�thodes traditionnelles sont essentiellement comme ceci, estim�es par flux optique, puis d�form�es, apr�s fusion, tr�s similaires � la structure avant de se gratter.

Par exemple, cet article de CVPR18, vous pouvez voir que c'est le flux optique sur le c�t� et la fusion sur la droite. O� est son innovation? Il s'agit d'ajouter une extraction des bords et de faire quelques fonctionnalit�s de bord, pour s'assurer que le cadre final synth�tis� et ins�r� a �galement de meilleurs bords. Il n'y a pas d'impl�mentation open source pour cet article. Nous avons effectu� quelques r�ductions sur la base de ce mod�le, car celui de droite est trop volumineux. Regardons simplement la vid�o originale sur le c�t� gauche de l'effet. Lorsque la voiture glisse pour voir une carte, une carte et une carte, celle de droite sera plus fluide.

3. Pr�senter la mise en uvre et l'application de la technologie ZoomAI

La troisi�me partie est l'introduction du cadre et de l'application de ZoomAI.

Solution d'image ZoomAI. Pour les images, il en a trois dans la super-r�solution de la bo�te � outils, une nettet� d�bruitante, une am�lioration des couleurs. Parce qu'elles sont toutes r�alis�es sur une seule image, apr�s avoir saisi une image, ces trois interfaces peuvent faire de m�me, afin que chaque ligne m�tier puisse �tre librement configur�e, quels outils sont utilis�s et dans quel ordre sont-ils finalement , Ou quels sont les param�tres respectifs, peuvent �tre configur�s de mani�re flexible, c'est le sch�ma 1.0.

Dans la version 2.0, nous avons ajout� la compr�hension du contenu. Pensons maintenant � de nombreuses images. Par exemple, l'arri�re-plan est flou lors de la prise de vue en mode portrait. Pour l'instant, l'arri�re-plan ne doit pas �tre accentu�. S'il y a du texte dans cette image, le texte L'aff�tage de la zone peut �tre fait avec beaucoup d'audace. Donc, dans 2.0, nous passons d'abord par la d�tection de texte pour d�tecter la zone de texte, et utilisons �galement un r�seau d'extraction de premier plan pour d�tecter la zone de premier plan et la zone d'arri�re-plan de cette image, puis le module de chaque zone est le module avant 1.0, et enfin obtenir Un r�sultat.

Regardons le diagramme sch�matique. Par exemple, dans cette image, Xie Na lui-m�me est la zone de premier plan, la partie du texte est la zone de texte et le reste est la zone d'arri�re-plan.

Solution vid�o ZoomAI. Cette solution vid�o dispose de plusieurs outils, deux premiers outils de pr�traitement - segmentation des sc�nes et suppression des images r�p�t�es, puis certains algorithmes entre les images - pour supprimer les rayures et ins�rer des images, puis un algorithme � une seule image - Super score, d�bruitage et nettet�, am�lioration des couleurs, etc. pour le traitement d'une seule image. Chaque vid�o est d�compress�e en une image, puis les images r�p�t�es sont supprim�es, puis la sc�ne est segment�e, et chaque sc�ne est soumise s�par�ment � un algorithme inter-images et � un algorithme � image unique, et enfin synth�tis�e avec l'audio d'origine pour devenir la vid�o finale. La partie m�diane peut �tre ajust�e � tout moment selon la logique du m�tier.

Divers sc�narios commerciaux et d'utilisation. On peut voir que ZoomAI contient d�j� plusieurs modules d'algorithmes, qui sont utilis�s dans plusieurs gammes de produits et plusieurs sc�narios d'application d'iQiyi.

Ce qui suit d�crit certains sc�narios d'application existants. Tout d'abord, c'est le projet de cette r�paration dramatique nationale. Il utilise principalement les deux modules de d�bruitage et d'aff�tage et de suppression des rayures. Mise en �vidence.

Le plus grand avantage du traitement de l'IA par rapport au traitement manuel ici est une efficacit� accrue, un co�t r�duit et une efficacit� accrue de 500 fois. Les r�sultats de la premi�re p�riode de la restauration de l'op�ra national ont �t� lanc�s lors de la F�te du Printemps. Nous nous pr�parons maintenant � lancer le deuxi�me lot de s�ries t�l�vis�es classiques, dont quatre uvres c�l�bres en �t�.

Il s'agit du traitement de vieilles vid�os de vari�t�s. La collection compl�te du conteur "Autant en emporte le vent" vient d'�tre lanc�e sur iQiyi. Sa r�solution d'origine est tr�s faible, seulement 240P, et il y a beaucoup de dents de scie. Aller en ligne. Prenons l'exemple: la texture du tableau est plus claire et l'image originale de gauche sera plus floue.

Il y a une am�lioration d'animation ci-dessous, nous utilisons le module super-point et l'am�lioration des couleurs, le rouge � droite sera plus rouge. Regardons l'effet de la vid�o. L'herbe � droite sera plus verte et la couleur g�n�rale sera plus vive. Le rouge ici, y compris le jaune qui appara�tra plus tard, sera plus vif dans l'ensemble. Et apr�s l'adoption de la segmentation de la sc�ne, la couleur ne tremblera pas et est tr�s stable.

Ceci est un affichage de l'animation 3D "Four Sea Whale Ride". Celui de gauche est original. Vous pouvez voir que le bateau est coinc� un par un lors du virage. Celui de droite est �videmment plus lisse. Surtout lorsque l'objectif est d�zoom�, il y a un fort sentiment de stagnation � gauche, et la droite sera lisse.

L'effet de l'am�lioration de la pochette de chaque canal est le suivant. La pochette que vous voyez lorsque vous ouvrez iQiyi est essentiellement am�lior�e par ZoomAI. Les modules utilis�s sont le d�bruitage et l'am�lioration des couleurs.

4. Recommandations de ressources avanc�es et partage d'exp�rience

Ici, nous nous concentrons sur la question de la pens�e technique. Les deux groupes, les cercles universitaires et les applications d'ing�nierie, sont diff�rents: le premier se concentre principalement sur la conception de mod�les et l'innovation, tandis que les applications d'ing�nierie consacrent la majeure partie de leur temps aux donn�es et � la formation.

Le point le plus important de notre entreprise est les donn�es. Contrairement aux comp�titions kaggle, nous n'avons pas de jeux de donn�es pr�ts � l'emploi. Nous devons nous appuyer sur diverses techniques d'ing�nierie pour collecter des donn�es qui refl�tent les sc�narios d'application r�els. La qualit� des donn�es affecte consid�rablement l'effet du mod�le final. Ensuite, pour les r�sultats du mod�le, des indicateurs tels que le PSNR peuvent �tre utilis�s comme r�f�rence, mais en fin de compte, cela d�pend des sentiments subjectifs. Dans la formation des super scores et des trames interpol�es, nous avons rencontr� de nombreuses situations o� A est meilleur que B, mais sentons subjectivement que B est meilleur que A. Apr�s tout, ce sont les sentiments subjectifs qui sont finalement pr�sent�s � l'utilisateur. C'est aussi la d�viation des indicateurs d'�valuation actuels. Beaucoup de documents li�s au GAN ont �t� �labor�s, et nous �tudions �galement cette question.

Pour le choix du mod�le, nous accordons plus d'attention � la stabilit� et � la capacit� de g�n�ralisation du mod�le. Apr�s tout, c'est un service en ligne, pas pour un effet d�mo �poustouflant. Bien s�r, lors du choix et de la conception d'un mod�le, vous devez �galement prendre en compte des contraintes plus restrictives, telles que les contraintes sur la taille du mod�le lui-m�me, les contraintes sur la vitesse d'ex�cution et le cadre � utiliser pour prendre en charge, etc. Trouver enfin un �quilibre entre efficacit� et efficience.

Enfin, j'ai mentionn� la source des articles des algorithmes mentionn�s plus haut. Les amis int�ress�s peuvent regarder de plus pr�s. C'est � peu pr�s ce que j'ai partag� aujourd'hui.

Route de la soie

Apprenez � conna�tre la Chine

Explication d�taill�e de l'application de la technologie d'am�lioration vid�o iQIYI ZoomAI | Million People Learning AI