�tude approfondie a d�clench� une r�volution dans la compression d'image

Lei Feng r�seau AI Yanxishe Press en 2012, AlexNet av�r�, avec un faible taux de rotation de 15,4% cette ann�e a remport� ILSVRC (IMAGEnet � grande �chelle la reconnaissance visuelle Challenge) champion, a d�pass� runner-up de plus de dix points de pourcentage. AlexNet a ouvert un �ge d'or apprentissage en profondeur, suivi d'un apprentissage en profondeur est en plein essor sur la reconnaissance de l'image:

2013, ZF Net avec un faible taux de rotation de 11,2% ILSVRC a remport� le championnat;

2014, VGG taux d'erreur net sur ILSVRC � classification et localisation � correspondent course individuelle de 7,3%, la m�me ann�e, le taux d'erreur GoogLeNet de 6,7% pour obtenir champion ILSVRC;

D'ici 2015, Microsoft ResNet en ILSVRC 3,6% Taux d'�chec;

......

En plus d'une s�rie de perc�es en reconnaissance d'image, la profondeur de l'apprentissage est en train de r�volutionner �galement des changements � la compression d'image.

R�cemment, le dessin canard technologie de presse une technologie de compression TNG (graphique minuscule r�seau), qui utilise les r�seaux d'apprentissage en profondeur de convolution comme une compression de base de codage. Leur partenaire concentr� dans le domaine du divertissement (machines de grue en ligne), la vid�o sociale (plus de communication), des jeux, etc. � l'heure actuelle, l'algorithme sera bient�t disponible dans le commerce. En comparaison avec les algorithmes classiques, l'efficacit� de compression, par rapport au format JPEG TNG a augment� de 120%, soit une augmentation de 30% par rapport WebP. Lors de la compression effet de contraste visuel sous le m�me taux de compression, TNG que l'effet de JPEG2000 en d�tail bien meilleure texture.

FIG: au m�me taux de compression, la complexit� du contraste visuel de compression d'image. algorithme figure graphique de canard propos� ci-dessous montre un algorithme JPEG2000. Nous pouvons voir les d�tails sur l'effet de dessin mieux.

FIG: Dans le cas de TNG bas de mot de code (panneau sup�rieur) et la WebP (ci-dessous), l'effet de compression de contraste. Par rapport TNG, malgr� WebP conserve plus de d�tails, mais plus de distorsion. qualit� TNG image globale est meilleure que WebP.

JPEG est la compression d'image plus commune, tout en obtenant un taux de compression �lev� peut montrer des images tr�s riches et vives, mais il utilise le format de compression avec perte, double ou perdu des informations sans importance dans l'image, il est facile � l'image de la cause la perte de donn�es. La principale utilisation de la technique DCT (Discrete Cosine Transform), le signal d'image converti dans le domaine de fr�quence, en s�parant les informations de haute et basse fr�quence, et ensuite la partie � haute fr�quence de l'image (� savoir une pr�cision d'image) est compress�, les donn�es d'image compress�es afin de parvenir fins.

JPEG JPEG2000 comme une version am�lior�e prend en charge la compression sans perte et avec perte, taux de compression JPEG sup�rieure � environ 30%. Il est � renoncer � la transformation en cosinus discr�te bloc de codage JPEG � base de DCT utilis�, le passage � multi analys� pour transform�e en ondelettes sch�ma de codage (transform�e en ondelettes), principalement � la composante de fr�quence d'image extraite.

WebP est le format de fichier de nouvelle g�n�ration de Google au lieu d'attentes JPEG, dans le cas de la m�me qualit� des images JPEG, peut r�duire consid�rablement la taille du fichier. WebP bas�e sur l'utilisation de l'encodeur VP8 (open source est en mai 2010) compresseur d'images, l'utilisation de la technique de codage pr�dictif, afin de r�duire la quantit� de donn�es pour acc�l�rer la transmission du r�seau de destination.

Le TNG a chang� le codage de ces technologies traditionnelles, � son tour, multipli� par la profondeur de l'apprentissage � bord du navire.

Selon la figure de canard PDG technologie Wu Junmin a pr�sent�, ils ont commenc� � la recherche et le d�veloppement du 16 Ao�t � la technologie TNG, apr�s l'algorithme traditionnel et de l'algorithme d'apprentissage en profondeur en deux �tapes. Au d�part, ils �taient en H.265 (HEVC), bas� sur la recherche, mais H.265 �tait d�j� l'une des meilleures m�thodes de codage, de nouvelles id�es ne sont pas beaucoup de R & D traditionnelle bas�e sur cette technologie. A cette �poque, l'autre chemin devant leurs yeux, et qui est la profondeur de l'apprentissage.

Changement de direction n'a pas �t� facile. � Nous envisageons la m�thode traditionnelle o� les id�es et veulent combiner l'apprentissage en profondeur, telles que les m�thodes traditionnelles ont pr�diction de pixels p�riph�riques, nous combinons cette approche � l'�tude, mais on a d�couvert pas pr�dire les r�sultats. Ensuite, nous pensons aussi � la m�thode traditionnelle o� le TCD , apr�s son int�gration � l'�tude approfondie, nous avons constat� que l'effet est pas bon. en outre, bien que la profondeur de l'apprentissage est le feu � l'�poque, mais cette fois l'utilisation d'une �tude approfondie de compression r�alis�e images, r�alis�es en effet par rapport � l'ancienne version du H.265 H.264 et JPEG sont bien pires. � , mais ils ont pens�, et l� encore, il doit y avoir une possibilit�s d'apprentissage en profondeur au-del� de H.265.

Ils ont commenc� � tourner compl�tement l'algorithme d'apprentissage en profondeur des algorithmes traditionnels.

Suivi par une s�rie de R & D et de l'innovation. L'effet est remarquable, l'apprentissage en profondeur leur technologie actuelle de compression d'image TNG que H.265, fait une perc�e sans pr�c�dent dans l'index, et le r�seau TNG a �galement un effet de filtrage image compress�e, pour une distorsion de l'image sur le r�seau, avec TNG effets visuels apr�s compression que l'image encore plus originale.

Figure: Haute TNG le mot de code (ci-dessus) avec le contraste BPG (ci-dessous). Dans les tests pratiques, le BPG appara�t dans le bloc repr�sent� sur la figure., Quelle est la distorsion haute fr�quence provoqu�e par des effets sonnerie. BPG sonne parce que, malgr� les diff�rents blocs de contenu n'est pas la m�me image lors de l'encodage de compression, mais en utilisant les m�mes param�tres de codage, la d�gradation de l'image caus�e par la perte de la quantit� d'informations, notamment la perte d'informations � haute fr�quence.

�Compression TNG ne compresse autant de fois conduisent � la qualit� subjective se aggrave, mais aussi pour restaurer JPEG et d'autres m�thodes pour apporter la distorsion partielle � Wu Junmin de Lei Feng r�seau AI Yanxishe a dit, il a cit� les exemples suivants: Certains utilisent HEVC ou effet de compression d'image JPEG de la pr�sence du bloc (blockiness: obtenir de transformation � base de blocs de codage en compression d'image de codage est largement utilis�, avec le faible d�bit binaire, la quantification devient rugueuse, la limite de bloc appara�t de mani�re discontinue, formant une image reconstruite d�fauts �vidents). Cependant, apr�s le traitement avec le r�seau TNG, l'effet de blocage dispara�tra.

Vous pouvez voir la profondeur des technologies d'apprentissage dans le TNG, il a un effet visuel tr�s fort. Actuellement en images, la compression vid�o, la plupart de l'utilisation de la technique d'apprentissage en profondeur est le r�seau de neurones convolutionnel (CNN), ce qui suit est une m�thode typique du r�seau de neurones de convolution � faire la compression.

Comme cela est repr�sent�, y compris le r�seau CNN codage, une quantification, quantification inverse, le d�codage CNN, le codage entropique, et de plusieurs autres modules, dans lequel le codec peut �tre con�u et convolution des structures de r�seau, mis en commun, le module non lin�aire.

Le r�le du codage r�seau est de convertir la fonction de compression d'image, r�seau de d�codage est de restaurer l'image d'origine de la fonction de compression.

Ce qui suit est l'utilisation de la profondeur de compression apprendre � faire une s�rie de vulgarisation scientifique:

Des exemples d'images, la taille d'un 768 * 512 image dans un r�seau de codage � trois canaux, effectu�es avant et apr�s le traitement, seront occup�s 96 * 64 * 192, dans lequel l'unit� de donn�es compress�es. Ces donn�es peuvent �tre plac�s dans une unit� � virgule flottante, ou un nombre entier binaire. Apr�s cela, il est li� au type de choix de donn�es.

Du point de vue de la restauration de l'image et la th�orie des r�seaux de neurones est concern�, si les donn�es caract�ristiques de compression sont des nombres � virgule flottante, la qualit� d'image restaur�e est le plus �lev�. Cependant, un flotteur occupe 32 bits, l'image est calcul�e (96 * 64 * 32 * 192) / (768 * 512) = 96, comprim� � partir de 24 bits de chaque pixel occupe chang� en 96, mais la taille a augment� l'image , apparemment des nombres � virgule flottante est pas un bon choix.

Et ici, sur les technologies cl�s impliqu�es dans celle-ci - � quantifier.

Le but de quantification consiste � convertir un nombre entier ou � virgule flottante nombre binaire, est l'op�ration la plus simple pour �liminer la virgule flottante arri�re, � virgule flottante � une conversion de nombre entier apr�s occupe seulement 8 bits, chaque pixel d'occuper 24 bits. De m�me, du c�t� d�codage, des techniques de quantification inverse peut �tre utilis� pour restaurer les donn�es de caract�ristiques converties � virgule flottante, de mani�re � ajouter un nombre entier d�cimal al�atoire, ce qui peut r�duire l'effet de la pr�cision de quantification du r�seau de neurones dans une certaine mesure, ce qui renforce l'image restaur�e qualit�.

M�me si la caract�ristique de compression de chaque bit de donn�es occupe 1, mais la compression peut encore place � l'am�lioration. Ce qui suit est une formule de calcul de la BPP.

On suppose que chaque unit� de compression de donn�es de fonction occupe 1 bit, la formule peut �tre �crite comme: (96 * 64 * 192 * 1) / (768 * 512) = 3, le r�sultat de calcul est un 3 bits / pixel, la compression de l'objet de la vue, BPP plus le mieux. Dans cette �quation, le d�nominateur d�termin� par le r�glage de l'image, seules les mol�cules o�: 96,64,192, ces trois figures associ�es � la structure du r�seau. Par cons�quent, si la conception d'une meilleure structure du r�seau, les trois chiffres sont devenus plus petits.

1 associ� � ce que des modules? La figure 1 montre une caract�ristique de compression de chaque unit� de donn�es, en moyenne, occupent un bit, la quantification aura une incidence sur cette figure, mais ce ne sont pas le seul facteur, �galement en rapport avec le codage entropique et de commande de d�bit. des fins de contr�le de d�bit est r�tablie dans la pr�misse d'assurer la qualit� de l'image, de sorte que la compression de donn�es unit� de donn�es de distribution de fonction en tant que concentration, plage de valeurs apparaissent aussi faible que possible, afin que nous puissions r�duire encore ce nombre par une technique de codage entropie, l'image taux de compression sera encore am�lior�e.

(Pour plus de d�tails, voir Lei Feng r�seau avait signal�: un algorithme de compression avec une image de conception apprentissage en profondeur la vid�o: plus concis, plus puissant)

sp�cifique TNG au r�seau, repr�sente Wujun Min, cette technique semble tr�s simple, est d'utiliser un r�seau de neurones convolutionnel, il y a principalement la transformation, la quantification, le filtrage, l'entropie des techniques de codage. Le but ultime de ces techniques est seul, et qui est la distribution de probabilit� estim�e de l'image, ce qui est le plus difficile.

� Nous ne savons pas quelle est la distribution de probabilit� � la fin, il est n�cessaire de concevoir le r�seau, pour adapter la distribution de probabilit� de l'image, l'apprentissage. En fin de compte, mais aussi consid�rer comment les images Compresser, de sorte que la qualit� de l'image et de la port�e du taux distribution optimale ".

Il a dit que bien que les regards de la technologie tr�s simple, il est connect� en s�rie il n'y a pas de d�fi, mais l'algorithme de formation est tr�s complexe, et dans celui-ci, ils fosse un pas, il y a beaucoup.

Le premier n'est pas un bon mod�le pour quantifier, quantifient quand ils voulaient d'abord pour diriger des donn�es tronqu�es, puis ont utilis� la mod�lisation, mais il y a un tel probl�me - ne passe pas aller gradient arri�re. Gr�ce � des tests continus, ils adoptent enfin la voie de l'apprentissage supervis� pour r�soudre ce probl�me.

Et il y a aussi une question d'efficacit�. Ils commencent par un r�seau plus profond, mais plus tard, afin d'am�liorer la vitesse, r�duire la complexit� du r�seau, et lentement essayer d'utiliser un r�seau de canaux plus petit et plus faible profondeur. De plus, dans le projet, ils essaient d'utiliser l'optimisation assembleur et d'autres moyens.

Pour les avantages techniques de TNG, Wu Junmin r�sum� dans les deux points suivants: premi�rement, la compression de l'image TNG valeur PSNR par rapport � l'apprentissage profond de la haute compression actuellement divulgu�e 2dB dans la m�me taille, d'autre part, TNG compress� images, la qualit� subjective aucun effet de blocage, les effets de sonnerie. � Nous utilisons la vue compl�te de la compression directe, et l'image g�n�rale est compress� � l'aide du bloc compresse. �

Quant � la vitesse, Wu Junmin de la grippe aviaire Yanxishe dit, pour l'instant, et par rapport au format JPEG, TNG sur une compression CPU est plus lente, mais, sur le GPU, 1000 * 1000 images � quelques dizaines de millisecondes � la compression compl�te.

En fait, en plus de la compression d'image, ils sont actuellement dans la compression vid�o est �galement progresser. Wu Junmin a d�clar� que leur compression vid�o en cours et a �t� X265 (pour le codage en ligne avec haute efficacit� de codage vid�o (HEVC / H.265) vid�o standard) effet de plat de niveau moyen. La prochaine �tape, ils continueront � faire des perc�es dans l'image et la vid�o, l'am�lioration continue.

L'application des technologies d'apprentissage dans le domaine de la compression d'image vid�o profondeur, Wu Junmin tr�s optimiste. Il dit � Amnesty International Yanxishe, deux ou trois ans, le GPU sera tr�s populaire, et l'algorithme de compression TNG fonctionne particuli�rement bien sur le GPU. En outre, il a �galement mentionn�, la compression TNG est caract�ristique de l'image, qui dispose d'une forte caract�risation de la performance, l'utilisation future de ces caract�ristiques peut faire quelque chose pour g�rer plusieurs t�ches.

� En profondeur l'image d'apprentissage pour la compression vid�o, est absolument r�volutionnaire de compression de la prochaine g�n�ration, et non H.266, mais l'�tude en profondeur de compression. � Wu Junmin cas dit.

� l'heure actuelle, ils peuvent entrer dans le dessin de canard algorithme d'exp�rience site officiel de TNG, � l'adresse suivante: http: //www.tucodec.com/picture/index

Route de la soie

Apprenez � conna�tre la Chine

�tude approfondie a d�clench� une r�volution dans la compression d'image