étude approfondie a déclenché une révolution dans la compression d'image

Lei Feng réseau AI Yanxishe Press en 2012, AlexNet avéré, avec un faible taux de rotation de 15,4% cette année a remporté ILSVRC (IMAGEnet à grande échelle la reconnaissance visuelle Challenge) champion, a dépassé runner-up de plus de dix points de pourcentage. AlexNet a ouvert un âge d'or apprentissage en profondeur, suivi d'un apprentissage en profondeur est en plein essor sur la reconnaissance de l'image:

2013, ZF Net avec un faible taux de rotation de 11,2% ILSVRC a remporté le championnat;

2014, VGG taux d'erreur net sur ILSVRC « classification et localisation » correspondent course individuelle de 7,3%, la même année, le taux d'erreur GoogLeNet de 6,7% pour obtenir champion ILSVRC;

D'ici 2015, Microsoft ResNet en ILSVRC 3,6% Taux d'échec;

......

En plus d'une série de percées en reconnaissance d'image, la profondeur de l'apprentissage est en train de révolutionner également des changements à la compression d'image.

Récemment, le dessin canard technologie de presse une technologie de compression TNG (graphique minuscule réseau), qui utilise les réseaux d'apprentissage en profondeur de convolution comme une compression de base de codage. Leur partenaire concentré dans le domaine du divertissement (machines de grue en ligne), la vidéo sociale (plus de communication), des jeux, etc. À l'heure actuelle, l'algorithme sera bientôt disponible dans le commerce. En comparaison avec les algorithmes classiques, l'efficacité de compression, par rapport au format JPEG TNG a augmenté de 120%, soit une augmentation de 30% par rapport WebP. Lors de la compression effet de contraste visuel sous le même taux de compression, TNG que l'effet de JPEG2000 en détail bien meilleure texture.

FIG: au même taux de compression, la complexité du contraste visuel de compression d'image. algorithme figure graphique de canard proposé ci-dessous montre un algorithme JPEG2000. Nous pouvons voir les détails sur l'effet de dessin mieux.

FIG: Dans le cas de TNG bas de mot de code (panneau supérieur) et la WebP (ci-dessous), l'effet de compression de contraste. Par rapport TNG, malgré WebP conserve plus de détails, mais plus de distorsion. qualité TNG image globale est meilleure que WebP.

JPEG est la compression d'image plus commune, tout en obtenant un taux de compression élevé peut montrer des images très riches et vives, mais il utilise le format de compression avec perte, double ou perdu des informations sans importance dans l'image, il est facile à l'image de la cause la perte de données. La principale utilisation de la technique DCT (Discrete Cosine Transform), le signal d'image converti dans le domaine de fréquence, en séparant les informations de haute et basse fréquence, et ensuite la partie à haute fréquence de l'image (à savoir une précision d'image) est compressé, les données d'image compressées afin de parvenir fins.

JPEG JPEG2000 comme une version améliorée prend en charge la compression sans perte et avec perte, taux de compression JPEG supérieure à environ 30%. Il est à renoncer à la transformation en cosinus discrète bloc de codage JPEG à base de DCT utilisé, le passage à multi analysé pour transformée en ondelettes schéma de codage (transformée en ondelettes), principalement à la composante de fréquence d'image extraite.

WebP est le format de fichier de nouvelle génération de Google au lieu d'attentes JPEG, dans le cas de la même qualité des images JPEG, peut réduire considérablement la taille du fichier. WebP basée sur l'utilisation de l'encodeur VP8 (open source est en mai 2010) compresseur d'images, l'utilisation de la technique de codage prédictif, afin de réduire la quantité de données pour accélérer la transmission du réseau de destination.

Le TNG a changé le codage de ces technologies traditionnelles, à son tour, multiplié par la profondeur de l'apprentissage à bord du navire.

Selon la figure de canard PDG technologie Wu Junmin a présenté, ils ont commencé à la recherche et le développement du 16 Août à la technologie TNG, après l'algorithme traditionnel et de l'algorithme d'apprentissage en profondeur en deux étapes. Au départ, ils étaient en H.265 (HEVC), basé sur la recherche, mais H.265 était déjà l'une des meilleures méthodes de codage, de nouvelles idées ne sont pas beaucoup de R & D traditionnelle basée sur cette technologie. A cette époque, l'autre chemin devant leurs yeux, et qui est la profondeur de l'apprentissage.

Changement de direction n'a pas été facile. « Nous envisageons la méthode traditionnelle où les idées et veulent combiner l'apprentissage en profondeur, telles que les méthodes traditionnelles ont prédiction de pixels périphériques, nous combinons cette approche à l'étude, mais on a découvert pas prédire les résultats. Ensuite, nous pensons aussi à la méthode traditionnelle où le TCD , après son intégration à l'étude approfondie, nous avons constaté que l'effet est pas bon. en outre, bien que la profondeur de l'apprentissage est le feu à l'époque, mais cette fois l'utilisation d'une étude approfondie de compression réalisée images, réalisées en effet par rapport à l'ancienne version du H.265 H.264 et JPEG sont bien pires. « , mais ils ont pensé, et là encore, il doit y avoir une possibilités d'apprentissage en profondeur au-delà de H.265.

Ils ont commencé à tourner complètement l'algorithme d'apprentissage en profondeur des algorithmes traditionnels.

Suivi par une série de R & D et de l'innovation. L'effet est remarquable, l'apprentissage en profondeur leur technologie actuelle de compression d'image TNG que H.265, fait une percée sans précédent dans l'index, et le réseau TNG a également un effet de filtrage image compressée, pour une distorsion de l'image sur le réseau, avec TNG effets visuels après compression que l'image encore plus originale.

Figure: Haute TNG le mot de code (ci-dessus) avec le contraste BPG (ci-dessous). Dans les tests pratiques, le BPG apparaît dans le bloc représenté sur la figure., Quelle est la distorsion haute fréquence provoquée par des effets sonnerie. BPG sonne parce que, malgré les différents blocs de contenu n'est pas la même image lors de l'encodage de compression, mais en utilisant les mêmes paramètres de codage, la dégradation de l'image causée par la perte de la quantité d'informations, notamment la perte d'informations à haute fréquence.

«Compression TNG ne compresse autant de fois conduisent à la qualité subjective se aggrave, mais aussi pour restaurer JPEG et d'autres méthodes pour apporter la distorsion partielle » Wu Junmin de Lei Feng réseau AI Yanxishe a dit, il a cité les exemples suivants: Certains utilisent HEVC ou effet de compression d'image JPEG de la présence du bloc (blockiness: obtenir de transformation à base de blocs de codage en compression d'image de codage est largement utilisé, avec le faible débit binaire, la quantification devient rugueuse, la limite de bloc apparaît de manière discontinue, formant une image reconstruite défauts évidents). Cependant, après le traitement avec le réseau TNG, l'effet de blocage disparaîtra.

Vous pouvez voir la profondeur des technologies d'apprentissage dans le TNG, il a un effet visuel très fort. Actuellement en images, la compression vidéo, la plupart de l'utilisation de la technique d'apprentissage en profondeur est le réseau de neurones convolutionnel (CNN), ce qui suit est une méthode typique du réseau de neurones de convolution à faire la compression.

Comme cela est représenté, y compris le réseau CNN codage, une quantification, quantification inverse, le décodage CNN, le codage entropique, et de plusieurs autres modules, dans lequel le codec peut être conçu et convolution des structures de réseau, mis en commun, le module non linéaire.

Le rôle du codage réseau est de convertir la fonction de compression d'image, réseau de décodage est de restaurer l'image d'origine de la fonction de compression.

Ce qui suit est l'utilisation de la profondeur de compression apprendre à faire une série de vulgarisation scientifique:

Des exemples d'images, la taille d'un 768 * 512 image dans un réseau de codage à trois canaux, effectuées avant et après le traitement, seront occupés 96 * 64 * 192, dans lequel l'unité de données compressées. Ces données peuvent être placés dans une unité à virgule flottante, ou un nombre entier binaire. Après cela, il est lié au type de choix de données.

Du point de vue de la restauration de l'image et la théorie des réseaux de neurones est concerné, si les données caractéristiques de compression sont des nombres à virgule flottante, la qualité d'image restaurée est le plus élevé. Cependant, un flotteur occupe 32 bits, l'image est calculée (96 * 64 * 32 * 192) / (768 * 512) = 96, comprimé à partir de 24 bits de chaque pixel occupe changé en 96, mais la taille a augmenté l'image , apparemment des nombres à virgule flottante est pas un bon choix.

Et ici, sur les technologies clés impliquées dans celle-ci - à quantifier.

Le but de quantification consiste à convertir un nombre entier ou à virgule flottante nombre binaire, est l'opération la plus simple pour éliminer la virgule flottante arrière, à virgule flottante à une conversion de nombre entier après occupe seulement 8 bits, chaque pixel d'occuper 24 bits. De même, du côté décodage, des techniques de quantification inverse peut être utilisé pour restaurer les données de caractéristiques converties à virgule flottante, de manière à ajouter un nombre entier décimal aléatoire, ce qui peut réduire l'effet de la précision de quantification du réseau de neurones dans une certaine mesure, ce qui renforce l'image restaurée qualité.

Même si la caractéristique de compression de chaque bit de données occupe 1, mais la compression peut encore place à l'amélioration. Ce qui suit est une formule de calcul de la BPP.

On suppose que chaque unité de compression de données de fonction occupe 1 bit, la formule peut être écrite comme: (96 * 64 * 192 * 1) / (768 * 512) = 3, le résultat de calcul est un 3 bits / pixel, la compression de l'objet de la vue, BPP plus le mieux. Dans cette équation, le dénominateur déterminé par le réglage de l'image, seules les molécules où: 96,64,192, ces trois figures associées à la structure du réseau. Par conséquent, si la conception d'une meilleure structure du réseau, les trois chiffres sont devenus plus petits.

1 associé à ce que des modules? La figure 1 montre une caractéristique de compression de chaque unité de données, en moyenne, occupent un bit, la quantification aura une incidence sur cette figure, mais ce ne sont pas le seul facteur, également en rapport avec le codage entropique et de commande de débit. des fins de contrôle de débit est rétablie dans la prémisse d'assurer la qualité de l'image, de sorte que la compression de données unité de données de distribution de fonction en tant que concentration, plage de valeurs apparaissent aussi faible que possible, afin que nous puissions réduire encore ce nombre par une technique de codage entropie, l'image taux de compression sera encore améliorée.

(Pour plus de détails, voir Lei Feng réseau avait signalé: un algorithme de compression avec une image de conception apprentissage en profondeur la vidéo: plus concis, plus puissant)

spécifique TNG au réseau, représente Wujun Min, cette technique semble très simple, est d'utiliser un réseau de neurones convolutionnel, il y a principalement la transformation, la quantification, le filtrage, l'entropie des techniques de codage. Le but ultime de ces techniques est seul, et qui est la distribution de probabilité estimée de l'image, ce qui est le plus difficile.

« Nous ne savons pas quelle est la distribution de probabilité à la fin, il est nécessaire de concevoir le réseau, pour adapter la distribution de probabilité de l'image, l'apprentissage. En fin de compte, mais aussi considérer comment les images Compresser, de sorte que la qualité de l'image et de la portée du taux distribution optimale ".

Il a dit que bien que les regards de la technologie très simple, il est connecté en série il n'y a pas de défi, mais l'algorithme de formation est très complexe, et dans celui-ci, ils fosse un pas, il y a beaucoup.

Le premier n'est pas un bon modèle pour quantifier, quantifient quand ils voulaient d'abord pour diriger des données tronquées, puis ont utilisé la modélisation, mais il y a un tel problème - ne passe pas aller gradient arrière. Grâce à des tests continus, ils adoptent enfin la voie de l'apprentissage supervisé pour résoudre ce problème.

Et il y a aussi une question d'efficacité. Ils commencent par un réseau plus profond, mais plus tard, afin d'améliorer la vitesse, réduire la complexité du réseau, et lentement essayer d'utiliser un réseau de canaux plus petit et plus faible profondeur. De plus, dans le projet, ils essaient d'utiliser l'optimisation assembleur et d'autres moyens.

Pour les avantages techniques de TNG, Wu Junmin résumé dans les deux points suivants: premièrement, la compression de l'image TNG valeur PSNR par rapport à l'apprentissage profond de la haute compression actuellement divulguée 2dB dans la même taille, d'autre part, TNG compressé images, la qualité subjective aucun effet de blocage, les effets de sonnerie. « Nous utilisons la vue complète de la compression directe, et l'image générale est compressé à l'aide du bloc compresse. »

Quant à la vitesse, Wu Junmin de la grippe aviaire Yanxishe dit, pour l'instant, et par rapport au format JPEG, TNG sur une compression CPU est plus lente, mais, sur le GPU, 1000 * 1000 images à quelques dizaines de millisecondes à la compression complète.

En fait, en plus de la compression d'image, ils sont actuellement dans la compression vidéo est également progresser. Wu Junmin a déclaré que leur compression vidéo en cours et a été X265 (pour le codage en ligne avec haute efficacité de codage vidéo (HEVC / H.265) vidéo standard) effet de plat de niveau moyen. La prochaine étape, ils continueront à faire des percées dans l'image et la vidéo, l'amélioration continue.

L'application des technologies d'apprentissage dans le domaine de la compression d'image vidéo profondeur, Wu Junmin très optimiste. Il dit à Amnesty International Yanxishe, deux ou trois ans, le GPU sera très populaire, et l'algorithme de compression TNG fonctionne particulièrement bien sur le GPU. En outre, il a également mentionné, la compression TNG est caractéristique de l'image, qui dispose d'une forte caractérisation de la performance, l'utilisation future de ces caractéristiques peut faire quelque chose pour gérer plusieurs tâches.

« En profondeur l'image d'apprentissage pour la compression vidéo, est absolument révolutionnaire de compression de la prochaine génération, et non H.266, mais l'étude en profondeur de compression. » Wu Junmin cas dit.

À l'heure actuelle, ils peuvent entrer dans le dessin de canard algorithme d'expérience site officiel de TNG, à l'adresse suivante: http: //www.tucodec.com/picture/index

bureau Ricoh facilement le bout des doigts la sagesse RiMall magasin d'applications d'analyse
Précédent
Fondée cinq ans seulement, il a débarqué sur le marché boursier de Hong Kong sur Internet de l'hiver
Prochain
CSHIA a accueilli AI + Forum maison intelligente pour explorer AI compatible intelligent étage de la maison à la pratique
« Cinq soeurs » directeur «âgé Su ans » non-photoréaliste sera à la fin
Lenovo Mobile un retour, Chang Cheng série et Z font
Une banque centrale doit acheter des actions directement? Vous voulez simple
Yang Mi le nouveau film nominé pour le festival du film de Toronto, des films d'art "enfants" bébé 19 octobre sortie nationale
Hardcore Artiste: créateurs de « Metro »
Never give up | grande vision
portraits nouveaux moyens créatifs, photographes et Nikon MZ Z 7
Hisense 2018 sagesse SSHT débuts à domicile avec la « technologie noire » pour montrer la maison future
« héros aventure alimentaire braiser » super matériel, la louange pays paternité gagné « films d'Hollywood » Man
Deux gros cochons et les trois petits cochons, est de permettre aux étudiants trois enfants? Non, c'est Wufu réuni Ok! Cité Interdite jouera de plus en plus, cette fois-ci apportent également China P
Fin interviewé sept producteurs, je Programme Chine Star « pour devenir plus confiant et