Une brève histoire du style d'image de migration (Neural style)

Les lecteurs pour: pas d'expérience ou ont un apprentissage de la machine et les lecteurs intéressés par les principes derrière l'application Prisma et similaires. Les lecteurs plus expérimentés peuvent se référer à des citations directes à la fin de l'arbre technologique pour lire l'article ci.

Temps de lecture: 10-20 minutes

Note: sur la carte, s'il vous plaît attention à la circulation.

Migration de style d'image arbre tech

Avant-propos: Quelle est la migration de style d'image?

Tout d'abord sur un ensemble de graphiques à barres. Chacun des tableau ci-dessous est un style différent. En tant que les professionnels non-art, je ne tire aucun style artistique est, tout le monde a le point de vue de tout le monde, certaines choses sur le monde de l'art n'a pas clairement défini. Comment faire une image de style dans une autre question de style encore plus difficile à définir. Pour les programmeurs, en particulier pour les programmeurs d'apprentissage de la machine, cette définition vague est tout simplement un cauchemar. En fin de compte comment dire ne peut pas dire une chose dans un programme exécutable, il est en proie par le problème de nombreux chercheurs aspects migrées de style d'image.

Avant les réseaux de neurones, programme de migration de style d'image ont un point commun: un certain type de style, analyse d'image, et de lui donner un style crée un modèle mathématique ou statistique, puis changer l'image de la migration faire mieux en mesure de répondre à la modèle établi. Faites-le hors effet est bon, comme le montrent les trois chiffres suivants, mais un gros désavantage: Un programme de base ne peut faire un certain type de style ou une certaine scène. Par conséquent, sur la base de l'application pratique de la recherche sur la migration traditionnelle est très limitée.

Voir la migration de temps les photos

Changé le statu quo est deux documents Gatys, avant que le programme d'imiter une peinture une image ne peut pas être imaginés.

Les premiers algorithmes de migration de style d'image basée sur les réseaux de neurones, le temps de génération: 5-20 minutes

Dans cet article, vous ne verrez pas des formules mathématiques, si vous voulez une compréhension plus détaillée des mathématiques qui peuvent ensuite lire les documents originaux. Je veux parler d'essayer de repartir à zéro, de Gatys et al., 2015a et Gatys et al., Histoire 2015b de quelques-uns de la technologie utilisée dans le démarrage avec, la meilleure façon de rendre le style clair basé sur l'image du réseau de neurones de la migration Quelle idée est et pourquoi Gatys peut penser à utiliser des réseaux de neurones pour réaliser la migration de style d'image.

Si vous, alors, je vais continuer à écrire à ce sujet des progrès sur un certain nombre d'intéressés style Neural dernières recherches ou études liées à un autre type de génération d'image, contre le réseau et similaires. Il n'y a pas de lieu où une écriture d'erreur s'il vous plaît ne hésitez pas à me corriger.

Neural Style de yuans il y a 20 ans il y a 3 ans

Pour comprendre ce que l'image d'un style d'ordinateur qui ne peut être attribuée à l'étude en 2000 et antérieures images de génération de texture. Il est évident que l'article de la migration d'image de style, pourquoi il vient d'imaginer la texture? Ici, je voudrais garder le secret il.

Je comprends qu'en 2015, tous les papiers sur la texture de l'image sont la modélisation manuelle (tel que le modèle A Texture Parametric basé sur les statistiques conjointe du complexe Wavelet Coefficients), l'un des plus idée importante est utilisée: Texture modèle statistique peut être utilisé pour décrire l'image caractéristique locale. Sans cette condition préalable à tous les modèles de la question. Quelle est les caractéristiques statistiques de celui-ci, il suffit de donner la châtaigne

Cette image peut être appelée texture de châtaignes, la texture a cette caractéristique est que tous les marrons ont des ouvertures, représente une ouverture avec un modèle mathématique simple, alors, est un arc d'environ deux arcs qui se croisent bien, statistiquement jusqu'à cette texture est dit que la probabilité de deux arcs qui se croisent arc de relativement grande, ce qui peut être appelé caractéristiques statistiques. Avec cette prémisse ou une idée après le succès des chercheurs utilisant des modèles mathématiques sophistiqués et des formules pour résumer et générer une certaine texture, mais après tout, du temps de modélisation manuelle, (populaire pour dire, imaginez un calcul mathématique ouverture manuelle des châtaignes modèle, a calculé le modèle peut être appliqué en plus sur les pistaches sur une vaine ...) n'était pas présent dans le calcul de la puissance et fort téléphone mobile, la lenteur des progrès de la recherche dans ce domaine, donc dix ans plus tard.

Les premiers résultats de la génération de texture

En même temps, la migration suivant le style de l'image de la porte est pas beaucoup mieux, encore pire que la génération de texture. Parce que la génération de texture, peu importe quel genre de texture pour générer au moins appel génération de texture, cependant, le style d'image migré dans ce domaine n'était même pas un nom propre ne sont pas, parce que chaque algorithmes de style sont des tubes de chacun, et il n'y a pas grand-chose entre eux en commun. Tels que la migration peinture à l'huile, qui utilise sept étapes différentes et caractéristiques décrites migration peinture. Un autre exemple est l'image de la migration dans le style utilisé dans les trois étapes à la migration d'une sorte d'avatar style de la photographie à l'autre. Pas plus de dix étapes dans un lourd genre de style peut être vu dans la recherche de traitement d'image en 2015 sont essentiellement se battre entre eux, crissant l'algorithme n'a pas causé de l'attention. Bien que le contraste Photoshop pour la retouche manuelle, mais plus utile que la plupart des algorithmes.

Avatar de style Migration

Peinture à l'huile de style migration

En même temps, un des plus grands progrès de la recherche informatique dans le domaine peut dire de l'infographie. (Cela a des connaissances pertinentes peuvent ignorer la lecture après aucun effet.) Simple, l'infographie est maintenant la base de presque tous les jeux, que ce soit son petit ami 1 (champ 1) dans une guerre à l'arrière des scènes de bataille, ou FGO comme Voyage à la main, le travail et en fin de compte, derrière les générations de chercheurs graphiques. Dans leur journée et la nuit pour étudier comment rendre le programme dans le papier soeur pour devenir chair et de sang comme le point temporel des points d'arbre technologique sur une branche importante: la carte graphique (GPU). Depuis le début de la machine de jeu venait d'être né avec la carte vidéo. fonction de traitement graphique est bien sûr les images maximum et d'affichage. Contrairement à la CPU, CPU début monothread, à savoir que gérer une tâche, le GPU peut gérer plusieurs tâches à la fois, bien que la vitesse des tâches individuelles et la capacité de traitement de la CPU beaucoup de différence. Par exemple, un 128x128 jeu Super Mario, le traitement du processeur, chaque image doit exécuter ho 128x128 = 16384, tandis que le GPU peut être calculée comme tous les pixels en même temps, un seul pas de temps, beaucoup plus rapide que le CPU. Afin de rendre le jeu plus en plus proche de la réalité, les graphiques au cours des 20 dernières années est devenu de mieux en mieux. Par coïncidence, la croissance explosive de puissance de calcul de la carte graphique directement conduit à la montée de la résurrection et de l'apprentissage en profondeur du réseau de neurones sont placés le jeu plus d'une décennie, les similitudes que les réseaux de neurones et des graphiques de jeux informatiques est à la fois de grandes quantités de données doivent être répétées seul calcul. Si vous ne pouvez pas dire que l'industrie du jeu est pas une étude approfondie, il n'y a pas de style Neural. Donc, je voulais apprendre à venir vapeur apprentissage machine acheter acheter support achat pour la recherche graphique (par erreur).

reconnaissance d'objets IMAGEnet en utilisant un an numéro de compétition par équipe GPU après année, le taux d'erreur est en baisse

Je voudrais mentionner le réseau de neurones un peu parler de réseaux de neurones (en particulier du réseau de neurones convolution) et la différence entre les pratiques traditionnelles, doivent savoir que vous pouvez sauter ce paragraphe. réseau neuronal convolutif divisé en plusieurs couches, chaque couche est réalisée en un seul lot de neurones artificiels. Chaque neurone peut être considéré comme un identifiant, des châtaignes, alors il est juste la combinaison d'un ou plusieurs de chaque neurone peut être utilisé pour identifier une caractéristique, comme l'ouverture de la châtaigne. La formation avant qu'ils ne soient au hasard, et par conséquent ne peut pas le faire, le processus de formation, ils seront automatiquement transformé en un identifiant différent en combinaison avec l'autre et, après un grand nombre de combiné peut reconnaître reconnaisseur l'objet. En plus de régler l'ensemble du processus et des paramètres de conception du réseau de neurones du début de l'autre entièrement automatique. Ici, nous ne présentons pas les réseaux de neurones (réseau de neurones) et réseau de neurones de convolution (Convolutif Neural Network) spécifiquement la façon de travailler, si le travail ne comprenait pas comment spécifique pour les réseaux de neurones, je crois que l'Internet a beaucoup, beaucoup liés à l'introduction et tutoriel, les parties intéressées peuvent aller à savoir, ne comprennent pas ne modifie pas la lecture de cet article.

Circonvolution réseau de neurones Legend

Neural style de yuans il y a 1 an il y a 3 ans

2012-2014, quand le feu a commencé l'apprentissage en profondeur, une des principales causes de l'incendie est parce qu'il a été trouvé l'apprentissage en profondeur peut être utilisé pour former le modèle de reconnaissance d'objets. Certains modèle précédent de reconnaissance d'objets avec des parties différentes de la géométrie de l'objet et la comparaison afin d'identifier, selon une certaine couleur, selon une modélisation 3D, selon certaines caractéristiques locales. algorithme de reconnaissance d'objet classique est une valeur que, selon mention de l'objet de comparaison des fonctionnalités locales est identifiée, qui fonctionne comme suit:

Par exemple, notre objectif est de trouver la personne dans l'image:

L'objet cible

Pour ce programme est un groupe de personnes pixels Eh bien, il ne peut lui ordonner de trouver les mots pour comparer un pixel, puis revenir au plus proche (voisin le plus proche). Mais en réalité, la forme de la couleur de l'objet changera, si seulement celui-photo à portée de main, allez directement à la vitesse et la précision est trop faible. Certains chercheurs pensent que cette photos individuelles peuvent être divisés en plusieurs petits morceaux et un morceau de comparaison (méthode appelée sac de fonctionnalités). Enfin, le nombre de blocs d'une région similaire mis en place cette zone balisée. L'avantage de cette approche est que même un petit morceau d'identifier un problème, il y a d'autres morceaux peuvent être identifiés comme la base, le risque d'erreurs est considérablement réduit qu'auparavant.

Sac de Caractéristiques

Le plus grand inconvénient de cette approche est qu'elle est considérée comme un petit morceau de pixels et les valeurs de pixels selon la comparaison, les résultats des changements mentionnés précédemment en changeant la forme de la lumière sur l'objet ne peut pas être reconnu simplement question n'a pas été résolu.

Faites convolution la théorie des réseaux de neurones et reconnaissance d'objets est en fait pas très différent sac de caractéristiques, Juste une fonction utile (fonction) sont montés à l'intérieur du réseau de neurones . Il suffit de mentionner le réseau de neurones formés extraira automatiquement les plus fonctionnalités utiles, il n'est plus seulement une simple caractéristique de l'objet d'origine un petit morceau d'un petit morceau de produit de coupe, mais choisir la meilleure façon d'extraire le réseau de neurones .

Convolution réseau de neurones caractéristiques extraites schématique, chaque cellule représente un neurone est activé dont la plupart image.

L'un d'une convolution de reconnaissance d'objets réseau réseau de neurones a été appelé est VGG19 le plus célèbre, structuré comme suit:

Structure de réseau VGG19

Chaque couche de la couche de sortie du réseau de neurones va être davantage extrait à l'aide des fonctions plus complexes, peut être utilisé jusqu'à ce que le complexe d'identifier l'objet, Par conséquent, chaque couche peut être considérée comme un certain nombre d'extracteur de caractéristiques local . la précision de reconnaissance d'objets VGG19 jeté devant une grande partie de l'algorithme, après les systèmes de reconnaissance d'objets de base utilisent un apprentissage en profondeur.

En raison de l'excellente performance VGG19, il a causé beaucoup d'intérêt et de discussion, mais interne spécifique VGG19 faire vraiment difficile à comprendre, parce que chaque paramètres internes de neurones juste un tas de chiffres. Chaque neurone a des centaines de plusieurs centaines d'entrées et de sorties, pour distinguer clairement une relation entre un neurone et le neurone difficile. Donc, quelqu'un est venu avec une façon: Bien que nous ne savons pas comment les neurones travail, mais si l'on sait son état d'activation, ne sera pas en mesure de comprendre les réseaux de neurones plus d'aide? Donc, ils ont fait une procédure (méthode appelée propagation de retour, et les méthodes de formation du réseau de neurones du même, mais en sens inverse les images générées.) Correspondant à chaque neurone peut l'activer dans l'image pour découvrir, avant que extraction de caractéristiques est une vue schématique de la bande ainsi produite. Il était plus loin, penser, eh puisque nous pouvons trouver des conditions pour activer un neurone, il peut mettre tous les neurones sur le « chien « pour trouver, de sorte qu'ils sont tous activés, puis la recherche d'un réseau de neurones dire look « chien » comme beaucoup plus est ce fait ?:

Réseaux de neurones chien imaginé

Ceci est un réseau de neurones a imaginé le look plus chien parfait, très psychédélique, peut se sentir une faction a présenté un style d'art sur. Et toutes les images peuvent légèrement modifiée de sorte que le réseau de neurones produit l'illusion que le programme de chien est appelé rêve profond.

rêve profond

année Neural style

Avec autant de literie, tous les éléments ont été mis en place, les arbres pré-technologie ont été allumés, enfin en mesure d'obtenir à la. La migration du style d'image basée sur le réseau de neurones fait en 2015 par le Gatys et al dans deux documents: Gatys et al, 2015a et Gatys et al, 2015b ... Commençons par le premier chapitre. La première texture de l'article par rapport à l'algorithme de génération précédente, l'innovation est une seule: elle donne une méthode pour modéliser la texture de l'apprentissage en profondeur à l'utilisation. Avant peut être décrit une hypothèse importante en matière de texture génération de texture par le modèle statistique local et la méthode de modélisation manuelle est trop lourd. Ainsi, le papier peint Gatys regardé la reconnaissance d'objets, on a constaté que VGG19 blanc regroupez pas fonction locale est incorrect reconnaisseur. Il réseau préalablement formé pour prendre le relais et a vu que ces identifiants très facile à utiliser. Donc Gatys mis en place avait une déterminant de gram oublier la pertinence de ces différentes caractéristiques locales, le transformant en un modèle statistique, donc il existe une méthode sans modélisation manuelle peut générer des textures.

Les algorithmes de génération de textures basée sur le réseau de neurones

En fait, de la texture à l'image style're à deux pas. La première étape est plus étonnant, se trouve Gatys La texture peut décrire le style d'une image . Strictement parlant arts libéraux style est seulement une partie de l'image, mais ne porte pas sur la différence entre la texture et le style, puis de donner l'impression au premier coup d'il est vraiment la même chose. La deuxième étape est Comment extraire le contenu de l'image et ne comprend pas le style graphique . Ces deux points est son deuxième document à faire: Gatys a volé paresseux, le modèle de reconnaissance d'objet une chance de l'utiliser à nouveau, cette fois de ne pas prendre Gramian considéré comme un modèle statistique, considéré comme directement aux caractéristiques locales similaires contenu de l'image, de sorte que vous obtenez un contenu d'image et le style graphique (cela signifie la texture) des systèmes séparés, le reste est une image du contenu et le style d'une autre image ensemble. En collaboration avec la méthode de sorte que le réseau de neurones est l'approche « rêve » a été mentionné précédemment un chien, qui est, les chercheurs jouent sur rêve profond, trouver une extraction de caractéristiques appropriée permet neurones sont activés image peut être.

Migration de style d'image basée sur le réseau de neurones

À ce stade, nous allons nous concentrer sur l'interprétation de l'image en fonction de la migration de style des réseaux de neurones (style Neural) est clair. Chaque pas en arrière sont le résultat des études antérieures, non pas parce que le nom de la profondeur Li Dai ah ah réseau de neurones et d'augmenter le sentiment de ce que les cascades, classe spéciale. Gatys améliorée ne fut mis deux champs différents de moissonneuses-batteuses de recherche en agriculture biologique, a fait un résultat étonnant. En fait, il me surprend le plus est l'esprit et les textures du peuple aurait pu reconnaître l'image de style coïncide dans une large mesure. (Et vrai style art est très différent, mais il semble très beau ...) depuis pour améliorer le style de neurones sont sans fin, où vous mettez d'abord quelques-uns des dessins, les détails techniques pour l'instant n'est pas la table.

L'amélioration de l'algorithme de migration de style d'image, à gauche: image d'entrée, dans laquelle: amélioration avant, à droite: après l'amélioration. Le temps de génération: 5-20 minutes

Une pluralité de style de fusion prédéterminée, le temps de génération: moins de 1 seconde, le temps de formation: 1-10 heures chaque style

L'un des derniers algorithme de migration en temps réel dans tous les styles, le temps de génération: moins de 10 secondes (moins d'une seconde algorithmes sont disponibles, mais pense pas personnellement que cette apparence de bonne mine), le temps de formation: 10 heures

analogie images, temps de génération: 5-20 minutes

Enfin, cet article n'a rien à voir avec Amway un article de celui-ci, la dette de la recherche (écrit en anglais, savoir les questions connexes presque ici) est ma motivation pour écrire cet article. J'espère que vous prendrez plaisir à lire, j'espère qu'il ya une capacité de réserve de gens peuvent écrire plus populaire texte scientifique. L'écriture mauvaise lacune.

citation

Note: par ordre chronologique Trier de base, plus en plus important avec un astérisque, ouvrage dans le seul mentionné dans l'article avait des papiers, plus tard si nécessaire.

Technologie avant:

Modèle A Texture Parametric basé sur les statistiques conjointe des complexes Wavelet Coefficients

hallucination axée sur les données de différents moments de la journée d'une seule photo en plein air

Style de transfert pour Portraits Headshot

Image stylisation par fi ltrage peinture à l'huile à l'aide des palettes de couleurs

Basé sur l'image de style réseau de neurones de la migration:

** synthèse de texture utilisant des réseaux de neurones convolutionnels

*** Un algorithme de neurones du style artistique

* La combinaison de champs de Markov et Convolutif Neural Networks pour l'image de synthèse

* Réseaux de texture: synthèse anticipatif des textures et des images stylisées

Une représentation savante Pour Style artistique

Style rapide de patch transfert arbitraires style

* Transfert arbitraire style en temps réel avec instance Adaptive Normalization

Transfert visuel d'attributs par image profonde Analogie

Lei Feng réseau est Note: Cet article auteur original Li Jiaming , Contenues dans l'auteur original est Connaître presque colonne .

Énergie propre, la stérilisation, capable de déshydratation, peut être le séchage, une touche pour démarrer, facile à utiliser, facile à laver les chaussettes pour se débarrasser des ennuis | grand c
Précédent
les détails du système « Arbre du Monde labyrinthe X » et captures d'écran publiées
Prochain
"Old and die" en japonais
Sélectionnez ce remake du film japonais ont été déterminées ne fait des erreurs?
« Filles Net Red premier, âgé de 16 ans, âgé de 18 ans pour devenir un poète, la prochaine cible est le commentateur de nouvelles financières
COFCO Coca-Cola a dévoilé Chengdu rhum identifier la coopération « haute eau + thé et le vin » de la route
Solid-state architecture de la puce de contrôleur de disque dur sur la base de la puce de mémoire de spin magnétique intégré
Léchant temps d'écran | coucous « d'amour national »
Avant véhicule sans pilote Google CTO Chris Urmson parole de alma mater, dont il a révélé les six produits de sécheresse?
« Droit Visite 7 » mère nandrolone neige finalement craqué, et je mets encore un score sourire diminue de 0,1
À bord du satellite basé sur ARM et B / S système de suivi des communications
« Marée Oriental · Endeavor magnifique nouvelle ère de » réforme et d'ouverture de 40 ans de célébration concours de photographie uvres choisies | Huang Qingli travaille « route pour assister au dév
comédie Sérieusement drôle, de toute façon, je ne l'ai pas vu depuis longtemps
En temps réel puce du système d'exploitation Nucleus greffe plus de LTE230