papier CVPR Université Cornell: un apprentissage photographie lapse réseau décomposition no- image intrinsèque

Site Web Adresse:

Documents Adresse:

https://arxiv.org/abs/1804.00582

1. Avant-propos et introduction

En bref, la décomposition de l'image intrinsèque (décomposition de l'image intrinsèque) est l'image est décomposé en un produit de réflexion figure (réflectance) et la figure irradiée (ombrage) a. Nous avons trouvé le travail passé à des ensembles de données virés marquées principalement par le rendu, le crowdsourcing ou des objets procédé de teinture. Cependant, ces méthodes ont leurs propres limites fortes: collection d'objets de la méthode de teinture est très difficile et ne peut être utilisé dans l'objet ne peut pas être utilisé dans la scène. Méthode de rendu ne peut pas faire la formation de généralisation aux images réelles de la scène d'entre eux. La méthode de crowdsourcing ne reçoivent que l'étiquetage et la qualité de l'étiquetage très rares ne peuvent pas être garantis.

Figure 1: A travers le réseau vidéo sans étiquette peut être formé pour générer une vue unique de l'image intrinsèque

Par conséquent, nous considérons que les données utilisées pour étudier l'image intrinsèque d'un plus facile à recueillir: un grand nombre de vidéo de photographie lapse sur le réseau sans étiquette. En termes simples, la photographie laps de temps est de rendre le viseur de la caméra est fixe, mais le temps est très long, donc nous pouvons obtenir un autre point de vue du temps, mais la même séquence d'images. Bien que notre ensemble de données vidéo n'est pas marqué, mais la vidéo ne nous permettra de rejoindre de nombreux a priori importants au cours de la formation CNN. Comme le montre. La figure 1, nous vidéo sans étiquette apprentissage d'image intrinsèque via le réseau, de sorte que nous pouvons utiliser ce modèle est formé à l'utilisation d'une seule image.

2. Cadre général

Comme représenté sur la. Figure 2, dans la phase de formation CNN, notre séquence d'images d'entrée entier, et la sortie correspondant à chaque trame est réfléchie et irradié Fig. Notre architecture de réseau est basé sur U-net, les détails s'il vous plaît se référer au document. En outre, CNN est également génère simultanément un vecteur 3D pour expliquer la couleur de chaque image de la lumière ambiante à l'intérieur de celui-ci.

Figure 2: illustre l'architecture du système et réseau

3. La collecte des données

Notre ensemble de données appelé "BIGTIME (BT)." Nous recueillons toutes sortes de vidéo à partir du site Internet d'un grand nombre de haute qualité en plein air et la photographie temps lapse vidéo à l'intérieur, le nombre de plus de 200. BT dans notre ensemble de données, nous avons trouvé que la vidéo intérieure très difficile, parce que beaucoup de vidéo à l'intérieur enregistré seulement une très courte période de temps, et beaucoup vidéo contient des ombres fortes ou une exposition. Cependant, lors de la session expérimentale nous a montré la base de notre cadre et un ensemble de formation réseau de données peut avoir une bonne capacité de généralisation.

4. Cadre d'apprentissage

4.1 Fonction Energie / perte:

Au cours de la phase de formation, notre objectif est de maximiser la probabilité p postérieure (R, S | I). Cela équivaut à ce qu'il est facile de minimiser la fonction d'énergie E (R, S, I). Par conséquent, nous définissons E (R, S, I) est

4.2 reconstruction d'image fonction de perte:

Étant donné une séquence d'images d'entrée, on peut écrire la fonction de perte de reconstituer la séquence complète de toutes les images pour:

La mise en uvre directe nécessite la fonction perte O (M2N) la complexité du temps, on introduit une méthode 4.7 permet la fonction de la complexité de temps est réduit à O (mn).

4,3 Consistance fonction de perte de réflexion:

Nous avons également introduit la même fonction pour représenter la réflexion de réflexion sortie de la figure doit rester la même tout au long de la séquence d'images.

Encore une fois, cette perte de fonction nécessite O (M2N), mais 4.7 nous montrerons comment réduire à O (mn).

4.4 Dense Espace - Temps de fonction de perte de réflexion figure:

Notre perte de réflexion de la figure est basée sur une corrélation entre chaque pixel dans la séquence d'images. Nous avons défini comme:

Dans laquelle p et q représente un pixel de la séquence d'image.

Au nom de la double matrice de poids aléatoire. Notez que nous considérons toute la séquence de corrélation entre les pixels, calcul direct de ce point est impossible, donc nous avons besoin d'une manière plus efficace. Tout d'abord, notez que si elle est la matrice bistochastiques, alors nous pouvons simplifier la formule ci-dessus est:

Où r est le vecteur de toute carte albédo journal représentation de séquences d'images. Si nous supposons que W est une gaussienne, l'espace bilatéral, on peut être configuré par l'intermédiaire d'une série de matrices creuses à la formule approximative de minimisation (7). L'intégration bilatérale rend notre perte peut être transformée en forme quadratique:

Enfin, nous allons réduire l'expression du temps complexité O (m2n2) à O ((d + 1) mn).

la taille figure de plus de 4,5 est irradiée fonction de perte lisse:

Nous avons également ajouté la fonction de lissage irradiée Fig. Cette fonction est définie dans l'image pyramidale multi-échelle. Pour chaque échelle, nous pouvons définir:

Où N (p) représente Unicom au pixel p 8 voisine, la représentation du volume de la masse de chaque bord. Notre idée de base consiste à calculer le poids de chaque figure réutilisation de l'information statistique de la séquence d'images. Dans lequel Notre hypothèse est basée sur la médiane du gradient avec la séquence d'images montre le facteur de réflexion de l'image de gradient approximatif de la Fig. Description détaillée voir nos papiers.

4.6 Toutes les paires de moindres carrés pondérés (APWLS)

Dans cette section, nous présentons une version linéaire de la solution APWLS fermée pour obtenir des formules efficaces 4 et 5. Sont associés à chaque image Ii suppose que la matrice Pi et Qi, et la prédiction Xi et Yi, nous pouvons APWLS converti en:

Le calcul direct de l'équation (14) nécessite O (M2N), mais si elle devient l'équation (15), qui O complexité temporelle uniquement (mn).

5. Expérience

5.1 expérience IIW:

Nous utilisons des ensembles de données BT formation CNN (IIW pas utiliser l'ensemble de la formation) pour tester directement le jeu de test IIW. Comparaison des valeurs dans le tableau 2. Nous pouvons voir que notre modèle peut avoir encore plus proche des meilleurs algorithmes de performance et d'optimisation et d'algorithmes d'apprentissage automatique.

Tableau 2: jeu d'essai comparatif IIW

Tableau 3: appareil d'essai comparatif SAW

5.2 expérience SAW:

Nous avons également testé notre ensemble de données de formation BT Test de performance du réseau axé sur SAW. Dans le tableau 3, nous comparons et précision moyenne (AP) d'autres travaux dans le passé ensemble de test SAW. Notez que toutes les méthodes n'utilisent pas la formation des données SAW fixé pour la formation. Nous pouvons voir dans le tableau 3, notre méthode est excellente dans toutes les méthodes dans le passé.

5.3 IIW ensemble de test SAW et une vue éclatée de comparaison:

Figure 3: un schéma éclaté comparant

Dans la figure 3, nous comparons l'image intrinsèque de notre sortie de réseau et les meilleurs algorithmes d'image de séparation et d'apprentissage de la machine pour optimiser la production. De la figure 3, nous pouvons voir que si nous ne DataSet de formation IIW, nous décomposition de l'image intrinsèque ensemble de données de formation de réseau BT peut être généré avec deux autres algorithmes comparables.

5.4 MIT expérience de jeu de données d'image intrinsèque:

Enfin, nous vérifions l'efficacité de nos efforts dans le cadre des données d'image intrinsèque du MIT. Dans le processus de formation de notre réseau, nous avons pas le retour direct à la vérité au sol, à la place, nous formons notre réseau sur une séquence d'images fournies par le MIT.

Tableau 4: Test Set MIT comparaison des performances

Nous comparons notre approche avec d'autres méthodes d'apprentissage supervisé. Ces efforts passés ont utilisé la vérité au sol de l'ensemble de la formation pour former le modèle. Au lieu de cela, nous utilisons uniquement la séquence d'image ensemble de données fourni pour former le réseau. Les résultats comparatifs sont présentés dans le tableau 4. Nous pouvons voir que nos méthodes d'apprentissage non supervisées peuvent être comparables ou encore mieux que par le passé, l'algorithme d'apprentissage supervisé basé sur CNN.

6. Résumé

Dans nos travaux en cours, nous vous proposons une nouvelle méthode d'apprentissage non supervisé pour apprendre la décomposition de l'image intrinsèque par la vidéo de la photographie laps de temps sur le réseau. Notre réseau formé peut se concentrer a montré une forte capacité de généralisation dans un certain nombre de données, ce qui démontre l'énorme potentiel d'apprentissage par l'image intrinsèque d'un grand nombre de vidéo réseau sans étiquette.

CCF-GAIR 2018 autour du coin,

AI Technology Review du bien-être envoyer!

Nous offrirons étudiants un certain nombre de billets gratuits, il suffit de remplir le « lire l'original » lien pour soumettre le formulaire, ont la possibilité d'obtenir la valeur de 3999 yuans CCF-GAIR 2018 billets Assemblée générale.

(PS: remplissage s'il vous plaît sous la forme d'un signal micro-précis, par le personnel de vérification vous contactera par micro lettre, émission de billets)

notes de billets

Si aucune instruction spéciale, donnant des billets comprennent trois jours le déjeuner, ne comprend pas l'hébergement et d'autres services;

interprétation de l'activité Lei Feng réseau tous AI Technology Review

Date limite 26 Juin soir 24:00

129 Juin-Juillet, Shenzhen voir!

RoR (ResNet de ResNet) - réseau pour une classification en plusieurs étapes d'image résiduelle
Précédent
Ans + 4G de mémoire sur une seule photo! Félicitations Google, vous avez réussi à « alléger le bit » nouvel iPhone
Prochain
Hippocampus Familia F7 liste le 27 Septembre, prendra le moteur 1.5T
Il est apprenti Zhao Benshan, mais ne prenez pas le chemin de l'apprenti Zhao Benshan, le café-Star lui a donné un visage!
Dry | DeepMind proposé GQN, les réseaux de neurones il y a place à l'imagination
micro-canal de Shenzhen Airlines App, le premier jour de la ligne d'Apple Nouvelles a subi plusieurs accidents, P30 Huawei « télescope téléphone mobile » officiellement publié | Lei Feng Matin
Sony a annoncé qu'il tiendra une conférence de nouvelles: Xperia XA3 / XA3 débuts Ultra CES 2019
Rafraîchissez-phare Dog musique en direct, que ce soit par l'ancre «le chanteur développer une » subversion du mode de fabrication traditionnelle étoile
Carlos chargement doux et du monde Amis du plancher ouvert nouvellement installé cum Spring Bud Programme de voile officiellement ensemble
Devant Chow Yun Fat, Andy Lau seulement quand le frère cadet? Les quatre films regardent, vous comprendrez
Assemblée | CCF-GAIR 2018 intelligente session de sécurité qui aura un grand café en sortant? vague de promenade Insider
La France est aussi le monde avec la marque que vous connaissez TOTAL
MADE fin de HUMAN l'événement principal! STUDIO travail SEPT ensemble pour apporter 2017 Winter Series!
Motorola P40 rendu l'exposition, 4800W caméra arrière, la technologie de l'écran utilisé dug