La première feuille de définition de « arrêt du train » histoire du cinéma seconde variable 4K, la prédiction d'interpolation AI +, peut-il changer en noir et blanc « TV »

Récemment, YouTuber étrangères a publié renforcée par le réseau de neurones 1895 documentaire de tir « arrêt de train, » tout le film seulement 45 secondes de séquences, prises par Louis et Auguste Lumiere Lumiere en France une villes côtières.

Le film utilise la production de films de format 35 mm, car à ce moment-là le projecteur est entraîné à la main, son taux d'image d'origine est probablement entre 16-24.

À ce moment-là, la technologie du film est pas encore mature, nous pouvons voir que l'image est plus ambiguë scène, un train qui approche en même temps aussi un frottis évident. Mais après un réseau de neurones pour améliorer la résolution de l'image et l'interpolation d'image, ce vieux film a gagné la qualité de 4K ~ 60fps.

Dans le cas contraire des extraits de films en noir et blanc et film unique écran scintille de film, la maîtrise de l'écran et la clarté est presque comparable avec le smartphone actuel. Les travaux de restauration du film par un homme nommé Denis Chiriaev terminé, ils utilisent une image Gigapixel AI Topaz Labs DAIN et application de retouche d'image. Au cours du processus de réparation, non seulement il a tiré jusqu'à 4K, augmentera le taux de trame à 60 images par seconde.

Gigapixels AI capture d'écran site officiel

« Arrêt de train » ce court-métrage original du film d'origine est très vague, très basse résolution. Après utilisation Chiriaev Gigapixel AI rendu, après avoir ajouté leurs propres voix à cette expérience de visionnement de film avéré être entièrement conforme aux normes en vigueur.

Le site officiel, Gigapixel AI intégré algorithme propriétaire interpolation logicielle, des détails et des structures capables de reconnaître une analyse d'image des images en même temps, même si l'image est agrandie de 600%, il peut aussi rendre l'image plus claire. Il est à noter que le film des images générées par GAN.

D'autre part, DAIN (image vidéo de profondeur-Interpolation Aware) peut être prédite dans un cadre du film, et inséré dans une vidéo existante. En d'autres termes, le clip vidéo DAIN cartographie et l'analyse et inséré entre le rempli image conventionnelle image générée. Pour y parvenir en 1896 avec vidéo 4K le même effet, Chiriaev rempli avec l'image assez pour le film, de sorte que la « montrent l'image » a augmenté à 60 images par seconde.

Ainsi, DAIN 36 génère automatiquement la deuxième image est ensuite ajouté au film. En outre, sur la base de la même technologie AI, le réseau de neurones peut être un tas de photos couleur en noir et blanc, puis le former pour reconstruire la couleur d'origine, de sorte que vous pouvez mettre un film en noir et blanc, convertie en couleurs. Comme le montre la vidéo ci-dessous.

technologie basée sur la profondeur de l'apprentissage d'interpolation d'image vidéo DAIN

Le centenaire morceau de marbre 4K grande, la technologie de l'apprentissage en profondeur beaucoup de puissance, la technologie d'interpolation de l'image vidéo plus spécifique se reflète dans la profondeur de l'apprentissage dans. Bien sûr, l'interpolation d'image vidéo de perception de la profondeur (profondeur-Aware Video Frame Interpolation) n'est pas une technologie récemment vu le jour. Dès 2019, les articles pertinents de cette technologie seront inclus à CVPR 2019, il a également été associé algorithme dans l'open source sur Github.

Adresse de l'article: https: //arxiv.org/pdf/1904.00830.pdfGithub

Adresse: https: //github.com/baowenbo/

DAIN premier auteur de cet article Bao Wenbo, un étudiant au doctorat à l'École de l'information électronique et génie électrique, Université Jiaotong de Shanghai. Votre travail consiste à améliorer les documents publiés en 2018 sur la base MEMC-Net à faire.

Effets spécifiques similaires à Nvidia open source de Super SloMo, qui est capable d'un taux élevé de trame de l'image vidéo du « supplément de cerveau » normal, insérer des images de 30fps à 240fps, même ralentir huit fois ne se sentent pas Caton.

Et ce nouvel algorithme d'interpolation de trame DAIN plus claire que l'algorithme d'effet NVIDIA, la fréquence d'images plus élevé, peut encore être inséré dans le cadre de 480fps 30fps. Spécifique au niveau de l'algorithme, les chercheurs ont proposé une méthode pour détecter bloqué en explorant les informations de profondeur.

Une couche de perception de la profondeur du flux optique de projection de flux intermédiaire de synthèse, courant intermédiaire des objets distants sont échantillonnés. De plus, l'apprentissage de capacités tiering pour recueillir des informations contextuelles à partir des pixels voisins. Plus précisément comme indiqué ci-dessus, l'algorithme est divisé en un flux optique, la profondeur, des caractéristiques contextuelles, interpolation du noyau, ces portion de trame synthétique.

Dans le module d'estimation de flux optique, l'utilisation du réseau PWC-NET est un modèle d'estimation de flux optique estimée, car le flux optique est très difficile à apprendre sans surveillance, de sorte que l'auteur d'une PWC-Net pré-formation initialisée flux optique.

La partie de la profondeur, à la différence dans le passé modèle de réseau est calculé en utilisant la moyenne de la voie, pour les problèmes de traitement de la région d'occlusion, les auteurs proposent une tt de temps est résultats de flux optique calculé en utilisant la profondeur de fusion de l'adjuvant. poids de réutilisation condensé est la réciproque des valeurs de profondeur, signifie simplement que plus la valeur de profondeur d'un pixel (distance loin de pixel), la synthèse du flux optique lorsque la plus petite du poids occupée.

Contextuelle présente section, les auteurs suggèrent que le papier a été démontrée dans CtxSynNet informations contextuelles (fonction contextuelle) a ajouté un peu d'aide sur l'interpolation vidéo. Ainsi, dans cet article, les auteurs de leur propre conception basée sur le bloc résiduel d'un extrait de caractéristiques contextuelles de réseau et la formation commencent à partir de zéro.

Après la partie de couche de déformation du noyau d'interpolation adaptative, l'idée principale est de trouver une nouvelle position de pixel par le flux optique, sera dans la gamme de 4x4 autour de son nouvel emplacement avec une valeur de pixel multiplié noyau spécial du point. Le noyau calculée en multipliant les deux parties, une interpolation bilinéaire est utilisée quand on échelle de l'image, dans lequel le poids pour chaque position de coordonnées seulement de la distance, l'autre partie est un noyau intercalaire, est obtenu par apprentissage .

synthèse d'images. Pour générer la trame de sortie finale, constituée d'un réseau de trames de synthèse que tous les blocs résiduels 3. Déformé et carte de profondeur d'entrée déformé, caractéristiques contextuelles déformé, interpolation déformé et un cadre de connexion du réseau central de l'entrée synthétisée. En plus, deux cadres gauchis linéaire mixte, et forcer la prédiction du réseau résiduel entre les images et la vérité terrain cadre mixte.

Fonction de perte est le résidu entre le cadre réel et le mélange de cadre, cette fonction nommée Perte Charbonnier, une variante de perte L1, mais l'ajout d'un terme de régularisation. L'ensemble de données d'apprentissage est utilisé Vimeo90K, qui a pour 51312 triplets de formation, dans lequel chaque triplet comprenant trois images vidéo successives, une résolution de 256 × 448 pixels.

DÉTAILLÉ du processus de formation de réseau de la trame intermédiaire pour prédire chaque triplet (par exemple, t = 0,5). Lors des essais, le modèle peut générer arbitraire cadre intermédiaire. En outre, les données d'apprentissage est augmentée par basculé séquentiellement dans le temps inversée horizontalement ou verticalement et triples.

Dans la stratégie de formation spécifique, les auteurs utilisent le réseau Adamax optimize sont fournis 1 et 2 de 0,9 et 0,999, et l'estimation du noyau, l'extraction de contexte et la cadence de la synthèse du réseau d'apprentissage initial est fixé à 1E-4. Étant donné que l'estimation des flux et l'estimation de la profondeur du réseau ne sont modèle de pré-formation d'initialisation viennent, donc utiliser ces petits taux d'apprentissage 1E-6 et 1E-7.

Aussi l'ensemble du modèle 30 époque de formation commune, puis réduire à 0,2 fois le taux d'apprentissage pour chaque réseau, et d'affiner le modèle pour l'ensemble de 10 autres époque. Il est une valeur que le mentionner modèle de formation de l'auteur sur la carte GPU NVIDIA Titan X (Pascal), a passé environ cinq jours pour atteindre l'état de la convergence.

Sur les résultats expérimentaux, et deux sur le fond des articles récents sur les différents ensembles de données, ne pas faire une analyse trop ici. Dans l'ensemble, les auteurs proposent un schéma d'image vidéo profondeur au courant interpolation, et essayer de résoudre les problèmes d'occlusion région explicite. idées empruntées PWC léger courant de gros à fin, de grands mouvements de tenter de résoudre le problème. L'apprentissage et l'utilisation de la profondeur hiérarchique des informations de contexte, meilleure est la synthèse châssis intermédiaire. Ainsi, ce type de technologie d'apprentissage en profondeur peut jouer tout type de rôle faire la réparation dans un film en particulier? 2019 restauration AI de plusieurs films peut nous donner la réponse.

Lei Feng réseau

cérémonie de fondation, Call of Duty sont toutes les réparations AI

L'année dernière a été le 70e anniversaire de la fondation, en plus des magnifiques gens de parade laissé un extérieur d'impression profonde, à la fin de la libération Octobre de « cérémonie de fondation » est vraiment une poignée de personnes qui se déplacent, le film montre la campagne de trois fondation à la victoire tout au long de son histoire la cérémonie.

Lei Feng réseau

Le film au début du 21 Septembre, 1989 reflètent le film entier est divisé en 18 volumes, un total de 164 minutes. À ce moment-là, les conditions de prise de vue, doit être republié dans la qualité de la réparation. Au cours du processus de réparation, les producteurs de maximiser l'utilisation des fonctions DRS système de réparation, combinée à la réparation manuelle de réparation automatique.

Par des algorithmes AI, il y a un vieux retrait du film, boucle et d'autres problèmes peut être résolu, mais de larmes, les égratignures et ont donc besoin d'un professionnel pour réparer rénovateur un endroit du film. Mais la déchirure du film, des rayures et donc besoin d'un restaurateur professionnel à une réparation.

Lei Feng réseau

En plus de « cérémonie de fondation, » libération Septembre de « Call of Duty » utilise également la technologie AI, selon les producteurs de film a cassé les nouvelles, ce matériel documentaire de la Russie pour un peu de couleur, mais comme l'ancienne, la qualité d'image floue, la distorsion des couleurs. Et après un travail de restauration 4K complexes, éventuellement l'expérience de l'image finale.

En outre, « terrible, mon pays » est la restauration numérique Shaw, directeur du centre de course de la Chine Film Base de production du film numérique et son équipe utilisent AI tentative de réparation effectuée.

Afin d'effectuer des travaux de réparation plus en douceur, l'équipe de course Xiao a développé le « Film · Méditation » système de traitement d'image AI, comptent sur un grand algorithme d'apprentissage en profondeur de données informatiques, dans les quatre mois de Renforce de restauration 300.000 images. L'utilisation de « l'état du film-mental », un film de temps de réparation peut être raccourci trois quarts de la baisse des coûts de moitié.

Le développement iqiyi ZoomAI est basé sur une étude approfondie technique de réparation vidéo de cette technologie interne se compose de plusieurs modules, chaque module est responsable d'un de plusieurs amélioration de la qualité ou la direction, comme super-résolution, suppression du bruit, Rui la technologie, l'amélioration des couleurs, et ainsi de suite.

Chaque module est composé d'une ou plusieurs profondeurs d'apprentissage des composants du modèle. En résumé, l'utilisation des réseaux de neurones et convolutifs la technologie de reconnaissance d'images les plus avancées, de sorte que les vieux films classiques et rayonnante est pas une chose lointaine. Par rapport à d'autres méthodes, pour réparer les films basés sur l'apprentissage de la profondeur technique peut faire gagner du temps et d'efforts. Restauration et la numérisation du film classique font également plus facile pour les gens de plus de produits culturels.

références

https://towardsdatascience.com/neural-networks-help-upscale-conversion-of-famous-1896-video-to-4k-quality-d2c3617310fehttps://cloud.tencent.com/developer/article/1507729https:// baijiahao.baidu.com/s?id=1657837274349020022&wfr=spider&for=pc

Aucun cas d'infection par aucun des cas suspects de bovins apparaissent ce quartier
Précédent
Guangdong peinture peintre Académie Acura amour guérisseur
Prochain
Android père d'un autre échec de l'entreprise, au revoir téléphone Essential
Les amis de rouler! Millet 10 Pro attaque 5999, toute DxOMark première caméra vidéo
Le plus bel hommage « personne rétrograde »! coeur Poke! Un père écrit à la lettre « excuses » de sa fille
Aujourd'hui papier | gradient de cisaillement, NER, traitement du langage naturel, la fonction de l'intensité de l'apprentissage libre
A partir d'aujourd'hui, les trains des chemins de fer de Shenyang 173 panne
Hubei La mise en uvre locale du contrôle de la guerre: BAN gestion fermée, cycle 14 jours
Quoi de neuf couronne est Covid-19 virus ou SRAS-CoV-2? NOMMÉ éliminer les préjugés dès le début
Vidéo | fille Dongguan salle d'isolement anniversaire d'infirmière, « Maman, ne peut pas vous étreindre, vous donner une branche de saut la semaine prochaine »
Jamais fatigué! robot de Boston Dynamics numéro d'employé admissible, effectuer un travail dangereux pour l'humanité
10 minutes pour libérer 170.000 masques, Nanhai douanières et plus d'initiatives aux entreprises de soutien pour reprendre la production
Sud + bus tôt le matin | Province, Commission Wei Jian: soutien du Hubei, Guangdong a admis avoir aucune incidence sur la capacité (émission vocale)
Ville haute Shatian: Surveillance épidémiologique donne action réelle, « cinq » encore et encore sur la base de « 1 + 1 »