Gardes! MIT nouveau système « de son pixel », son séparé et une image parfaite (avec vidéo)

Source: MIT CSAIL

Edit: Pen, Craig

[New Ji-won EXAMEN Informatique et laboratoire d'intelligence artificielle (CSAIL) Massachusetts Institute of Technology (du MIT) a récemment mis au point un système appelé lecteur Pixel, capable d'apprendre beaucoup de vidéo sans localisation sonore par l'étiquette, et le son des pixels source sonore la séparation. De plus, avec le système de lecteur Pixel, l'utilisateur peut image différente contrôle du volume sonore doivent réaliser une édition simple audio.

domination clip audio Adobe Audition ne peut pas être maintenue.

Récemment, MIT Computer Science et (le CSAIL) Intelligence artificielle laboratoire a développé un système appelé Pixel lecteur, la localisation sonore peut apprendre beaucoup en vidéo sans étiquette, est plus puissant, lecteur Pixel capable de son de la source sonore séparation de pixels, et le parfait synchroniser visuelle et sonore, « au point où où veulent entendre. »

Pendant ce temps, en utilisant le système de lecteur Pixel, l'utilisateur peut image différente réglage du volume sonore, respectivement, pour l'édition audio simple.

Adresse Papers: https: //arxiv.org/abs/1804.03160

Son de pixels: une séparation parfaite du son et de l'image, « la version de l'image d'Adobe Audition » la hausse

En général, les compositions reposent sur une forte capacité auditive et visuelle humaine facilement identifier et de distinguer la source sonore émet des objets sonores et sonores, mais il est difficile en termes de la machine, sa capacité visuelle et auditive de combiner la capacité à atteindre le niveau de reconnaissance est pas l'humanité.

CSAIL fait la démo, une vidéo montre comment son lecteur vidéo Pixel peut être obtenue en cliquant sur l'image séparée du règlement, de manière à « laisser le son de pixel. »

Autrement dit, la zone de pixels Pixel lecteur premier produit par un grand nombre de son positionnement d'apprentissage vidéo, le son sera séparé des pixels vidéo sonores. De cette façon, cliquez sur l'image de l'emplacement de la source sonore peut émettre un son correspondant.

Cliquez sur l'image dans l'instrument approprié, capable de délivrer un son correspondant, mais cliquez sur le mur, la position du corps humain n'est pas son (léger bruit).

Lecteur Pixel système local plus fort est qu'il ne peut pas seulement des images séparées et du son, mais peut également régler le volume du son.

Joueur pixel peut image en taille du volume sonore instrumentale de l'ajustement, si elle est transférée à la position minimum, le silence est, jouer un son similaire à Adobe Audition Enlève effet.

Pixel système Joueur comme « Vue des photos » Adobe Audition, bien que cette dernière fonction est beaucoup moins puissant, mais ses larges perspectives d'application. Par exemple, dans une production vidéo peut être réalisé directement en éditant les images de séparation photos, des clips audio ont besoin d'un processus distinct.

Positionnement vidéo, audio séparation, PixelPlayer contrôler le son émis par chaque pixel dans une vidéo

résumé

Elle propose PixelPlayer, le système vidéo à l'aide d'un grand nombre de non-étiquette pour savoir comment positionner la région d'image et de la voix de génération de son énoncé entré séparés en fonction de pixel. Notre approche profite de la synchronisation naturelle des motifs sonores et visuels, l'apprentissage d'un modèle analytique commun du son et de l'image sans surveillance. Les résultats expérimentaux sur la musique nouvelle recueillies montrent ensemble de données que notre projet mixte - cadre de séparation est mieux que les résultats du système de base. Certains résultats qualitatifs montrent que notre modèle d'apprendre le vrai visuellement le son, ce qui permet aux applications de régler indépendamment le volume de la source sonore.

1. introduction

Le monde contient une foule de signaux visuels et auditifs. Notre système visuel et auditif pour identifier un objet dans le monde, zone d'image divisée couverte par l'objet, et d'isoler les sons produits de différents objets. Bien que l'analyse de la scène auditive a été largement étudié dans le domaine de la reconnaissance de son environnement, mais la synchronisation peut fournir une multitude de signaux de surveillance visuelle dans le visuel et le son naturel. Le système reconnaît l'objet par visuels ou sonores nécessitent généralement de grandes quantités de données de formation étiquetés. Toutefois, dans cet article, nous utilisons un apprentissage audio-visuel commun pour atteindre dans des conditions non surveillées, pour identifier les objets produire des sons en combinant audio et vidéo et des composants audio de chaque objet séparé. Notre système sera nommé PixelPlayer. Dans une entrée vidéo, audio PixelPlayer la séparation correspondante, et leur orientation spatiale dans le son de la vidéo. PixelPlayer afin que nous puissions contrôler le son émis par chaque pixel dans la vidéo.

Grâce à l'utilisation du modèle audiovisuel basé sur la vision pour étudier la synchronisation naturelle entre le visuel et le son. PixelPlayer les données de forme d'onde audio d'entrée, pour prédire ce audio et vidéo correspondant à la position du son de l'objet.

La figure 1 montre un état de travail dans PixelPlayer ici. Dans cet exemple, le système utilise une grande quantité de données vidéo pour la formation, qui comprend l'utilisation de différents instruments jouaient des scénarios, y compris en solo et en duo. Dans chaque section de la vidéo, le genre d'instruments, leur emplacement et la façon dont ils sonnent sans étiquette fournie.

Figure 1

Dans la phase de test, l'entrée (FIG. 1 A) est un morceau d'instruments de musique comprenant plusieurs scènes différentes de la vidéo I (x, y, t) et S audio mono (t). PixelPlayer effectuer vidéo et audio séparés et un positionnement du son, du signal sonore d'entrée en plusieurs composantes sonores des Sout (x, y, t), chacun d'un son correspondant à une position spatiale (x, y) à partir d'une trame vidéo. A titre d'exemple, la figure 1.c représente le signal audio récupéré à partir de 11 pixels. ligne bleue plat correspond à un système silencieux de pixel de prédiction. signal de son voisé correspondant à chaque instrument produit. Fig 1.d montre l'énergie sonore prévu, ou le volume du signal audio à partir de chaque pixel. Notez que le système détecte correctement la position du son des deux instruments, plutôt que de l'arrière-plan. Montre la figure de 1.e comment les pixels sont rassemblés autour du signal sonore. La même couleur est assignée aux pixels produire un son similaire.

Les capacités vocales dans le visuel auront un impact significatif associé à une série d'applications de reconnaissance et de traitement vidéo. PixelPlayer capacité de localisation sonore du procédé de séparation peut être réalisée indépendamment pour chaque objet audio, ce qui contribue à la reconnaissance auditive. Notre système peut également promouvoir l'édition sonore vidéo, par exemple, pour régler le volume d'un objet particulier ou supprimer l'audio à partir d'une source sonore spécifique.

Deux articles récents ont proposé la séparation des différentes sources de vidéo et audio grâce à une combinaison de l'audio. Lorsqu'une suggestions de cocktail sur la façon de résoudre les problèmes dans le domaine de la voix par l'apparence de la personne. Exceptions papier montre un système audio-visuel, il ne sera pas visible à l'écran correspondant au son de la scène et le fond d'écran séparation de phase sonore.

2. Séparation et positionnement audiovisuel

Dans cette section, nous allons présenter l'architecture modèle PixelPlayer et son mixte proposé peut être séparé de la vidéo - cadre de formation distinct.

2.1 Structure du modèle

Le modèle proposé se compose de trois parties: une analyse vidéo de réseau, analyse audio un réseau et une synthèse audio de réseau, illustré à la figure 2:

Figure 2

  • Analyse vidéo réseau: Il se caractérise principalement par l'extraction des images vidéo de la vidéo, il peut être une architecture de réseau pour la visualisation de la tâche de classification. Appliquée ici est une extension de ResNet-18, les détails spécifiques de ce réseau seront décrits en détail dans la section expérimentale. taille TxHxWx3 pour une vidéo, le modèle de ResNet pour chaque extraction de trame Tx (H / 16) dans laquelle X (W / 16) xk, et après application du procédé de mise en commun temporel, dans lequel le châssis peut être obtenu ik (dimension x de K, y).

  • Analyse du réseau audio: analyse audio réseau en utilisant la structure U-Net, la parole d'entrée est divisé en K parties, avec Sk (K = 1, ..., k) indique. Trouvé empiriquement que l'utilisation des résultats de spectrogramme mieux que la forme d'onde d'origine, le réseau présenté ici en utilisant temps-fréquence (T-F) de fonction. Tout d'abord, le temps de Fourier à court d'entrée audio mixte transformée (STFT) pour obtenir son spectrogramme, et ensuite converti en le domaine de fréquence spectrogramme, et les caractéristiques d'entrée obtenue sur le réseau U-Net, pour obtenir motif comprenant caractéristiques différentes sources sonores.

  • Le réseau de son: Réseau pour prédire le bruit de synthèse vocale finale à prédire par les caractéristiques obtenues vidéo au niveau du pixel ik (x, y) et la caractéristique audio sk. Spectrogramme est émis par une des techniques de spectre de masquage à base de vidéo. Plus précisément, un masque M (x, y) peut être séparée du pixel d'entrée de sons de sortie audio, et multipliée par le spectre d'entrée. Enfin, afin d'obtenir une forme d'onde de prédiction, nous avons prédit le spectrogramme du spectre d'amplitude d'entrée de la combinaison, et en utilisant l'algorithme de reconstruction Griffin Lim.

  • 2.2 mélangé formation semi-supervisée - modèle de séparation

    Formation mixte - description séparée de l'idée est de créer artificiellement une scène auditive complexe, et la séparation du son et de résoudre des problèmes réels d'analyse de scène auditive. Avoir un signal audio en utilisant le fait que la superposition, nous générons signal d'entrée audio complexe en mélangeant des sons de différents vidéo. Objectif d'apprentissage du modèle est séparée de l'entrée audio et à une entrée audio-visuel associé.

    Figure 3

    La figure 3 montre une trame vidéo de formation dans le mélange des deux. Différentes phases de formation et de la phase de test, principalement les deux parties suivantes: 1) Nous nous intéressons au hasard parmi une pluralité de vidéo de formation et section de mélange audio de celui-ci, chaque objet est récupéré sur la base de l'entrée audio-visuel correspondant; 2) caractérisé en ce que la vidéo obtenue par l'espace-temps (spatio-temporelle) de la méthode de cellule maximale (max mise en commun), plutôt que des caractéristiques de niveau de pixel. Il est à noter que, en dépit des objectifs clairs processus de formation, mais toujours pas de surveillance, parce que nous n'utilisons pas l'étiquette de données, ne font pas d'hypothèses sur l'échantillonnage des données.

    Notre objectif est d'apprendre le masque de spectrogramme du système, qui peut être un rapport de masque ou d'un masque binaire. Pour le masque binaire, le composant principal du son mixé dans chaque unité T-F à travers le son cible d'observation, calcule la valeur cible de la N-ième vidéo de masque.

    Dans laquelle (u, v) représente un axe de coordonnées en unités de T-F, S représente le spectrogramme. sigmoïde chaque pixel de la fonction de perte d'entropie croisée est utilisée comme la fonction objective de l'apprentissage. Le rapport du masque, masque le vrai rapport de l'amplitude de la vidéo est le son cible et son mélange à calculer.

    Ici, chaque pixel est utilisé pour entraîner la perte de L1. Un point à noter est que masque la valeur réelle due à une perturbation, pas nécessairement été dans le plage.

    3. expérience et analyse

    3.1 les détails de mise en uvre

    Notre objectif dans la formation du modèle est capable d'apprendre sur la nature de la vidéo (y compris les solos et duos), l'évaluation quantitative de l'ensemble de la validation, la séparation source et le règlement définitif du problème par la localisation des données vidéo mixtes naturelles. Par conséquent, nous notre ensemble de données de musique dans 500 vidéos de formation, 130 vidéos pour la vérification, il y a 84 vidéos pour tester. Parmi eux, 500 vidéos de formation inclus solo et en duo, jeu de validation contient en solo, en duo et jeu de test contient.

    Pendant la formation, nous avons choisi au hasard dans l'ensemble de données MUSIC N = 2 vidéo, la vidéo peut être des solos, des duos silence ou arrière-plan. video image silencieuse par la forme d'onde audio silencieux ADE ensemble de données aléatoires comprenant l'environnement naturel de la paire d'images. Cette technologie vidéo en introduisant plus silencieux, pour rendre le modèle plus approprié pour les objets de positionnement. Dans l'ensemble, l'entrée audio peut comprendre le mélange instrument 0-4. Nous avons aussi essayé une voix plus mixtes, mais cela rend la tâche plus difficile, et le modèle est pas une meilleure formation.

    Dans le processus d'optimisation, nous utilisons une dynamique = SGD Optimizer 0.9. Parce que nous utilisons un modèle pré-formé sur CNN IMAGEnet, de sorte que le taux d'apprentissage analyse audio et réseau synthétiseur audio est réglé à 0,001, et l'analyse vidéo du taux d'apprentissage du réseau est fixé à 0,0001.

    Effet de l'entraînement 3.2 modèle

    Pour modéliser les performances de l'évaluation quantitative, nous avons mélangé - processus de synthèse audio mixte séparé pour produire l'ensemble de validation, puis séparés.

    Comme le montre le tableau 1, dans tous les modèles, la séparation source NMF est effectuée en utilisant des balises audio et réelles. Le reste de nos modèles sont basés sur le même cadre que décrit dans la profondeur de l'apprentissage, à l'apprentissage du modèle grâce à des entrées vidéo et audio. Elle se réfère à un mélange spectrogramme de spectre de retour sur la base de l'entrée directement par la valeur de sortie de la régression du spectrogramme, la valeur de masque de sortie au lieu de spectrogramme. Comme on le voit sur la figure, le meilleur résultat masque binaire.

    Tableau 1

    Comme le montre le tableau 2, l'évaluation subjective de la performance de séparation acoustique. Comme on peut le voir sur la table en fonction du masque binaire est supérieur aux autres modèles de séparation sonore

    Tableau 2

    Comme le montre le tableau 3, il est une vidéo - la cohérence sonore de l'évaluation subjective. masque binaire à base de modèle peut être le meilleur lien visuel et audio.

    Tableau 3

    4. Conclusion

    Dans cet article, nous avons introduit le PixelPlayer, ce système peut apprendre à son entrée séparée, et de localiser la source sonore correspondante dans l'entrée vidéo. MUSIC PixelPlayer est la formation dans cet ensemble de données, il est une grande collection d'instruments liés à la vidéo-non marqués. En utilisant les résultats quantitatifs et qualitatifs de recherche de l'utilisateur subjective de prouver l'efficacité de notre système d'apprentissage multi-modal. Nous espérons que notre travail peut ouvrir de nouvelles pistes de recherche pour comprendre le problème de la séparation de la source sonore par des signaux visuels et auditifs.

    [] Joignez-vous à la communauté

    Ji-won nouvelles technologies AI + industrie du recrutement communautaire, a accueilli les étudiants + industrie de la technologie AI a atterri intérêt, plus Little Helper Micro Signal: aiera2015_1 dans le groupe, si elle est approuvée seront invités dans le groupe, assurez-vous de modifier le groupe après avoir rejoint la communauté remarques (nom - société - emploi, groupe professionnel d'examen plus rigoureux, s'il vous plaît comprendre).

    Qui a dit que Michelin = cher? Ces 100 yuans par habitant de moins de Michelin satisfait!
    Précédent
    Embrassez la facilité ah! Mais ils doivent passer 52 heures, couvrant plus de 2000 kilomètres ......
    Prochain
    photographe de 22 ans est en plein essor Guangzhou INS, beaucoup de pouces amis étrangers vers le haut: le cri de la beauté urbaine de la Chine!
    mariée Hanchuan être fou, si j'avais assez connu ......
    Sorcière pour toujours, les cheveux pour toujours! Âgé de 40 ans Yao Dao avec infraction, l'interprétation de la défense de ce qui est un grand joueur
    La satisfaction de tout le monde! Le tyran a été condamné!
    énergie Hanchuan positif: une opération de sauvetage de la pluie lumière rouge propriétaires Hanchuan trouvé
    Transformer la difficulté le flux de votre pause? tous les jours excellente nouvelle vice-président des opérations Cheats vous dire cultivez du 0-1
    Lire le Guangxi Guilin même été? Ces nouveaux favori appelé addictif!
    Devant l'hôpital de gang de vol populaire, il a été capturé et arrêté trois ......
    Maison pour les vacances ces « voitures particulières » en toute sécurité? A: Pas de chance si mauvaise qu'elle!
    Li Hao Yang Yi dans la science: la version éducation AlphaGo briser le monopole tirant parti du marché de l'éducation en ligne de 200 milliards
    5.29 « a cassé les nouvelles » une métamorphose dans la proximité hantée! S'il vous plaît alerte note!
    processus de production de la qualité de l'ensilage de maïs plante entière et les notes