Source: MIT CSAIL

Edit: Pen, Craig

[New Ji-won EXAMEN Informatique et laboratoire d'intelligence artificielle (CSAIL) Massachusetts Institute of Technology (du MIT) a r�cemment mis au point un syst�me appel� lecteur Pixel, capable d'apprendre beaucoup de vid�o sans localisation sonore par l'�tiquette, et le son des pixels source sonore la s�paration. De plus, avec le syst�me de lecteur Pixel, l'utilisateur peut image diff�rente contr�le du volume sonore doivent r�aliser une �dition simple audio.

domination clip audio Adobe Audition ne peut pas �tre maintenue.

R�cemment, MIT Computer Science et (le CSAIL) Intelligence artificielle laboratoire a d�velopp� un syst�me appel� Pixel lecteur, la localisation sonore peut apprendre beaucoup en vid�o sans �tiquette, est plus puissant, lecteur Pixel capable de son de la source sonore s�paration de pixels, et le parfait synchroniser visuelle et sonore, � au point o� o� veulent entendre. �

Pendant ce temps, en utilisant le syst�me de lecteur Pixel, l'utilisateur peut image diff�rente r�glage du volume sonore, respectivement, pour l'�dition audio simple.

Adresse Papers: https: //arxiv.org/abs/1804.03160

Son de pixels: une s�paration parfaite du son et de l'image, � la version de l'image d'Adobe Audition � la hausse

En g�n�ral, les compositions reposent sur une forte capacit� auditive et visuelle humaine facilement identifier et de distinguer la source sonore �met des objets sonores et sonores, mais il est difficile en termes de la machine, sa capacit� visuelle et auditive de combiner la capacit� � atteindre le niveau de reconnaissance est pas l'humanit�.

CSAIL fait la d�mo, une vid�o montre comment son lecteur vid�o Pixel peut �tre obtenue en cliquant sur l'image s�par�e du r�glement, de mani�re � � laisser le son de pixel. �

Autrement dit, la zone de pixels Pixel lecteur premier produit par un grand nombre de son positionnement d'apprentissage vid�o, le son sera s�par� des pixels vid�o sonores. De cette fa�on, cliquez sur l'image de l'emplacement de la source sonore peut �mettre un son correspondant.

Cliquez sur l'image dans l'instrument appropri�, capable de d�livrer un son correspondant, mais cliquez sur le mur, la position du corps humain n'est pas son (l�ger bruit).

Lecteur Pixel syst�me local plus fort est qu'il ne peut pas seulement des images s�par�es et du son, mais peut �galement r�gler le volume du son.

Joueur pixel peut image en taille du volume sonore instrumentale de l'ajustement, si elle est transf�r�e � la position minimum, le silence est, jouer un son similaire � Adobe Audition Enl�ve effet.

Pixel syst�me Joueur comme � Vue des photos � Adobe Audition, bien que cette derni�re fonction est beaucoup moins puissant, mais ses larges perspectives d'application. Par exemple, dans une production vid�o peut �tre r�alis� directement en �ditant les images de s�paration photos, des clips audio ont besoin d'un processus distinct.

Positionnement vid�o, audio s�paration, PixelPlayer contr�ler le son �mis par chaque pixel dans une vid�o

r�sum�

Elle propose PixelPlayer, le syst�me vid�o � l'aide d'un grand nombre de non-�tiquette pour savoir comment positionner la r�gion d'image et de la voix de g�n�ration de son �nonc� entr� s�par�s en fonction de pixel. Notre approche profite de la synchronisation naturelle des motifs sonores et visuels, l'apprentissage d'un mod�le analytique commun du son et de l'image sans surveillance. Les r�sultats exp�rimentaux sur la musique nouvelle recueillies montrent ensemble de donn�es que notre projet mixte - cadre de s�paration est mieux que les r�sultats du syst�me de base. Certains r�sultats qualitatifs montrent que notre mod�le d'apprendre le vrai visuellement le son, ce qui permet aux applications de r�gler ind�pendamment le volume de la source sonore.

1. introduction

Le monde contient une foule de signaux visuels et auditifs. Notre syst�me visuel et auditif pour identifier un objet dans le monde, zone d'image divis�e couverte par l'objet, et d'isoler les sons produits de diff�rents objets. Bien que l'analyse de la sc�ne auditive a �t� largement �tudi� dans le domaine de la reconnaissance de son environnement, mais la synchronisation peut fournir une multitude de signaux de surveillance visuelle dans le visuel et le son naturel. Le syst�me reconna�t l'objet par visuels ou sonores n�cessitent g�n�ralement de grandes quantit�s de donn�es de formation �tiquet�s. Toutefois, dans cet article, nous utilisons un apprentissage audio-visuel commun pour atteindre dans des conditions non surveill�es, pour identifier les objets produire des sons en combinant audio et vid�o et des composants audio de chaque objet s�par�. Notre syst�me sera nomm� PixelPlayer. Dans une entr�e vid�o, audio PixelPlayer la s�paration correspondante, et leur orientation spatiale dans le son de la vid�o. PixelPlayer afin que nous puissions contr�ler le son �mis par chaque pixel dans la vid�o.

Gr�ce � l'utilisation du mod�le audiovisuel bas� sur la vision pour �tudier la synchronisation naturelle entre le visuel et le son. PixelPlayer les donn�es de forme d'onde audio d'entr�e, pour pr�dire ce audio et vid�o correspondant � la position du son de l'objet.

La figure 1 montre un �tat de travail dans PixelPlayer ici. Dans cet exemple, le syst�me utilise une grande quantit� de donn�es vid�o pour la formation, qui comprend l'utilisation de diff�rents instruments jouaient des sc�narios, y compris en solo et en duo. Dans chaque section de la vid�o, le genre d'instruments, leur emplacement et la fa�on dont ils sonnent sans �tiquette fournie.

Figure 1

Dans la phase de test, l'entr�e (FIG. 1 A) est un morceau d'instruments de musique comprenant plusieurs sc�nes diff�rentes de la vid�o I (x, y, t) et S audio mono (t). PixelPlayer effectuer vid�o et audio s�par�s et un positionnement du son, du signal sonore d'entr�e en plusieurs composantes sonores des Sout (x, y, t), chacun d'un son correspondant � une position spatiale (x, y) � partir d'une trame vid�o. A titre d'exemple, la figure 1.c repr�sente le signal audio r�cup�r� � partir de 11 pixels. ligne bleue plat correspond � un syst�me silencieux de pixel de pr�diction. signal de son vois� correspondant � chaque instrument produit. Fig 1.d montre l'�nergie sonore pr�vu, ou le volume du signal audio � partir de chaque pixel. Notez que le syst�me d�tecte correctement la position du son des deux instruments, plut�t que de l'arri�re-plan. Montre la figure de 1.e comment les pixels sont rassembl�s autour du signal sonore. La m�me couleur est assign�e aux pixels produire un son similaire.

Les capacit�s vocales dans le visuel auront un impact significatif associ� � une s�rie d'applications de reconnaissance et de traitement vid�o. PixelPlayer capacit� de localisation sonore du proc�d� de s�paration peut �tre r�alis�e ind�pendamment pour chaque objet audio, ce qui contribue � la reconnaissance auditive. Notre syst�me peut �galement promouvoir l'�dition sonore vid�o, par exemple, pour r�gler le volume d'un objet particulier ou supprimer l'audio � partir d'une source sonore sp�cifique.

Deux articles r�cents ont propos� la s�paration des diff�rentes sources de vid�o et audio gr�ce � une combinaison de l'audio. Lorsqu'une suggestions de cocktail sur la fa�on de r�soudre les probl�mes dans le domaine de la voix par l'apparence de la personne. Exceptions papier montre un syst�me audio-visuel, il ne sera pas visible � l'�cran correspondant au son de la sc�ne et le fond d'�cran s�paration de phase sonore.

2. S�paration et positionnement audiovisuel

Dans cette section, nous allons pr�senter l'architecture mod�le PixelPlayer et son mixte propos� peut �tre s�par� de la vid�o - cadre de formation distinct.

2.1 Structure du mod�le

Le mod�le propos� se compose de trois parties: une analyse vid�o de r�seau, analyse audio un r�seau et une synth�se audio de r�seau, illustr� � la figure 2:

Figure 2

Analyse vid�o r�seau: Il se caract�rise principalement par l'extraction des images vid�o de la vid�o, il peut �tre une architecture de r�seau pour la visualisation de la t�che de classification. Appliqu�e ici est une extension de ResNet-18, les d�tails sp�cifiques de ce r�seau seront d�crits en d�tail dans la section exp�rimentale. taille TxHxWx3 pour une vid�o, le mod�le de ResNet pour chaque extraction de trame Tx (H / 16) dans laquelle X (W / 16) xk, et apr�s application du proc�d� de mise en commun temporel, dans lequel le ch�ssis peut �tre obtenu ik (dimension x de K, y).

Analyse du r�seau audio: analyse audio r�seau en utilisant la structure U-Net, la parole d'entr�e est divis� en K parties, avec Sk (K = 1, ..., k) indique. Trouv� empiriquement que l'utilisation des r�sultats de spectrogramme mieux que la forme d'onde d'origine, le r�seau pr�sent� ici en utilisant temps-fr�quence (T-F) de fonction. Tout d'abord, le temps de Fourier � court d'entr�e audio mixte transform�e (STFT) pour obtenir son spectrogramme, et ensuite converti en le domaine de fr�quence spectrogramme, et les caract�ristiques d'entr�e obtenue sur le r�seau U-Net, pour obtenir motif comprenant caract�ristiques diff�rentes sources sonores.

Le r�seau de son: R�seau pour pr�dire le bruit de synth�se vocale finale � pr�dire par les caract�ristiques obtenues vid�o au niveau du pixel ik (x, y) et la caract�ristique audio sk. Spectrogramme est �mis par une des techniques de spectre de masquage � base de vid�o. Plus pr�cis�ment, un masque M (x, y) peut �tre s�par�e du pixel d'entr�e de sons de sortie audio, et multipli�e par le spectre d'entr�e. Enfin, afin d'obtenir une forme d'onde de pr�diction, nous avons pr�dit le spectrogramme du spectre d'amplitude d'entr�e de la combinaison, et en utilisant l'algorithme de reconstruction Griffin Lim.

2.2 m�lang� formation semi-supervis�e - mod�le de s�paration

Formation mixte - description s�par�e de l'id�e est de cr�er artificiellement une sc�ne auditive complexe, et la s�paration du son et de r�soudre des probl�mes r�els d'analyse de sc�ne auditive. Avoir un signal audio en utilisant le fait que la superposition, nous g�n�rons signal d'entr�e audio complexe en m�langeant des sons de diff�rents vid�o. Objectif d'apprentissage du mod�le est s�par�e de l'entr�e audio et � une entr�e audio-visuel associ�.

Figure 3

La figure 3 montre une trame vid�o de formation dans le m�lange des deux. Diff�rentes phases de formation et de la phase de test, principalement les deux parties suivantes: 1) Nous nous int�ressons au hasard parmi une pluralit� de vid�o de formation et section de m�lange audio de celui-ci, chaque objet est r�cup�r� sur la base de l'entr�e audio-visuel correspondant; 2) caract�ris� en ce que la vid�o obtenue par l'espace-temps (spatio-temporelle) de la m�thode de cellule maximale (max mise en commun), plut�t que des caract�ristiques de niveau de pixel. Il est � noter que, en d�pit des objectifs clairs processus de formation, mais toujours pas de surveillance, parce que nous n'utilisons pas l'�tiquette de donn�es, ne font pas d'hypoth�ses sur l'�chantillonnage des donn�es.

Notre objectif est d'apprendre le masque de spectrogramme du syst�me, qui peut �tre un rapport de masque ou d'un masque binaire. Pour le masque binaire, le composant principal du son mix� dans chaque unit� T-F � travers le son cible d'observation, calcule la valeur cible de la N-i�me vid�o de masque.

Dans laquelle (u, v) repr�sente un axe de coordonn�es en unit�s de T-F, S repr�sente le spectrogramme. sigmo�de chaque pixel de la fonction de perte d'entropie crois�e est utilis�e comme la fonction objective de l'apprentissage. Le rapport du masque, masque le vrai rapport de l'amplitude de la vid�o est le son cible et son m�lange � calculer.

Ici, chaque pixel est utilis� pour entra�ner la perte de L1. Un point � noter est que masque la valeur r�elle due � une perturbation, pas n�cessairement �t� dans le plage.

3. exp�rience et analyse

3.1 les d�tails de mise en uvre

Notre objectif dans la formation du mod�le est capable d'apprendre sur la nature de la vid�o (y compris les solos et duos), l'�valuation quantitative de l'ensemble de la validation, la s�paration source et le r�glement d�finitif du probl�me par la localisation des donn�es vid�o mixtes naturelles. Par cons�quent, nous notre ensemble de donn�es de musique dans 500 vid�os de formation, 130 vid�os pour la v�rification, il y a 84 vid�os pour tester. Parmi eux, 500 vid�os de formation inclus solo et en duo, jeu de validation contient en solo, en duo et jeu de test contient.

Pendant la formation, nous avons choisi au hasard dans l'ensemble de donn�es MUSIC N = 2 vid�o, la vid�o peut �tre des solos, des duos silence ou arri�re-plan. video image silencieuse par la forme d'onde audio silencieux ADE ensemble de donn�es al�atoires comprenant l'environnement naturel de la paire d'images. Cette technologie vid�o en introduisant plus silencieux, pour rendre le mod�le plus appropri� pour les objets de positionnement. Dans l'ensemble, l'entr�e audio peut comprendre le m�lange instrument 0-4. Nous avons aussi essay� une voix plus mixtes, mais cela rend la t�che plus difficile, et le mod�le est pas une meilleure formation.

Dans le processus d'optimisation, nous utilisons une dynamique = SGD Optimizer 0.9. Parce que nous utilisons un mod�le pr�-form� sur CNN IMAGEnet, de sorte que le taux d'apprentissage analyse audio et r�seau synth�tiseur audio est r�gl� � 0,001, et l'analyse vid�o du taux d'apprentissage du r�seau est fix� � 0,0001.

Effet de l'entra�nement 3.2 mod�le

Pour mod�liser les performances de l'�valuation quantitative, nous avons m�lang� - processus de synth�se audio mixte s�par� pour produire l'ensemble de validation, puis s�par�s.

Comme le montre le tableau 1, dans tous les mod�les, la s�paration source NMF est effectu�e en utilisant des balises audio et r�elles. Le reste de nos mod�les sont bas�s sur le m�me cadre que d�crit dans la profondeur de l'apprentissage, � l'apprentissage du mod�le gr�ce � des entr�es vid�o et audio. Elle se r�f�re � un m�lange spectrogramme de spectre de retour sur la base de l'entr�e directement par la valeur de sortie de la r�gression du spectrogramme, la valeur de masque de sortie au lieu de spectrogramme. Comme on le voit sur la figure, le meilleur r�sultat masque binaire.

Tableau 1

Comme le montre le tableau 2, l'�valuation subjective de la performance de s�paration acoustique. Comme on peut le voir sur la table en fonction du masque binaire est sup�rieur aux autres mod�les de s�paration sonore

Tableau 2

Comme le montre le tableau 3, il est une vid�o - la coh�rence sonore de l'�valuation subjective. masque binaire � base de mod�le peut �tre le meilleur lien visuel et audio.

Tableau 3

4. Conclusion

Dans cet article, nous avons introduit le PixelPlayer, ce syst�me peut apprendre � son entr�e s�par�e, et de localiser la source sonore correspondante dans l'entr�e vid�o. MUSIC PixelPlayer est la formation dans cet ensemble de donn�es, il est une grande collection d'instruments li�s � la vid�o-non marqu�s. En utilisant les r�sultats quantitatifs et qualitatifs de recherche de l'utilisateur subjective de prouver l'efficacit� de notre syst�me d'apprentissage multi-modal. Nous esp�rons que notre travail peut ouvrir de nouvelles pistes de recherche pour comprendre le probl�me de la s�paration de la source sonore par des signaux visuels et auditifs.

[] Joignez-vous � la communaut�

Ji-won nouvelles technologies AI + industrie du recrutement communautaire, a accueilli les �tudiants + industrie de la technologie AI a atterri int�r�t, plus Little Helper Micro Signal: aiera2015_1 dans le groupe, si elle est approuv�e seront invit�s dans le groupe, assurez-vous de modifier le groupe apr�s avoir rejoint la communaut� remarques (nom - soci�t� - emploi, groupe professionnel d'examen plus rigoureux, s'il vous pla�t comprendre).

Route de la soie

Apprenez � conna�tre la Chine

Gardes! MIT nouveau syst�me � de son pixel �, son s�par� et une image parfaite (avec vid�o)

Son de pixels: une s�paration parfaite du son et de l'image, � la version de l'image d'Adobe Audition � la hausse

Positionnement vid�o, audio s�paration, PixelPlayer contr�ler le son �mis par chaque pixel dans une vid�o