OpenAI construit AI "chanson variable Ji"! Form� 1,2 million de chansons pour devenir Elvis Britney

S�rie Wisdom (num�ro public: zhidxcom) | Dong Wenshu

Le 6 mai, r�cemment, l'organisation de recherche en intelligence artificielle � but non lucratif OpenAI a d�velopp� un "jukebox" -Jukebox, utilisant des r�seaux de neurones. Que ce soit du rock, du hip-hop ou du jazz, Jukebox peut g�n�rer de la musique du style correspondant sans pression.

Par rapport aux outils de g�n�ration de musique pr�c�dents, Jukebox peut capturer avec pr�cision des voix humaines et un timbre, une force et des caract�ristiques expressives plus subtils. Tant que vous saisissez le genre, l'artiste et les paroles, vous pouvez g�n�rer une musique de haute simulation ou une voix chant�e du style correspondant.

La recherche a �t� publi�e sur le site officiel d'OpenAI et l'article intitul� "Jukebox: A Generative Model for Music"

Code GitHub: https://github.com/openai/jukebox/

Lien papier: https://cdn.openai.com/papers/jukebox.pdf

1. La s�quence audio est longue et difficile � mod�liser

L'exploration de la musique g�n�r�e automatiquement remonte � plus d'un demi-si�cle.

Une m�thode typique est le piano roll (Piano Roll), c'est-�-dire qu'en sp�cifiant l'instrument, la hauteur, le temps et la vitesse de chaque note � jouer, la musique est produite en jouant symboliquement sur les touches du piano.

Les chercheurs ont utilis� cette m�thode de g�n�ration de musique pour g�n�rer un chur de Bach d'une minute, une polyphonie multi-instruments et quelques minutes de musique.

Cependant, cette m�thode de g�n�ration de musique � partir d'une seule note a ses limites, et il est impossible de capturer les caract�ristiques de la voix humaine et un timbre, une force et une expressivit� plus subtils, qui sont tr�s importants pour la performance de la performance.

Une autre m�thode consiste � mod�liser directement la musique en audio original. Par rapport aux notes de mod�lisation, il est plus difficile de g�n�rer de la musique au niveau audio.

En effet, la musique au niveau audio a une s�quence plus longue. Par exemple, une musique de qualit� CD typique de 4 minutes (44 kHz, 16 bits) a plus de 10 millions de pas de temps.

Quel est le concept de 10 millions? Il est important de savoir que le mod�le de langage g�n�ral GPT-2 avec jusqu'� 1,5 milliard de param�tres OpenAI n'a que 1000 pas de temps, et OpenAI Five, qui abuse des joueurs humains Dota 2, ne prend que des dizaines de milliers de pas de temps par partie.

Par cons�quent, pour apprendre la s�mantique de haut niveau de la musique, le mod�le doit introduire une relation de d�pendance � longue port�e pour g�n�rer de l'audio avec un temps plus long, une structure plus vari�e et un ton plus diversifi�.

Une fa�on de r�soudre le long probl�me dentr�e consiste � utiliser un encodeur automatique, en supprimant certains bits dinformation sans rapport avec la perception, � compresser laudio original dans un espace de dimension inf�rieure, puis � entra�ner le mod�le � g�n�rer de laudio dans cet espace compress� et � passer Le sur�chantillonnage retourne finalement � l'espace audio d'origine et produit finalement une musique proche du style attendu.

2. Entra�nez-vous avec 1,2 million de chansons! Apprenez la musique pop avec Britney et C�line Dion

Les chercheurs ont choisi l'architecture hi�rarchique VQ-VAE (architecture hi�rarchique VQ-VAE) pour compresser l'audio d'origine, puis ont utilis� un transformateur �pars autor�gressif pour pr�dire la musique, tout en formant un algorithme de sur�chantillonnage autor�gressif pour reproduire les informations perdues � chaque niveau .

1. Compressez l'audio d'origine

Des recherches ant�rieures ont prouv� que le mod�le hi�rarchique VQ-VAE peut g�n�rer des images haute fid�lit�. Les chercheurs d'OpenAI pensent que ce mod�le peut �tre utilis� pour compresser l'audio brut en codes discrets.

Les chercheurs ont mod�lis� l'audio d'origine � partir de trois niveaux d'abstraction diff�rents. Chaque niveau VQ-VAE encode ind�pendamment l'entr�e. L'encodage de niveau inf�rieur produit la reconstruction de la plus haute qualit�. L'encodage de niveau sup�rieur conserve uniquement les informations musicales de base. Au niveau de chaque couche, un r�seau r�siduel de convolution � expansion 1-D non causal de style WaveNet est utilis� pour entrelacer les convolutions 1-D d'�chantillonnage vers le bas et de sur-�chantillonnage pour correspondre � diff�rentes longueurs de saut.

Les trois niveaux compressent respectivement l'audio d'origine de 44 kHz selon 8x, 32x, 128x, et la taille du livre de codes de chaque niveau est de 2048.

Le son g�n�r� par cette m�thode de sous-�chantillonnage perd la plupart des d�tails, et lorsque vous r�duisez davantage le volume, un bruit important appara�t. Cependant, il conserve des informations de base sur la tonalit�, le timbre et le volume.

2. G�n�rez des codes musicaux

Ensuite, les chercheurs ont utilis� un Transformateur clairsem� autor�gressif simplifi� pour entra�ner le mod�le, faire apprendre au mod�le la distribution des codes musicaux cod�s par le mod�le VQ-VAE et faire produire de la musique dans cet espace discret.

De m�me, les chercheurs ont �galement mod�lis� � partir de trois niveaux: un mod�le ant�rieur de niveau sup�rieur qui peut g�n�rer le code le plus compress�; deux mod�les ant�rieurs sur�chantillonn�s qui g�n�rent moins de code compress�.

Le mod�le ant�rieur de niveau sup�rieur simule la structure � long terme de la musique. La qualit� audio des �chantillons d�cod�s � partir de ce niveau est faible, mais il peut capturer une s�mantique avanc�e telle que le chant et la m�lodie.

Les mod�les ant�rieurs d'�chantillonnage interm�diaire et de niveau inf�rieur peuvent simuler le timbre et d'autres fonctionnalit�s, am�liorant consid�rablement la qualit� sonore.

Une fois que tous les mod�les a priori ont �t� form�s, les chercheurs peuvent g�n�rer du code � partir du mod�le a priori de niveau sup�rieur, utiliser le mod�le a priori de sur�chantillonnage pour sur�chantillonner le code, puis utiliser le d�codeur VQ-VAE pour d�coder le code dans l'audio d'origine.

3. Entra�nez-vous avec 1,2 million de chansons

Apr�s la construction du mod�le, les chercheurs ont collect� 1,2 million de chansons (dont la moiti� sont des chansons anglaises) sur Internet pour les former, et ont �galement introduit les paroles et les m�tadonn�es dans LyricWiki pour am�liorer l'effet d'entra�nement.

Les m�tadonn�es incluent l'artiste, le style d'album, l'ann�e de la chanson, le sentiment commun exprim� par chaque chanson et les mots cl�s de la liste de lecture. Les chercheurs ont utilis� de l'audio brut 32 bits, 44,1 kHz pour la formation. En plus de l'audio d'origine, les chercheurs ont �galement renforc� l'effet d'entra�nement en m�langeant au hasard les canaux gauche et droit pour produire un son mono.

Afin d'am�liorer la musique g�n�r�e, les chercheurs ont sp�cifi� le chanteur et le style artistique de la chanson g�n�r�e. Les r�sultats de la formation montrent que le mod�le peut classer des artistes ou des genres avec des styles similaires dans une seule cat�gorie de mani�re non supervis�e.

Le mod�le classe les donn�es telles que 1,2 million de chansons et de musiciens en musique reggae, musique country, bande originale, musique classique, POP, jazz, blues, soul, rock, hip-hop et R & B.

Afin de faire correspondre les paroles avec l'audio, les chercheurs ont con�u un sch�ma simple: pendant la formation, une fen�tre avec une dur�e de lecture fixe est d�finie pour chaque personnage, et au fur et � mesure que la musique continue, les personnages des paroles sont jou�s dans l'ordre chronologique.

Les r�sultats de la formation montrent qu'avec ce programme, la plupart des paroles peuvent �tre associ�es � l'audio, � l'exception de la musique Hip-Hop plus rapide.

Afin de r�soudre ce probl�me, les chercheurs ont utilis� le logiciel de s�paration de la bande son Spleeter pour extraire la voix de chaque chanson, puis ont utilis� l'outil d'arrangement automatique des paroles NUS AutoLyricsAlign pour obtenir une correspondance au niveau des mots pour la voix extraite, afin d'obtenir une correspondance pr�cise des paroles effet.

L'adaptation du mod�le aux paroles

3. Limitations: incapable de g�n�rer de la musique chorale

Bien que Jukebox puisse g�n�rer de la musique de diff�rents genres et styles artistiques, am�liorant la qualit� sonore, la continuit� et la dur�e de l'audio g�n�r� automatiquement, il pr�sente certaines limites.

Tout d'abord, il y a encore un grand �cart entre la musique produite par Jukebox et la musique cr��e par les humains. Par exemple, bien que le Jukebox puisse g�n�rer de la musique solo avec de bons effets, il est actuellement incapable de g�n�rer de la musique plus compliqu�e comme le chorus.

Les chercheurs affirment que l'am�lioration du mod�le VQ-VAE en couches pour lui permettre de capturer plus d'informations musicales peut am�liorer ce d�faut.

Deuxi�mement, la vitesse d'�chantillonnage du Jukebox est �galement tr�s lente. Il faut environ 9 heures pour restituer 1 minute de musique, de sorte que Jukebox ne peut pas �tre utilis� dans des applications interactives.

L'article souligne que l'extraction du mod�le dans un �chantillonneur parall�le peut augmenter la vitesse d'�chantillonnage.

En outre, le mod�le actuel utilise principalement des paroles anglaises et de la musique occidentale pour la formation, et n'a pas encore produit de chansons dans plus de langues.

Les chercheurs pensent que bien que le mod�le Jukebox ne puisse pas �tre directement utilis� pour la cr�ation musicale, � l'avenir, Jukebox pourrait fournir une assistance dans le processus de cr�ation des musiciens.

Le document souligne �galement que l'�quipe OpenAI a communiqu� avec 10 musiciens et esp�re que ces derniers fourniront un retour d'information aux chercheurs.

Conclusion: il peut �tre utilis� pour simplifier le processus de cr�ation musicale

Par rapport au mod�le de g�n�ration de musique pr�c�dent, le mod�le Jukebox d�velopp� par l'�quipe OpenAI a fait de grands progr�s: il peut g�n�rer automatiquement un son de chant humain hautement simul� et le contenu g�n�r� couvre diff�rents genres musicaux.

� l'avenir, Jukebox pourrait �tre utilis� pour simplifier le processus de cr�ation musicale et aider plus de gens � r�aliser leurs r�ves musicaux. Le journal �crit: "Beaucoup de gens qui r�vent de musique n'ont pas la possibilit� de recevoir une formation professionnelle, donc nous pensons que (Jukebox) deviendra un outil important pour les musiciens humains."

Source de l'article: OpenAI

Merci d'avoir lu. Cliquez pour suivre � bord, vous emmener � la pointe de la technologie ~

Route de la soie

Apprenez � conna�tre la Chine

OpenAI construit AI "chanson variable Ji"! Form� 1,2 million de chansons pour devenir Elvis Britney

1. La s�quence audio est longue et difficile � mod�liser

2. Entra�nez-vous avec 1,2 million de chansons! Apprenez la musique pop avec Britney et C�line Dion

3. Limitations: incapable de g�n�rer de la musique chorale

Conclusion: il peut �tre utilis� pour simplifier le processus de cr�ation musicale