OpenAI construit AI "chanson variable Ji"! Formé 1,2 million de chansons pour devenir Elvis Britney

Série Wisdom (numéro public: zhidxcom) | Dong Wenshu

Le 6 mai, récemment, l'organisation de recherche en intelligence artificielle à but non lucratif OpenAI a développé un "jukebox" -Jukebox, utilisant des réseaux de neurones. Que ce soit du rock, du hip-hop ou du jazz, Jukebox peut générer de la musique du style correspondant sans pression.

Par rapport aux outils de génération de musique précédents, Jukebox peut capturer avec précision des voix humaines et un timbre, une force et des caractéristiques expressives plus subtils. Tant que vous saisissez le genre, l'artiste et les paroles, vous pouvez générer une musique de haute simulation ou une voix chantée du style correspondant.

La recherche a été publiée sur le site officiel d'OpenAI et l'article intitulé "Jukebox: A Generative Model for Music"

Code GitHub: https://github.com/openai/jukebox/

Lien papier: https://cdn.openai.com/papers/jukebox.pdf

1. La séquence audio est longue et difficile à modéliser

L'exploration de la musique générée automatiquement remonte à plus d'un demi-siècle.

Une méthode typique est le piano roll (Piano Roll), c'est-à-dire qu'en spécifiant l'instrument, la hauteur, le temps et la vitesse de chaque note à jouer, la musique est produite en jouant symboliquement sur les touches du piano.

Les chercheurs ont utilisé cette méthode de génération de musique pour générer un chur de Bach d'une minute, une polyphonie multi-instruments et quelques minutes de musique.

Cependant, cette méthode de génération de musique à partir d'une seule note a ses limites, et il est impossible de capturer les caractéristiques de la voix humaine et un timbre, une force et une expressivité plus subtils, qui sont très importants pour la performance de la performance.

Une autre méthode consiste à modéliser directement la musique en audio original. Par rapport aux notes de modélisation, il est plus difficile de générer de la musique au niveau audio.

En effet, la musique au niveau audio a une séquence plus longue. Par exemple, une musique de qualité CD typique de 4 minutes (44 kHz, 16 bits) a plus de 10 millions de pas de temps.

Quel est le concept de 10 millions? Il est important de savoir que le modèle de langage général GPT-2 avec jusqu'à 1,5 milliard de paramètres OpenAI n'a que 1000 pas de temps, et OpenAI Five, qui abuse des joueurs humains Dota 2, ne prend que des dizaines de milliers de pas de temps par partie.

Par conséquent, pour apprendre la sémantique de haut niveau de la musique, le modèle doit introduire une relation de dépendance à longue portée pour générer de l'audio avec un temps plus long, une structure plus variée et un ton plus diversifié.

Une façon de résoudre le long problème dentrée consiste à utiliser un encodeur automatique, en supprimant certains bits dinformation sans rapport avec la perception, à compresser laudio original dans un espace de dimension inférieure, puis à entraîner le modèle à générer de laudio dans cet espace compressé et à passer Le suréchantillonnage retourne finalement à l'espace audio d'origine et produit finalement une musique proche du style attendu.

2. Entraînez-vous avec 1,2 million de chansons! Apprenez la musique pop avec Britney et Céline Dion

Les chercheurs ont choisi l'architecture hiérarchique VQ-VAE (architecture hiérarchique VQ-VAE) pour compresser l'audio d'origine, puis ont utilisé un transformateur épars autorégressif pour prédire la musique, tout en formant un algorithme de suréchantillonnage autorégressif pour reproduire les informations perdues à chaque niveau .

1. Compressez l'audio d'origine

Des recherches antérieures ont prouvé que le modèle hiérarchique VQ-VAE peut générer des images haute fidélité. Les chercheurs d'OpenAI pensent que ce modèle peut être utilisé pour compresser l'audio brut en codes discrets.

Les chercheurs ont modélisé l'audio d'origine à partir de trois niveaux d'abstraction différents. Chaque niveau VQ-VAE encode indépendamment l'entrée. L'encodage de niveau inférieur produit la reconstruction de la plus haute qualité. L'encodage de niveau supérieur conserve uniquement les informations musicales de base. Au niveau de chaque couche, un réseau résiduel de convolution à expansion 1-D non causal de style WaveNet est utilisé pour entrelacer les convolutions 1-D d'échantillonnage vers le bas et de sur-échantillonnage pour correspondre à différentes longueurs de saut.

Les trois niveaux compressent respectivement l'audio d'origine de 44 kHz selon 8x, 32x, 128x, et la taille du livre de codes de chaque niveau est de 2048.

Le son généré par cette méthode de sous-échantillonnage perd la plupart des détails, et lorsque vous réduisez davantage le volume, un bruit important apparaît. Cependant, il conserve des informations de base sur la tonalité, le timbre et le volume.

2. Générez des codes musicaux

Ensuite, les chercheurs ont utilisé un Transformateur clairsemé autorégressif simplifié pour entraîner le modèle, faire apprendre au modèle la distribution des codes musicaux codés par le modèle VQ-VAE et faire produire de la musique dans cet espace discret.

De même, les chercheurs ont également modélisé à partir de trois niveaux: un modèle antérieur de niveau supérieur qui peut générer le code le plus compressé; deux modèles antérieurs suréchantillonnés qui génèrent moins de code compressé.

Le modèle antérieur de niveau supérieur simule la structure à long terme de la musique. La qualité audio des échantillons décodés à partir de ce niveau est faible, mais il peut capturer une sémantique avancée telle que le chant et la mélodie.

Les modèles antérieurs d'échantillonnage intermédiaire et de niveau inférieur peuvent simuler le timbre et d'autres fonctionnalités, améliorant considérablement la qualité sonore.

Une fois que tous les modèles a priori ont été formés, les chercheurs peuvent générer du code à partir du modèle a priori de niveau supérieur, utiliser le modèle a priori de suréchantillonnage pour suréchantillonner le code, puis utiliser le décodeur VQ-VAE pour décoder le code dans l'audio d'origine.

3. Entraînez-vous avec 1,2 million de chansons

Après la construction du modèle, les chercheurs ont collecté 1,2 million de chansons (dont la moitié sont des chansons anglaises) sur Internet pour les former, et ont également introduit les paroles et les métadonnées dans LyricWiki pour améliorer l'effet d'entraînement.

Les métadonnées incluent l'artiste, le style d'album, l'année de la chanson, le sentiment commun exprimé par chaque chanson et les mots clés de la liste de lecture. Les chercheurs ont utilisé de l'audio brut 32 bits, 44,1 kHz pour la formation. En plus de l'audio d'origine, les chercheurs ont également renforcé l'effet d'entraînement en mélangeant au hasard les canaux gauche et droit pour produire un son mono.

Afin d'améliorer la musique générée, les chercheurs ont spécifié le chanteur et le style artistique de la chanson générée. Les résultats de la formation montrent que le modèle peut classer des artistes ou des genres avec des styles similaires dans une seule catégorie de manière non supervisée.

Le modèle classe les données telles que 1,2 million de chansons et de musiciens en musique reggae, musique country, bande originale, musique classique, POP, jazz, blues, soul, rock, hip-hop et R & B.

Afin de faire correspondre les paroles avec l'audio, les chercheurs ont conçu un schéma simple: pendant la formation, une fenêtre avec une durée de lecture fixe est définie pour chaque personnage, et au fur et à mesure que la musique continue, les personnages des paroles sont joués dans l'ordre chronologique.

Les résultats de la formation montrent qu'avec ce programme, la plupart des paroles peuvent être associées à l'audio, à l'exception de la musique Hip-Hop plus rapide.

Afin de résoudre ce problème, les chercheurs ont utilisé le logiciel de séparation de la bande son Spleeter pour extraire la voix de chaque chanson, puis ont utilisé l'outil d'arrangement automatique des paroles NUS AutoLyricsAlign pour obtenir une correspondance au niveau des mots pour la voix extraite, afin d'obtenir une correspondance précise des paroles effet.

L'adaptation du modèle aux paroles

3. Limitations: incapable de générer de la musique chorale

Bien que Jukebox puisse générer de la musique de différents genres et styles artistiques, améliorant la qualité sonore, la continuité et la durée de l'audio généré automatiquement, il présente certaines limites.

Tout d'abord, il y a encore un grand écart entre la musique produite par Jukebox et la musique créée par les humains. Par exemple, bien que le Jukebox puisse générer de la musique solo avec de bons effets, il est actuellement incapable de générer de la musique plus compliquée comme le chorus.

Les chercheurs affirment que l'amélioration du modèle VQ-VAE en couches pour lui permettre de capturer plus d'informations musicales peut améliorer ce défaut.

Deuxièmement, la vitesse d'échantillonnage du Jukebox est également très lente. Il faut environ 9 heures pour restituer 1 minute de musique, de sorte que Jukebox ne peut pas être utilisé dans des applications interactives.

L'article souligne que l'extraction du modèle dans un échantillonneur parallèle peut augmenter la vitesse d'échantillonnage.

En outre, le modèle actuel utilise principalement des paroles anglaises et de la musique occidentale pour la formation, et n'a pas encore produit de chansons dans plus de langues.

Les chercheurs pensent que bien que le modèle Jukebox ne puisse pas être directement utilisé pour la création musicale, à l'avenir, Jukebox pourrait fournir une assistance dans le processus de création des musiciens.

Le document souligne également que l'équipe OpenAI a communiqué avec 10 musiciens et espère que ces derniers fourniront un retour d'information aux chercheurs.

Conclusion: il peut être utilisé pour simplifier le processus de création musicale

Par rapport au modèle de génération de musique précédent, le modèle Jukebox développé par l'équipe OpenAI a fait de grands progrès: il peut générer automatiquement un son de chant humain hautement simulé et le contenu généré couvre différents genres musicaux.

À l'avenir, Jukebox pourrait être utilisé pour simplifier le processus de création musicale et aider plus de gens à réaliser leurs rêves musicaux. Le journal écrit: "Beaucoup de gens qui rêvent de musique n'ont pas la possibilité de recevoir une formation professionnelle, donc nous pensons que (Jukebox) deviendra un outil important pour les musiciens humains."

Source de l'article: OpenAI

Merci d'avoir lu. Cliquez pour suivre à bord, vous emmener à la pointe de la technologie ~

Une voiture indispensable sur le porte-avions, le coût est comparable à la supercar supérieure, l'Inde utilise un tracteur à la place
Précédent
Journée internationale des infirmières, lorsque "la première infirmière" rencontre "le premier journaliste de terrain"
Prochain
"Gardiens" de Jinshan, vous devez avoir un nom sur le livre du mérite
L'augmentation de l'or par gramme est supérieure à 100 yuans par rapport à la même période l'année dernière, mais les magasins Jinshan ont des rabais ...
Pour la première fois, toute la Chine a créé indépendamment la plus grande banque de gènes chinoise et les résultats ont été publiés dans une revue nationale
Lettre spéciale pour les élèves de l'école primaire de retour de la fête des mères à Shanghai a terminé leur observation d'isolement concentré à Shanghai, "Merci à Shanghai, merci à la patrie!"
1 or et 3 bronze! Les étudiants de Baoshan brillent dans les compétitions nationales
Responsabilités des entreprises centrales (coordination des travaux de réforme, de développement et de stabilité)
Qui peut dire que vous serez récompensé pour Sanchunhui
Les vêtements intelligents deviennent le prochain débouché d'AIoT? Apple a même abandonné 66 brevets, ainsi que la voiture VR!
Restauration d'objets anciens «Maison dans la chambre» de Shanghain Musée non public de Pudong Exploration de la voie du fonctionnement durable
Combien de fois par jour le chef se lave-t-il les mains et combien de chiffons doivent être dans la chambre d'hôtel? La première certification de protection de l'industrie hôtelière au monde a été dé
Les fleurs roses fleurissent et Xiancheng regorge de paysages magnifiques ~ Avez-vous déjà visité ces endroits?
Le deuxième congrès des membres de la neuvième association de football de Shanghai a eu lieu. Liu Haiguang a été élu président, Fan Zhiyi et 6 autres personnes ont été ajoutées comme vice-président