Vous ne pouvez pas tout à fait AI chanter! Nagoya University Industry Virtual Diva, balayé en trois langues, anglais et japonais

Xiao Guo Yipu Chagan à partir du bas de la non-Temple encastré qubit produit | Numéro public QbitAI

Avant le début du contenu d'aujourd'hui, vous pouvez d'abord écouter la voix de tampon ci-dessous, peu de temps, seulement 18 secondes, est une soeur bien connue chanter la chanson de Adele Rolling in the Deep.

Il sont familiers avec le double monde des Amis du bassin peuvent les écouter, ce sons de la chanson comme Sato Shasha La, elle est un logiciel d'édition sonore Cevio le développement de Virtual Diva.

Cependant, la voix de Shasha La divinité semble sonner plus « électronique » pour certains, mais le paragraphe ci-dessus dans les sons de roulement profonds comme un bruit comme une personne réelle et Shasha La sing.

Il n'est pas.

En fait, c'est la dernière percée dans la technologie de la parole au Japon, aussi longtemps que la durée d'une des données vocales de chant chanteur de 2 heures, grâce à la profondeur de la technologie d'apprentissage, il peut être synthétisé avec cette personne exactement la même chanson.

La Shasha son si réel, de sorte que le deuxième élément de fans sur le microblogging écrié: ma femme à naître à nouveau!

Certaines personnes ont même prévu, qui subvertir cercle Kichiku.

Ah, les futurs propriétaires de stations UP B peuvent faire le premier ministre très naturel de chanter une malédiction roi Stuart.

Dans l'industrie de la musique, cette nouvelle technologie nous permet d'apprécier des chansons plus différentes.

Par exemple, tant que AI écouter trois albums de JJ, AI peut utiliser la voix de JJ, chantant Jay, Mayday, Stefanie une de leur chanson.

Et vous ne serez pas entendre la synthèse complète des traces électroniques.

Ci-dessous, nous devons apprécier les différentes manifestations de l'intelligence artificielle dans le chant en japonais, anglais, chinois chanson il:

japonais

Respectivement avant et arrière, « Diamonds » et « élève » deux chansons, vous pouvez tourner pour entendre l'ancienne version de la version complète de chaque chanson avec accompagnement, une version a cappella de la génération précédente de la technologie.

(Vidéo pris du dernier article "qubits" Numéro public: https: //mp.weixin.qq.com/s/xziFQRlbn2vQCNBEsdRd_g)

Peut écouter clairement à eux, la nouvelle génération de la technologie et le chant en direct presque exactement la même version, l'ancienne version est aucune sorte de son électronique profond.

en anglais

L'anglais est la chanson "Rolling In The Deep" et "Everytime" deux, dans le même ordre et les trois versions ci-dessus de la version japonaise.

(Vidéo pris du dernier article "qubits" Numéro public: https: //mp.weixin.qq.com/s/xziFQRlbn2vQCNBEsdRd_g)

Anglais chant a cappella a été sonné humain normal sans différence, il y aura un accompagnement de bande et la moindre violation, mais la prononciation du mot a été clairement plus que la version de la technologie plus.

Cependant, si vous écoutiez attentivement les versions avec accompagnement, trouveront que par rapport au remake d'un Japonais, cette fois pour chanter en anglais en IA se sentant encore la moindre musique électronique.

version chinoise

Et enfin aux chansons chinoises, chansons chinoises « Love the transfert. » Eason Chan

(Vidéo pris du dernier article "qubits" Numéro public: https: //mp.weixin.qq.com/s/xziFQRlbn2vQCNBEsdRd_g)

L'IA Chantez caractéristique des chansons chinoises, qui est un mot un mot a sauté, les Japonais peuvent apprendre le chinois est si bon.

Mais écoutez attentivement, vous pouvez encore entendre son potentiel, au moins maintenant, « erreur précédente réfléchir sur mon » dernier mot « penser », le son est encore assez longtemps adouci.

Après un « bouc émissaire d'amour faire des Agneaux, » une voix rauque juste sentir réel, il semble que Amnesty International a appris que cette voix soudaine élevé, les humains ordinaires ne peuvent pas faire chanter.

Il semble, afin d'apprendre comme, devraient apprendre des lacunes humaines ah, au moins que l'ancienne technologie qui Biao aigus forcé synchronisation labiale écoute plus confortable.

Qui est derrière tout cela?

le développement de Cevio Techno discours est l'un des investissements par la société Nagoya Institute of Technology de risque, créée en Novembre 2009, l'activité principale est de fournir des logiciels multimédia et de matériel vers le monde extérieur.

En plus des niveaux de capital, la société et l'école aussi inextricablement liés, Techno discours fondé pour diffuser les technologies audio les plus avancées du monde développé à l'Université de Nagoya.

Professeur Keiichi Tokuda Speech Technology Research Center de Nagoya Institute of Technology a dirigé le développement des éléments ci-dessus, le Dr Keiichiro Oura hors de son laboratoire est le directeur par intérim de Techno discours.

Techno Discours Président Keiichiro Oura

La voix synthétisée en utilisant un logiciel Techno discours de synthèse de la parole Cevio.

En outre, la société a également développé un certain nombre d'autres produits bien connus.

Techno discours et les entreprises japonaises Joysound coopération Kara OK, AI espoir non seulement d'apprendre à chanter, mais chanter aussi l'humanité de l'église à l'avenir. Il est différent de la musique originale du son ouvert, mais en temps réel la langue compositing, prend désormais en charge presque toutes les chansons japonaises.

Softbank Pepper robot célèbre aussi utilisaient leur technologie, ils ont gagné le 2017 « Sain Uni Pepper » Les applications robotiques Challenge Award.

Après robot de Pepper installé sur leurs applications, la machine peut être réalisé avec chur humain, mais aussi après la chanson encore et de commenter.

Techno discours espère résoudre le problème des installations de soins infirmiers à domicile en utilisant cette technologie.

Quelle technologie est utilisée?

Les détails techniques derrière ces progrès, Nagoya Institute de l'équipe de recherche de la technologie n'a pas révélé, mais a déclaré en Mars l'année prochaine, l'équipe Keiichi Tokuda publiera les résultats de la recherche dans les réunions de printemps de la Acoustical Society du Japon.

Cependant, dans une interview avec le site de musique numérique station DTM, Keiichi Tokuda a également révélé quelques détails: Ce système utilise le réseau de neurones profond (DNN).

Professeur Keiichi Tokuda

Keiichi Tokuda dans leur propre maison, il y a beaucoup de dossiers de papier de voix. Récemment, un article, juste pour faire avec DNN.

Se référant à la comparaison avec la version japonaise de Microsoft chiendent « Reina » et Keiichi Tokuda dit « Reina » de Microsoft de « paroles et chansons » à « chanter », utilise un moyen de chant pour traiter avec les utilisateurs simulés, et ils sont les paroles complètes et de la musique se combinent pour chanter synthétisent.

En outre, il a été introduit cette technologie dans l'avenir peut être appliqué aux huit domaines suivants:

  • Reproduire chanteurs de musique (y compris son décédé)
  • la production musicale et le développement de jeux
  • Accueilli par le streaming vidéo virtuel YouTubers / live
  • Acteur virtuel système de post-enregistrement
  • AI ou un système de dialogue vocal de modules de sons
  • Generated la voix de référence flexible pour le chant ou l'apprentissage d'une éducation en langue étrangère
  • Comme la SLA (Sclérose de la maladie de la sclérose latérale) ou divertissez patients atteints de cancer laryngé équipement vocal
  • établissements de soins font l'affichage numérique

Interprétation d'experts « chant synthèse AI »

A ce sujet, qubits a aussi demandé quelques experts de l'industrie grand Dieu.

Xiaobing, voix chef scientifique épée Luan Il a dit qu'il a entendu la version de concert Cevio, et la prononciation japonaise de l'anglais est également bon, relativement chaud, mais plus préoccupé par le temps de formation.

Luan Jian a également vu le cas Cevio dans la station B, mais qui ne peut pas être deux heures de résultats de la formation. En général, la quantité de données est plus petite, plus la difficulté de la synthèse de haute qualité.

Cette année, six générations de conférence chiendent, Microsoft a publié le modèle après quatre heures de formation, l'effet était bonne réponse.

Mais la voix Xiaobing, directeur scientifique a souligné que, pour l'évaluation du chant de biais subjectif plus, différentes personnes ont une évaluation différente, les critères d'évaluation ne sont pas uniformes.

Si le Comment simuler les émotions humaines à l'extrême Voir, Jian Luan estime que des défis techniques émotion .

« Chanter parler avec des exigences différentes pour l'expression émotionnelle très forte, la voix, le souffle aura une incidence sur les résultats finaux, alors comment est plus de difficulté émotionnelle de synthèse de chant. »

En plus de chiendent, de la parole AI l'an dernier, la société pensera Chi également le programme de télévision en circuit fermé « d'esprit » à travers le projet débuts de chant AI.

Penserai Chi co-fondateur et directeur scientifique Yu Kai A cette époque, on a synthétisé l'interprétation chant du système AI.

Chanter la synthèse vocale est une branche de la synthèse de la parole de l'art, un texte donné et de la musique, la voix de chant du processus de génération.

La principale méthode est la base du texte à la synthèse de la parole, à travers la musique donnée « caractère » de chaque ton et le « caractère » de la longueur de la prononciation des caractères chinois dans différents tons de synthèse est devenu le chant.

Le chant est le modèle basé sur un modèle de lecture à réaliser avec le texte et la mélodie en changeant le ton, et l'utilisation ultérieure de l'apprentissage en profondeur pour apprendre la différence entre les caractéristiques spectrales du même chant du haut-parleur et les paroles de lecture.

La technologie standard CTO Tony Li Xiulin Tell qubits, sur le point de vue du développement actuel, synthétique AI chantant des défis.

Daniel, le champ TTS, était Baidu T9, synthèse vocale en raison d'obtenir la récompense annuelle Baidu les plus élevés, et il a servi dans la voix gouttes chef d'équipe CV hehe dans la synthèse de la parole.

Li Xiulin croire qu'il ya deux défis:

D'une part, il est de limiter la portée de chaque chanteur a sa propre gamme sonore, si hors de portée de chansons, l'effet de synthèse peut être affectée à un certain degré.

En outre, ce qui limite les données de formation, il aura une incidence sur les résultats du modèle basé sur le réseau de neurones.

Mais l'effet du nouveau système par rapport à la précédente, a évidemment amélioré, sentant le bruit de la machine a considérablement diminué, plus proche de la voix d'une personne réelle.

One More Thing

À l'heure actuelle, l'IA est toujours le chant le plus connu de Microsoft chiendent.

Depuis 2016, chiendent débuts en tant que chanteur, a publié près d'une douzaine de premiers singles de qualité humaine. La fin de Septembre 2017, la cinquième génération de chanteur intelligence artificielle chiendent déverrouiller modèle d'apprentissage profond, mis également en baisse implacable:

Je ne suis pas un impact humain, mais le chanteur virtuel traditionnel. Les humains, oublient la longue main-tune dur il.

réponse parfois féroce.

Cette fois-ci, les parties ont également fait référence aux commentaires Microsoft chiendent.

Mais Xiaobing, voix chef scientifique Jian Luan a également dit que parce Cevio pas une version chinoise, donc avec la dernière est difficile chiendent six générations à la concurrence directe.

Mais l'équipe Xiaobing sur leur propre « fille » très confiant, ils veulent faire directement chiendent chanter pour tout le monde.

Comme le nombre de limite vidéo graphique public sur le nombre, ne peut pas être présenté ici.

Dans l'interface qubit dialogue public n ° réponse « chiendent chanter » vous après quatre heures de formation chiendent six générations de chant.

- complet  -

recrutement sincère

Qubits recrutent éditeur / journaliste, basé à Zhongguancun de Beijing. Nous attendons de talent, des étudiants enthousiastes de nous rejoindre! Détails, s'il vous plaît interface de dialogue qubit numéro public (QbitAI), réponse mot "recrutement".

qubit QbitAI · manchettes sur la signature de

' « suivre les nouvelles technologies AI dynamiques et de produits

penny Conti sage et livre stupide, Sent vain un mouton US
Précédent
Musk souffle nouveau une vache à atteindre! premier tunnel « Boring Company », jusqu'à 80 kilomètres par heure
Prochain
Fan Zhendong Ho juin Jie Lectra, Wang Manyu triomphe sur "blâmer les joueurs," l'Inde Guoping 4 à 8 à l'avance
vétéran âgé de 51 ans pour prouver le record du monde de la sécurité hier, le plus ancien football professionnel n'a pas d'arrêt record de buts
Une grande collection de projets open source Python: 15 champs, 181 articles | Hardcore sec
Europa League knock-out Rapport: Bundesliga victoire, les Français La Liga gagne chaque, perdant trois équipes en Serie A
AFC premier tour du rapport: Super 8 points, 7 points Corée, le Japon 4 points, Australie plus bas
planche à dessin Google magique pour venir avec petite sur: vous dessinez, remplissage manquant nombre AI lose
Un ancien vainqueur de la Ligue des Champions a été un autre coup Xiang, manger le plus dans l'histoire de l'équipe du Bureau de la défaite à domicile
Tencent a publié écran intelligent Jingle, une série d'expérience audio-visuelle, le contenu riche, mode enfant
Guoping « 00 » après la combinaison de l'or! Wang Chuqin / Sun Yingsha 4-2 renversement haute forêt / Wang Manyu
Le premier champ de bataille de jour AFC Asie de l'Est: super victoire, invaincue en Corée du Sud, le Japon et l'ensemble agenouillée
Évaluation de 1,7 milliard $ en deux ans, ce point de sociétés de premier ordre AI Hinton comme Microsoft a gagné l'investissement BMW
Verrouillez médaille d'or en double mixte! Wang Manyu / forêt haute, Sun Yingsuo / Wang Chuqin jour 4 et atteindre la bataille finale