Bill Gates d'une voix pour parler? Facebook système AI peut faire

thèse 2081 Les mots, lorsque l'apprentissage tout au long attendu 4 minute

Source: Jack Taylor / Getty Images

la voix de la machine de développement a toujours été un peu décevant. Même les meilleurs systèmes texte de synthèse vocale qualité aussi légèrement rigide, mécanique, et le manque de changements fondamentaux dans le ton humain a. Un bon exemple est le système de synthèse de la parole de Stephen Hawking.

Compte tenu de la formidable croissance au cours des dernières années, l'apprentissage de la machine, ce qui est quelque peu inattendue. Logiquement parlant, la reconnaissance des visages et des objets et générer le véritable champ d'image, la machine a fait très bien, alors, son application audio devrait également être tout aussi impressionnant. Mais ce n'est pas le cas.

Au moins jusqu'à aujourd'hui est la suivante. Aujourd'hui, Facebook Intelligence artificielle Centre de recherche Sean Vasquez (Sean Vasquez) Lewis et Mike (Mike Lewis) a fait une percée dans ce domaine. Ils ont développé une méthode, peut dépasser les limites du texte du système de conversion de la parole, la génération d'un segment audio complet très réaliste par la machine. Leurs machines sont appelées MelNet, non seulement peut reproduire le ton humain, et peuvent être copiés avec le même son en direct. Par conséquent, la formation équipe de recherche avec Bill Gates, qui voix pour parler. Ce travail apporte une possibilité plus réaliste pour l'interaction entre les humains et les ordinateurs, mais il a également déclenché une nouvelle ère de préoccupations sur le contenu audio faux.

Tout d'abord, il est dit que l'arrière-plan de l'étude. Avant cela, la réalité du texte - système de conversion de voix lenteur des progrès de la raison n'est pas à cause du manque d'essayer. En fait, de nombreuses équipes ont essayé des algorithmes d'apprentissage en profondeur formés à l'utilisation de grandes bases de Reproduire audio modèles de discours réel.

Vasquez et représentent Lewis, ce procédé est problématique en ce que le type de données. Jusqu'à présent, la plupart des travaux dans l'étude a porté sur l'enregistrement du signal audio. Et ces enregistrements audio contient des milliers par pas de temps, montrent comment l'amplitude du son au fil du temps et du changement.

Ces formes d'ondes sur une variété d'échelles ont montré un modèle spécifique. Par exemple, quelques secondes de sa forme d'onde vocale associée à une séquence de mots reflète le modèle caractéristique. Mais dans l'échelle de la microseconde, montrant des caractéristiques associées à la forme d'onde de hauteur et le timbre du son. De l'autre échelle, la forme d'onde reflète l'intonation de l'orateur, la structure phonème.

Une autre méthode consiste à étudier ces modes à une forme d'onde de pas de temps pas de temps suivant et la corrélation entre les longues considérations entrent. Par conséquent, dans un intervalle de temps donné, le son et la voix derrière le début du mot est pertinent.

système d'apprentissage profondeur devrait être bon d'apprendre la pertinence de ces types, et les copier. Le problème est que beaucoup de ces associations sont sur des échelles de temps différentes, et le système d'apprentissage en profondeur corrélation seulement pour une échelle limitée dans le temps. Ceci est parce qu'ils apprennent à utiliser un processus appelé processus d'apprentissage propagation de retour constamment re-connexion au réseau, selon l'exemple vu pour améliorer ses performances.

Et ce taux de répétition limite le temps de corrélation. Par conséquent, le réseau d'apprentissage en profondeur peut apprendre la corrélation entre la forme d'onde audio longue ou courte, mais pas les deux en même temps d'apprentissage. Ceci est la raison pour laquelle l'étude des performances précédente mauvaise dans la réplication vocale.

Et Vasquez et Lewis alors cela a une méthode de recherche différent des gens ordinaires. Ils ont utilisé pour former le réseau d'apprentissage en profondeur du spectre, plutôt que d'une forme d'onde audio. Sonogramme enregistrer l'ensemble du spectre audio et comment il change au fil du temps. Ainsi, lorsque la capture de forme d'onde d'un paramètre dans le temps, l'amplitude des changements dans le spectre de la variété capturée de différentes gammes de fréquences.

Cela signifie que l'information audio est emballé plus dense dans ce type de présentation des données. Vasquez et Lewis a déclaré: « Le spectre de la ligne de temps que la forme d'onde de chronologie pour plusieurs ordres de compact grandeur, ce qui signifie des dizaines de milliers à travers les étapes de temps dépendances dans la forme d'onde, juste en face des centaines de pas de temps dans le tableau du spectre long ".

Cela rend le système plus facile à apprendre la profondeur de l'apprentissage pertinent. Ils ont dit: « Cela rend notre modèle est en mesure de produire le spectre des échantillons de voix et de la musique en quelques secondes sans conditions, et la cohérence. »

Leurs résultats sont impressionnants. En utilisant une formation de système vocal commun MelNet TED discours, MelNet capable de reproduire le son haut-parleur TED en quelques secondes, plus ou moins dire quelques déclarations. Pour démontrer la flexibilité du système, les chercheurs de Facebook ont utilisé la conférence TED de Bill Gates pour former MelNet, puis avec sa voix pour dire le succès d'une série de phrases aléatoires.

Voici le système audio dit: « Quand les choses vont mal, nous froncer les sourcils » et « spiritueux de vin de Porto avec un goût fumé » de ces deux phrases.

Bien sûr, le système a quelques limites. Parce que le langage de tous les jours peut contenir corrélation dans une plage plus longue. Par exemple, on peut utiliser le changement de ton pour indiquer des changements dans un thème de conte ou de l'humeur dans le développement de dizaines de secondes ou minutes. Et le système de la machine Facebook semble incapable de le faire.

Source: pexels.com/@pixabay

Ainsi, alors que MelNet peut créer un effet très réaliste de l'expression, mais l'équipe font gérer des peines plus longues, paragraphes ou histoire entière Shihai pas parfait. Et cet objectif semble être lent à atteindre.

, Ce travail peut néanmoins encore avoir un impact significatif sur l'interaction homme-ordinateur. Après tout, beaucoup de dialogue ne contient qu'une phrase brève. Surtout pour les opérateurs de téléphonie et le personnel de bureau, ils utilisent une série de phrases relativement courtes au travail. Par conséquent, cette technologie permet d'automatiser ces travaux d'interactions, encore plus anthropomorphique que le système actuel.

Cependant, à l'heure actuelle Vasquez et Lewis restent peu loquace sur les applications potentielles de la technologie.

Comme toujours, la machine à consonance naturelle, il y a beaucoup de problèmes potentiels, en particulier ceux qui peuvent vraiment mimétique machine humaine. Il est facile d'imaginer que cette technologie pourrait être appliquée à mal sur la scène. Donc, comme d'habitude, les questions éthiques soulevées par les progrès de l'intelligence artificielle, c'est bien plus qu'elle ne peut répondre.

pouces Message attention

Ensemble, nous partageons l'apprentissage et le développement de l'IA sec

Amnesty International salue l'attention de la pendaison toute la plate-forme de la classe médiatique « lecture technique de base »

Sony (SONY) machine disque vinyle PS-LX310BT cotées en Chine
Précédent
Avec un apprentissage en profondeur pour construire le maestro: Photo transfiguration de la « magie »
Prochain
chef-d'oeuvre d'entrée de gamme - Onkyo Amplificateurs Onkyo TX-NR696 AV
Les Chinois ne doivent pas automatiquement classées trash renseignement
son coeur aujourd'hui | Chut! Vous parlez à l'assistant vocal de Google, vous avez peut-être été une fuite ......
Démons (1Plus) élégant à double casque d'oreille dynamique
« TFBOYS » « Partager » Gardes 190623 coups de fouet apparaissent longs cils fines deviennent source de roi
Cette architecture micro services Guide de mise en route, les enfants âgés de 7 ans peuvent apprendre
« TFBOYS » « Partager » 190623 Wangjun Kai style collection chapeau, pour montrer le plein sens de l'adolescence
Xiaofan quelque chose est arrivé en Juin et quelques petites séries de perspectives
Aujourd'hui, le son de base | l'un des quatre opérateurs ne sont pas en faveur de Huawei? faux
Aujourd'hui Atlas: CP3 Tribute vous bénisse toujours
190623 joueurs apparaît vivant dans la lentille de Xi Yi éperlan un montant de mille ans à un ensemble de selfie bricoler
Printemps des questions d'entrevue ultra-détaillées de démarrage Collection, on ne quitte pas mort