La transition d'un robot à un être humain? "Voice Changer Tour" de Siri

Le texte intégral 1850 Les mots, lorsque l'apprentissage tout au long attendu 6 minute

Source: Weibo

En tant qu'utilisateur iOS, combien de fois par jour vous sera alors dire Siri? Plusieurs fois, est-ce pas?

l'intelligence artificielle et la profondeur de l'apprentissage est de plus en plus ancrées et sont de plus en plus utilisés pour développer un assistant personnel virtuel.

Aujourd'hui, nous allons voir comment les utiliser pour améliorer la voix de Siri.

Si vous êtes un observateur attentif, vous trouverez à partir de sons vocaux de Siri système iOS 11 plus humain que jamais. Ceci est parce que Apple est en train de creuser l'intelligence artificielle, l'apprentissage de la machine et de la technologie de l'apprentissage en profondeur, pour fournir aux utilisateurs la meilleure expérience assistant personnel.

Depuis l'introduction de l'iPhone 4S Siri, a été étendu à iOS11, cet assistant personnel a évolué plus proches des humains, et les humains ont établi une bonne relation. synthèse Siri et de la parole par le biais d'une combinaison d'apprentissage en profondeur la réponse à l'instruction vocale de l'utilisateur.

de la parole: la fonction Siri partie intégrante

Source: baike

La synthèse vocale est fondamentalement un discours humain synthétique. La technologie dans de nombreux domaines, y compris assistant personnel virtuel, des jeux et du divertissement, y compris parfait. Après un certain progrès dans la sélection de l'unité intégrée et les paramètres de l'aspect du modèle de base, l'apprentissage en profondeur est devenu plus profondément que le.

Cette technologie est intégrée dans la synthèse de la parole pour produire un nouveau modèle, appelé une forme d'onde de modèle direct. Avec ce modèle, nous pouvons maintenant gérer la synthèse de sélection des unités de haute qualité, et contribue à améliorer la flexibilité de l'utilisation des paramètres de synthèse.

la capacité d'Apple à apprendre la profondeur de l'unité de mélange à l'aide du système de sélection pour fournir la sortie vocale de la plus haute qualité à Siri.

système Text-to-Speech (TTS) est comment cela fonctionne:

système fonctionne TTS est la voix humaine dans le cas des dossiers qui peuvent survenir, diviser l'unité de la parole, et utilise l'apprentissage de la machine.

Enregistré voix humaine dans des situations qui peuvent survenir

Un assistant personnel virtuel pour créer un système texte-parole, la tâche principale est d'enregistrer la voix humaine. Non seulement la voix mélodieuse, et que tout le monde a entendu très clairement.

Afin de couvrir un large éventail de la parole humaine, le besoin d'enregistrer environ 20 heures de la voix dans un studio professionnel. Cela inclut presque tous les types de réponses, y compris la description de commandement, dictant météo, des blagues et ainsi de suite. En utilisant le clip audio est impossible, car les types d'utilisateurs une question de l'assistant personnel est sans limite. Ensuite, le processus de répondre à ces enregistrés, de sorte que les assistants virtuels à comprendre.

unité de la parole Bifurcation

voix humaine enregistrée est divisée en plusieurs parties, puis réunis conformément au texte reçu pour créer une réponse parfaite. dispositif spécifique de l'unité vocale optimisée ou une série de dispositifs pour les rendre compatibles avec la nécessité d'analyser les caractéristiques acoustiques de chaque prosodie d'appel et de la parole.

L'utilisation de l'apprentissage de la machine

Bien que cela ressemble à un autre processus, mais permettent aux développeurs de module de commande complet comprend un stress et l'intonation (rythme), il est très difficile et difficile. En outre, pour les téléphones mobiles, l'utilisation de cette forme de la chaîne est trop compliquée.

Avec l'introduction de l'apprentissage de la machine, dans une certaine mesure, ces défis ont été résolus. En recueillant des données pour la formation, le texte du système vocal peut comprendre ce modèle, comprendre comment répartir les différents éléments audio, afin de fournir une sortie similaire à l'homme naturel.

Les efforts d'Apple fait en termes d'amélioration de la voix Siri

Lorsque les ingénieurs d'Apple ont décidé d'améliorer vigoureusement les capacités vocales Siri, ils collaborent avec un acteur de voix féminine, l'anglais américain avec 20 heures de voix enregistrée. Ces 1-2 millions clips audio sont utilisés pour former le système d'apprentissage en profondeur.

Ensuite, les ingénieurs de sélectionner Siri et son précédent nouveau son en administrant à un sujet afin de tester la sortie. La plupart d'entre eux préfèrent la nouvelle voix naturelle, comme Siri humaine. Ils ont noté que lorsque Siri pour répondre aux questions triviales, a confirmé que « la demande terminée » notification et fournir d'autres instructions de navigation, voix claire du robot dans un son naturel.

La figure ci-dessous présente les résultats des tests AB d'écoute subjective:

De plus, les sujets ont vu ce son dans le plein respect de Siri « personnalité ». les fournisseurs de services de développement d'applications iOS travaillent sur cette technologie, afin de comprendre comment ils utilisent la même technologie pour développer des applications plus innovantes.

Lorsque l'expérience utilisateur à une nouvelle voix de Siri

iPhone 8 est le premier équipé avec les nouveaux iOS et 11 voix Siri de téléphone d'Apple. On a également annoncé l'iPad sera équipé de nouvel assistant vocal personnel. Pour découvrir de nouvelles possibilités, Apple n'a jamais cessé d'expériences technologiques. Avec l'amélioration de Siri fonctionnalités vocales, Apple est maintenant dans la phase d'observation, afin de comprendre la réponse de l'utilisateur final.

Du point de vue pratique, l'intelligence artificielle et la profondeur de l'apprentissage, il renforce sa base dans un des assistants personnels virtuels et d'autres applications. Parce que la réponse positive des gens à l'avenir de ces technologies semblent être tout à fait clair.

Réjouissez-vous le lendemain, le ton et la voix de Siri peut être utilisé avec les émotions humaines et vous parler.

pouces Message attention

Ensemble, nous partageons l'apprentissage et le développement de l'IA sec

Tels que réimprimer, s'il vous plaît laisser un message dans les coulisses, se conformer aux normes de réimpression

3 bonnes pratiques Python pour les débutants, à découvrir
Précédent
À ne pas manquer! dix idées créatives du projet de 2020 Données Science
Prochain
Photos | nuages de pluie Zhangjiajie beau que le paradis
Google vient de publier 25 millions d'ensembles de données libres, venez découvrir
Attention! Votre souris a été site Web de cheminement
"Code de propreté": 5 points de base
La communauté internationale préoccupée par la guerre de la Chine « la peste »: la Chine est le monde pendant un certain temps
JS n'utilise pas ===
Comment les spectateurs les grandes entreprises utilisent l'intelligence artificielle, et l'utilisation de la pratique?
Sous en ligne et hors ligne intégré, à la fois derrière la guerre médecin avant Yuanjiang Jinhua « peste » jeu
Jeunesse Technologie | Académie chinoise des sciences Zhang Shifeng: début tard pour rattraper son retard, et nous nous efforçons de faire une personne utile
Pour les enfants à partir d'un nom, de créer un générateur de nom de bébé avec une technologie d'apprentissage en profondeur
Seulement six mois, je suis devenu un scientifique à partir des données codées blanc
« 2 regrettables » Liu Jia Xi miroir de maquillage fans louange gagné sourire