Laissez un bon parler cette réussite assistant vocal, Google ne vous dit pas quelque chose

AI continuent à subvertir nos perceptions de la « technologie noire » du terme, ce qui est le soupir après beaucoup de gens qui regardent les nouvelles démonstrations de technologies interactives vocales de Google.

Dans le Google I / O Assemblée générale tenue la semaine dernière, le PDG de Google Sandahl · Pichardo Irak (Sundar Pichai) montre une période de fragment de communication vie quotidienne plus normale téléphonique à la foule: rendez-vous au salon de coiffure ou un restaurant.

La différence est que, c'est une période de dialogue entre l'assistant vocal Google AI et de la réalité. Il est trop vrai, sinon lors de la conférence de presse, tout simplement écouter cet enregistrement serait difficile de distinguer qui est AI Intelligence artificielle, qui est la vraie personne.

Enfin, assistant d'intelligence artificielle appelé Google Duplex est bien fait de réservation téléphonique dans le passé pour atteindre les besoins réels, mais nous permet aussi de voir l'assistant vocal sous la direction d'une évolution.

Grâce à la technologie AI, la communication entre l'homme et assistant vocal n'est plus un à sens unique, mais peut être lisse naturellement communication multi-segment et le dialogue entre les gens comme le même.

Ce naturel, incarné dans les détails suivants:

1. le ton émotionnel plus riche de la voix, comme la phrase question se mettre en pause, puis quelques mots avec un son distinct prolongé;

2. Même de l'autre côté au contenu de réponse un peu déroutant, Duplex peut également régler l'ajustement rapide du contenu de la réponse;

3. seront émis comme « ah ha », « la quantité de ... » Ce ton du mot;

4. Le droit de la vitesse de réponse.

En fait, les êtres humains dans la conversation de tous les jours et ne pas être trop particulier sur la logique de l'ordre des mots, il peut être mélangé à sens multicouche dans une phrase, qui est à la démonstration en direct Google de deux cas de communication téléphonique a également réfléchi. Si les zones chinoises, un grand nombre de mots ou homophones simultanés va rendre les choses plus compliquées.

Bien sûr, Duplex seulement dans le « rendez-vous téléphonique » dans ce domaine et peut être naturellement communication humaine. La raison pour laquelle Google choisirait le premier essai sur le terrain, mais aussi parce que les enjeux de cette petite scène, le dialogue souvent inséparable du temps, le lieu, le nombre de personnes et d'autres mots-clés. Les moyens d'environnement unique que l'IA peut apprendre plus complètement le contenu de cette scène, et une formation ciblée.

Cependant, étant donné que le problème pour mot réel dialogue, beaucoup d'incertitude dans la communication téléphonique d'information, apparaissent souvent après quelques paragraphes du dialogue, tels que « le temps est vendredi prochain » « A quelle heure? » « Vendredi prochain, 18 Non « cette reconnaissance répétée ce moment.

assistant vocal est non seulement plus intelligent, et son encore meilleur et réaliste

Afin de traiter avec précision la question du dialogue, nous combinons le contenu du blog officiel de Google AI, il suffit de trier un peu du processus de flux Duplex:

1. comptent tensorflow extension à construire un modèle réseau de neurones récurrents (RNN), et l'utilisation de données d'appel anonymes ont été formés;

2. La voix humaine d'abord par la reconnaissance automatique de la parole (ARS), saisissez les informations de texte au réseau RNN, qui comprend également les fonctionnalités audio et historique des conversations;

3. Par texte généré RNN aidera le texte à la parole TTS, que le contenu de la réponse finale.

Penser ainsi, Google Duplex et bien d'autres choses à faire dans l'intelligence artificielle est également très similaire. Ils doivent passer par beaucoup d'analyse des données, la formation, et d'identifier leur propre processus d'apprentissage des données, puis exporter le modèle approprié pour prédire les résultats de l'aide.

Comme les préoccupations du public « et des voix humaines Duplex presque », d'une part aussi mentionné précédemment, AI peut en apprendre davantage à une profondeur unique de champ, d'autre part, Google est au moyen d'un texte à la parole, y compris WaveNet, y compris la technologie, de sorte que l'IA peut changer le ton et l'intonation dans des contextes différents générés est de haute qualité et de la voix nuancée.

(Source: CNET)

Ce qui est très important est l'utilisation de « modal », les êtres humains vont penser dans le processus de parler, où il fera une pause souvent accompagnée d'un certain modal. Nous entendons l'expression naturelle en réponse Google Duplex, certains développeurs sont délibérément dans la formation, tandis que d'autres sont mieux en mesure de son excessive plusieurs unités.

Bien sûr, en réponse à un certain nombre de besoins tels que la réponse rapide lorsqu'on lui a demandé: « Bonjour », le modèle Google Duplex ne sera probablement pas attendre le résultat de l'opération, mais d'abord donner une réponse vague, puis de nouveau après le contenu en fonction d'une réponse officielle.

Cela signifie qu'il peut laisser le temps de réponse plus rapide AI, mais aussi plus naturel - après tout, si réagir rapidement à des problèmes complexes, peuvent ne pas sembler comme un « humain » peut faire.

Cette voix naturelle, l'expression « son anthropomorphique » est inséparable de la traîne du progrès dans le texte à la parole technologie. Maintenant, beaucoup de l'assistant vocal, une phrase de quelques mots voix épissé ensemble, bien que la structure elle-même est pas un problème, mais pas le ton de base Transforme des sons très raide.

L'exemple le plus typique est en fait nos affaires pour le téléphone à 10086 à jouer, nous savons tous qui est la réponse par défaut à la parole - le genre de son sans aucune émotion, afin que nous puissions « entendre ».

(Source: Marques Brownlee)

Mais Google Duplex n'est pas le même, il est plus susceptible de prononcer la norme de clarté que les humains.

Dès 2016, Google et DeepMind pour nous montrer la profondeur de l'apprentissage basé sur le modèle de production de la parole appelé WaveNet. Étant donné que l'audio implique beaucoup d'informations, ce qui signifie que les couches sont empilées et les connexions de latence du réseau de neurones de convolution, et un grand nombre de formation échantillon, et, finalement, générer la forme d'onde audio d'origine dans le rythme et l'intonation sont très bien comportés.

Dans la pratique, la session de test vocal anglais américain, WaveNet partition sonore est très proche du niveau humain, si elle est associée à la précision des facteurs cette phrase, peut-être autant que les humains.

Maintenant Duplex sera dans cette partie du texte à la parole WaveNet utilise la technologie de synthèse vocale. En même temps, et la reconnaissance d'image, traduction et d'autres API de plate-forme informatique Google Cloud, comme, service de texte à la parole WaveNet, est devenu l'un des points de vente des nuages actuels Google services informatiques.

services de communication vocale il y a une demande, non seulement réservation par téléphone

Selon le plan de Google, Duplex prendra la tête dans le domaine des restaurants, des salons de coiffure et autres réservation par téléphone plus commencer à tester. Comme mentionné précédemment, la réservation par téléphone mot-clé impliqué dans le domaine, avec l'aide de l'IA, nous pouvons réduire beaucoup de travail « de communication répétée ».

1. Pour les entreprises, si vous utilisez le système de réservation de soutien Duplex, même lorsque vous êtes hors-ligne permet également aux clients de réserver par Google assistant.

2. les vacances, certaines entreprises vont changer les heures d'ouverture, vous pouvez également faire Duplex dans une enquête téléphonique après Google mise à jour automatiquement les informations sans avoir besoin d'exploiter leur propre entreprise par les utilisateurs professionnels ne doivent pas appeler à plusieurs reprises pour confirmer.

3.Google Duplex processus de réservation téléphonique complet est entièrement automatisé fond, complète rappellera directement l'utilisateur sur le téléphone, ce qui est une grande aide pour les personnes handicapées est, si la tâche rencontrée Duplex non reconnue, sera transférée à l'utilisateur de continuer à remplir.

Comme la technologie text-to-speech WaveNet, l'accès à la plate-forme de calcul Google Cloud peut être utilisé dans des zones plus larges. Actuellement Google a identifié plusieurs scénarios pratiques:

1. et téléviseurs intelligents, des voitures, des robots, des haut-parleurs intelligents et d'autres appareils combinent les choses, que le conducteur et la salle de séjour est la scène de ces deux principaux domaines de préoccupation l'interaction vocale.

2. créer un système d'expression vocale plus naturelle, en particulier une partie de la demande pour les entreprises de l'opérateur de services de téléphonie vocale, comme vient de le dire China Mobile 10086.

3. Le contenu du texte (comme les nouvelles et e-book) est converti en podcasts et livres audio, la valeur principale de la lecture ou de l'effet anthropomorphique.

En outre, Microsoft Build Developers Conference 2018 cette année a également démontré l'utilisation de l'assistant vocal Cortana dans plus d'une réunion d'affaires dans la scène.

Lors de la réunion, il a montré un système de haut-parleurs corps vertébral rond, qui soutient non seulement la reconnaissance des visages, mais aussi des conversations de chat multi-personne se transformer en texte, et le soutien pour la traduction en temps réel, forment un rapport complet de la réunion, il peut même interpréter conversations dans la réunion, à faire la liste sont classés, ainsi que des salles de réunion et un temps de réunion à l'avance le calendrier suivant.

Bien que ce soit seulement une vidéo de démonstration, mais il prouve aussi, AI est maintenant beaucoup plus que assistant vocal demanderas alarmes météorologiques et ensemble si simple.

Comme il est un robot peut, pourquoi délibérément faire et vivre comme?

En utilisant l'intelligence artificielle de réduire les coûts de main-d'uvre, d'améliorer l'efficacité, il a été la plupart des entreprises veulent réaliser quelque chose. D'une part, nous voulons être en mesure d'utiliser des moyens automatisés, aura juste dit flux répétitif, hautement prévisible des tâches à accomplir robots AI ou même nous permettre de nous concentrer sur les plus créatifs, l'incertitude facteur plus élevé au travail, ce qui est difficile à remplacer l'intelligence artificielle.

Mais d'autre part, et de l'autre « l'intelligence artificielle a fait de tout à fait semblable à la réalité » la technologie, comme, début Google Duplex a également déclenché une nouvelle série de préoccupations des utilisateurs au sujet de la technologie de l'intelligence artificielle.

Dr morale Laboratoire numérique, Institut d'Oxford Internet Thomas King dit: « Google Ce test est en fait une fraude bien conçu, si elles supposent que les humains ne peuvent pas distinguer entre le son réel et l'IA, si une réceptionniste et pense qu'ils sont à long terme groupe robot de chat, ainsi il peut maintenir la voie de communication et il ne peut pas être le même que précédemment n'a pas d'importance de toute façon, plus poli impoli de ne pas blesser les gens cette idée continuera de rester à l'esprit - ??? même s'il a reçu une appelle de vraies personnes ».

Il a également dit: « Depuis la parole synthétisée à l'origine, pourquoi devrait délibérément fait et vraiment autant de succès que toute tromperie pour atteindre, peut conduire à saper la confiance lorsque la confiance a commencé une fois perdue, il complètement effondrement ..? »

Des arguments similaires, nous pouvons voir sur de nombreux médias étrangers de technologie et Twitter. l'attitude générale de base est: « ne veut pas être dupe robot de l'homme. »

Alors que Google a dit qu'après le test sera officiellement mis en Duplex « AI montrent leur identité » peut être mise en uvre spécifique que nous ne savons pas. Si Google a vraiment l'intention d'aller en profondeur dans les domaines technologiques de la vie quotidienne, il ne peut être évité que les préoccupations mentionnées éthiques et morales.

Compte tenu de la dynamique actuelle de l'assistant vocal intelligent de haut-parleur de feu est devenu aussi au centre des grands géants luttant. Il est prévisible que, lorsque les technologies de la parole deviennent plus matures, et nous laissons l'assistant AI a émis un son similaire n'est pas trop difficile d'imaginer des choses.

Mais si vous dites que vous attendez et à discuter, mais aussi de deviner vos pensées, pour l'instant, Google ont probablement aussi à face non seulement des problèmes techniques.

Question - Source: Newsunleashed

Votre chaque mot « Bonjour » nous soutenons vos raisons pour les joueurs
Précédent
Jaap roi de la peau de gloire sur la ligne, la valeur Edition Collector le démarrer? compétences d'effets spéciaux est assez!
Prochain
Le premier spectacle sans succès le plus fort 165 Surface: 13 ans, 10 équipes ont été invités à hauteur faux
Play « Wei moine » est devenu populaire pour le tournage souffrant de dépression, et finit par devenir un acteur puissant, et sa femme le bonheur sous-estimés
stand ChinaJoy être les premiers à découvrir la nouvelle version Blizzard Warcraft / Hearthstone
Yin et Yang Ibuki tâche mains très sont douloureux? Yin et Yang est devenu le tombeau du public en détresse bête « prisonnier »
Shanghai, « sept, cinq policiers »: Seule la grand-mère et petit-fils accompagnent l'autre pour manger le dîner
Ke Bien 1 personnes décident de changer le destin de James Wong Curry, Carrefour devrait à quatre guerrier géant
« Quotidien du Peuple » Overseas édition Commentaires: Jeux Éducation ne peut pas jouer
Né famille d'arts martiaux, son « Once Upon a Time » est devenu populaire, discret avec sa femme heureuse, le public a été oublié
défi esthétique Mad Hatter, IKEA vous ramène aux années 1980
Roi de gloire cinq évaluation de la peau sacrée: Major sentiment général, mais les joueurs l'adresse « vraiment doux »?
Après avoir bu 80 Grand-père « bubble tea grand-père » manger des crêpes faites après 10, en fait le « goût » du même goût | amour réchauffant coeur vivant Shen Chun
La "taxe de service" Curry 200000000100000000 Harden main vraiment riche? tragédie Jordanie causé les impôts