« Hey Siri » équipe de développement scientifique et technologique derrière le noir!

Source: RPSC

Cet article sur 1993 mots lecture recommandée 4 minutes

Cet article décrit le prédécesseur de l'algorithme Siri, fonctionne bien derrière.

Ce qui suit est une traduction:  

Aujourd'hui, le téléphone d'Apple peut être détectée à tout moment et la réponse commande « Hey Siri », on pourrait penser, il est prêt à enregistrer nos conversations de la vie quotidienne font?

La réponse est non!

« Hey Siri » ne pas tant que nous pensions!

Jetons un coup d'oeil à « Hey Siri! » L'histoire du développement de celui-ci.

"Hey Siri!" Comme un assistant vocal pré-installé Siri fonctionnalités supplémentaires, a été publié en Septembre 2014 iOS 8. Cependant, dans iOS 9 (2015 Nian Septembre) il mis à jour et ne peut être utilisé pour personnaliser les utilisateurs de reconnaissance vocale.

Les assistants Google avant 2013 ont déjà cette fonction, mais lorsque votre écran est éteint, il ne peut pas en charge cette fonctionnalité. Même maintenant, très Duo Anzhuo téléphones mobiles ne prennent pas en charge cette fonctionnalité.

Comparons l'expérience utilisateur, comme indiqué ci-dessous:

manière conventionnelle par rapport à « Hey Siri! »

manière conventionnelle est la suivante: les utilisateurs choisissent le téléphone - >  Appuyez sur le bouton d'accueil - >  Siri commence.

Alors que dans "Hey Siri!" Mode, les utilisateurs disent simplement "Hey Siri!", Les boutons Non, vous pouvez faire Siri commencer.

Ceci a l'avantage que, parce que lorsque les utilisateurs peu pratique à utiliser (comme lors de la conduite) opération manuelle, les utilisateurs peuvent également utiliser certaines des fonctions du téléphone.

Le prédécesseur de Siri: mouvement coprocesseur M9

« Coprocesseur » peut être compris comme un processeur auxiliaire fonctionnalité limitée et la consommation batterie pour soutenir même lorsque le téléphone est inactif (hors écran) peut également accéder à la « toujours » fonction.

mouvement coprocesseur coprocesseur est M9 troisième génération de la famille de produits d'Apple, lancé en Septembre 2015, avec les 6s iPhone. Merci à elle basée sur ARM, système de puces A964 bits possède de puissantes capacités de traitement et une trace de la consommation de la batterie, le célèbre téléphone d'Apple fonction « réveil » pourrait être réalisé. Parfois été décrit M9 comme « toujours sur le mouvement de processeur embarqué coprocesseur (AOP - Toujours sur le processeur) »

« Hey Siri! » Comment ça marche?

Lorsque vous activez cette fonction première, il vous demandera de dire un certain nombre de « Hey Siri! ». Ensuite, votre iPhone va économiser ces sons, utilisés à l'avenir pour identifier votre voix individuelle « touche de déclenchement. »

Ce personnalisé « clé Trigger » stocké dans le coprocesseur, même si votre téléphone est inactif, le coprocesseur sera à l'écoute (mais pas entendre) tous les sons se sont abattues sur le microphone.

Par conséquent, lorsque le son tombe sur le microphone, et avec les matchs « clés Trigger », le coprocesseur activera le processeur principal pour lancer l'enregistrement (comme on appuie sur le bouton d'accueil pour ouvrir Siri même). Ensuite, l'enregistrement est envoyé au serveur, et chaque processus est similaire à l'assistant vocal sera expliqué.

Imaginez ce processus, si vous avez des milliers de clés, que vous essayez de trouver le bon match pour votre clé pour ouvrir la serrure.

Ici, nous devons prêter attention à l'important est que, processeur AOP (A9) toujours « d'écoute » plutôt que « écouter » la voix de l'utilisateur. Il est comme un bébé, il a écouté les gens parler, mais ne peut pas complètement traité entendre les mots, que lors de l'appel de son nom, il sera déclenché et commencer à travailler.

mouvement coprocesseur sorti en M9 Septembre 2015 les 6s iPhone. Mais, comme mentionné au début de cet article, « Hey Siri! » Fonction dès Septembre 2014 a été lancé. Eh bien, la première version de l'iPhone est de savoir comment écoute « passivement » il?

Eh bien, si vous connaissez une personne avec un iPhone 6, vous pouvez vérifier « Hey Siri! ». Même si votre téléphone est dans un état de repos (hors écran), cette fonction ne peut fonctionner en mode de charge. Comme on peut simplement en déduire, il peut seulement obtenir une petite quantité d'énergie supplémentaire pendant la charge. Considérez les paramètres iPhone 6 Siri suivant Capture d'écran:

Algorithm "Hey Siri!" Derrière

La voix de l'utilisateur sera de 0,01 seconde est une unité d'échantillonnage vers le bas, puis tous les 20 tels cadres (0,2 secondes), l'entrée en continu de la profondeur de réseau neuronal (le DNN), le réseau de neurones pour convertir ces sons en fonction de densité de probabilité lorsque la valeur de la fonction supérieure à la valeur de seuil minimum, en activant ainsi le processeur principal.

formation DNN

Ici, la valeur seuil est pas fixe, mais varie en fonction du bruit de fond. Par conséquent, afin de bien comprendre, vous pouvez dire tout le temps dans le calcul du seuil DNN.

De plus, lorsque le premier enregistrement de vos échantillons de voix et de générer un « bouton de déclenchement », est en fait de calculer la probabilité de re-formation et la définition du droit DNN.

Pour des accents différents, la formation DNN est différent. Par exemple, « Hey Siri » un peu comme la prononciation anglaise américaine de « sérieux », mais il n'a pas la ponctuation. Différent « Hey Siri! » Dans le « i » longueur de la prononciation, et avec un point d'exclamation.

Math derrière "Hey Siri"

Le contenu suivant est prêt pour tous les amoureux de l'apprentissage machine :).

Ceci est la profondeur du modèle de réseau neuronal (DNN):

modèle DNN

La fonction globale de probabilité que suit:

où:

  • F (i, t) est le modèle de l'état de points accumulés i
  • q (i, t) est la sortie du modèle acoustique. Cette sortie est un nombre fractionnaire de catégories de la parole, qui est proche de la façon de parler t étant donné le temps concernant la i-ème état
  • s (i) est laissé dans l'état i et la tête associée avec
  • m (i) est continue à se déplacer vers l'arrière au-dessus de l'état i

Où s (i), et m (i) de la définition de « clé de déclenchement » formation de poids lié puissance, on peut supposer que:

s (i) - est déterminée par une seule image « clé de déclencheur », en fonction de la tonalité, le volume et d'autres paramètres.

m (i) - en fonction de la fréquence, la vitesse, ou en bref « touche de déclenchement », et s (i) pour modifier la taille et les paramètres de vitesse.

Par exemple: m (i) et s (i) de Eminem (Eminem) et Adele (Adele) est très différent, puisque Eminem chante plus vite (beaucoup plus rapide en fait) alors que peu de changement. Et Adele chante plus lentement et plus le changement.

Compte tenu de la puissance de traitement et de la consommation batterie, par le coprocesseur (couche 32) et un processeur principal (192 de la couche), la taille de la hiérarchie sont différents DNN.

« Hey Siri! » Bien que cette fonctionnalité n'a pas été largement médiatisé, mais il est une étape révolutionnaire vers l'automatisation et l'augmentation de la facilité d'utilisation pas de téléphone mobile. Il peut également être considéré comme un bon exemple de la façon dont un petit changement dans la façon dont les utilisateurs éprouvent un impact énorme, et nécessite parfois une étude approfondie de ces petits changements révolutionnaires.

Lien original: https: //hackernoon.com/how-does-hey-siri-work-without-your-iphone-listening-to-you-at-all-times-827932do

- FIN -

attention Tsinghua - données Académie des sciences de Qingdao plate-forme publique micro-canal officiel "  AI pour envoyer des données  « Sisters et n ° » Les données envoyées THU  « Pour plus de conférences et de bien-être contenu de qualité.

De nouvelles données de recherche de la Couronne où trouver? Les chercheurs doivent-voir (lien ci-joint)
Précédent
L'apprentissage GRAPHIC: tout le monde peut comprendre l'algorithme principe
Prochain
portes logiques de protéines avec les cellules dans l'ordinateur, les jeunes chercheurs chinois Gordon sciences
Le premier moteur de traduction au monde a évolué et la «folie du diable» a pris soin du dialecte
La diffusion des « informations » plutôt que « virus »! Les programmeurs avec 500 traduction multilingue « se laver les mains »
Tsinghua lancement plate-forme de sécurité de l'équipe AI AI, algorithme haut de déception face forte, puis corriger les bugs
Limite de décision de différents modèles d'apprentissage automatique (avec code)
Petits robots aider à prendre à emporter! Parc scientifique de Zhongguancun Dongsheng ces « outil de prévention des épidémies » pour contribuer à rétablir la production de retourner au travail
tuyau de chauffage est pas chaud, les fuites d'eau ...... communautés « équipe Parkour de » l'entretien de 60 jours de plus d'un millier de fois
Conseil de Direction « Propriétés Direction » comment évaluer? les lignes directrices de la Commission viennent
Chen Nouveau: Bataille de Wuhan dans la lutte et gagner nouvelle étape
OPPO OPPO Regardez la première montre intelligente sera dévoilée au prix, soit près de 3000 yuans
vie Zhouzhuang | petite ville et au printemps, peinture brumeux sud pluie
journaliste CCTV a été témoin du site accident en Iran pour plus de détails publiés