Les questions scientifiques dans le centre-ville

Imaginez un scénario:

Dans un après-midi ensoleillé ordinaire, vous marchez seul dans la rue, en face de deux personnes, ils discutent, nouvellement ouvert, à proximité d'un dépanneur. Tout à coup, derrière lui vint un éclat de chiens rapides aboiements « écorce Wang », vous regardez rapidement revenir à la façon dont il était. A cette époque, la rue, j'entendu la sirène de la voiture de police, « les enfants Wuwa, les enfants, les enfants Wuwa Hooroar. »

Après un certain temps, vous passez devant Dieu, ils découvrent que le chien ne semble pas arrêter les appels, mais la discussion est toujours piétonne du son est toujours l'oreille, la police siffler lentement crescendos plus loin.

Vous ne pouvez pas se rendre compte que, en fait, vous venez de rencontrer et facilement remplir un demi-siècle de problèmes de calcul scientifique casse-tête - problème de cocktail.

1. scène auditive figure dans une rue, des images de l'IEEE Spectrum

problème Cocktail Party (cocktail problème du parti), est un scientifique cognitiviste britannique Edward ColinCherry a proposé en 1953 dans l'étude des mécanismes attentionnels. Il fait référence au genre de l'oreille humaine dans la capacité complexe des environnements d'écoute à choisir.

Dans le cas de multiples voix est apparu, les gens peuvent se concentrer sur un stimulus sonore particulier, tout en ignorant d'autres bruits de fond. En d'autres termes, les humains peuvent se concentrer dans une conversation personnelle, tout en ignorant d'autres conversations ou le bruit de fond.

Rappelons que nous supposons que ce scénario, quand une sirène de voiture de police apparaissent, nous pouvons rapidement attirer l'attention à cette voix au-dessus, tout en ignorant les interférences d'autres sons, comme voix des piétons et des aboiements de chiens. Bien sûr, vous êtes libre de tester le comportement auditif dans l'environnement de multiples sources sonores, les faits vous diront, vous pouvez toujours entendre parfaitement naturel et une partie de ce que vous voulez entendre, mais pas toujours en même temps de se concentrer sur plus la source sonore.

Photos du réseau

En fait, face à la capacité d'attention auditive pour sélectionner l'environnement complexe du système auditif humain a montré un talent incroyable. Bien que le mécanisme de l'effet cocktail du complexe, mais pour nous les humains, parmi de multiples sources sonores converties attention est une chose très facile, que nous ne pouvons même pas sentir la présence de ce processus. Cependant, pour nos ordinateurs ou une variété d'appareils intelligents, comment sélectionner le son que vous voulez entendre dans un environnement complexe, c'est un très gros problème.

Pour résoudre ce problème, les scientifiques ont mené des recherches et des analyses. Au cours des 60 dernières années, les scientifiques ont fait beaucoup de problèmes pour l'approche de cocktail. Il peut être formé essentiellement de trois genres différents: un procédé basé sur le traitement du signal, les méthodes basées sur des règles et des méthodes basées sur la décomposition. Cependant, ces méthodes sont encore limitées dans leur hypothèse respective Idéalement, les données ou plus état stable. Pour le système de calcul, sélectionnez la prochaine audience du réel environnement plus complexe est encore difficile d'obtenir les résultats souhaités.

Heureusement, avec l'accumulation de données et le développement de la technologie, les méthodes, la profondeur des réseaux de neurones ont commencé à montrer leurs talents dans le domaine de la résolution du problème de cocktail.

les questions de CocktailConférence sont destinés à séparer le signal utile du signal perturbé vocal, ce processus peut être un terrain très naturel pour atteindre un problème d'apprentissage supervisé. Comme la profondeur de la fonction d'identification par réseau de neurones est un procédé d'apprentissage de la surveillance du courant le plus puissant, il peut être utilisé en tant que signal d'apprentissage à partir des données brutes bruyants pour isoler la cible (par exemple, le masque ou la voix sur le spectre d'amplitude d'intérêt) dans.

Récemment, l'Institut Académie chinoise des sciences du modèle auditif d'automatisation et de l'équipe de l'informatique cognitive dans ce domaine ont fait de nouveaux progrès. Les chercheurs proposent un modèle de sélection de l'attention auditive, nous allons nous concentrer sur le problème de cocktail « attention » et la clé point de départ.

Photos du réseau

Les chercheurs font de ce modèle ont été réalisées « écoute active » et « passive » stimulation deux tâches. Lors de l'exécution de la tâche, l'empreinte vocale comporte plusieurs modèles de haut-parleur dans l'enregistrement, le mixage de ces sons sont superposés sur le même canal de fréquence. Ensuite, laissez la machine continuer à apprendre et à extraire ces caractéristiques, accumulé une richesse de connaissances et d'expérience, laissez la machine pour identifier et extraire leur propre « intérêt » à partir des informations de son.

l'attention auditive de sélection. La structure de cellule de mémoire de la figure durée (b) pour stocker des caractéristiques d'empreinte vocale du locuteur; (A) dans le modèle de cadre général FIG.

Dans des expériences comparatives présentées dans le discours anglais deux ensembles de données indiquent que la sélection du modèle d'attention auditive meilleure robustesse en scène auditive multi-haut-parleur contenant du bruit.

Cette étude offre un nouvel avenir - une nouvelle voie sur une variété de questions liées à la voix de traitement dans un environnement complexe.

Imaginez que dans un avenir proche, dans un métro bruyant, nous rendons compte que sur la destination que vous pouvez rapidement et avec précision compléter l'achat sur la machine de billet, dans le son de la télévision forte, nous sommes encore loin de commande facile de robots intelligents être actionné par la voix, dans la foule bruyante, nous sommes toujours sans accroc en utilisant l'assistant vocal du téléphone ...... tout le fonctionnement de la machine merveilleuse exubérant « voix », nous ne probablement plus des obstacles.

Les détails du travail, voir « lire l'original. »

Je veux prendre « Maldives » pour faire un mariage romantique et la célébration nationale, vous?
Précédent
Bonne et mauvaise intention de l'expérience de la nouvelle Sonata moderne n'est pas statique
Prochain
Le statut des femmes rang: Arabie Saoudite 141 dans le monde entier, alors que la Chine se classait 99e ......
East Grand School of Medicine Pa: Mon hobby est un avocat
2019 Shanghai Auto Show: Zotye EZ500 officiellement publié
Les tuteur désintéressé de l'ombre de la paix - la police Longquanyi documentaire ligne d'urgence
Catch loche manger des insectes, du poivre au vin de riz goût de boire, et encore l'obsession française avec la vie en Chine Miao Village
Enfin savoir pourquoi vous pouvez donc manger, et les scientifiques ont mis au point une nouvelle méthode pour perdre du poids!
2019 Shanghai Auto Show: Toyota a dévoilé RHOMBUS
championnat national de sécurité avec six exposer directement! Luneng Hong Kong a perdu l'âme derrière modèle d'hégémonie JingSui a été fixé?
collective de film d'art "sur Spring"? Mais « le cercle » est pas si facile
Qingyang District, Chengdu lutte contre les inondations à faire tout le travail
Ligne et aussi le fer de gymnastique? muscles artificiels plus puissants pour vous donner chargé
2019 New York Auto Show: la première mondiale de la nouvelle AMG GLC63 S