Imaginez un scénario:
Dans un après-midi ensoleillé ordinaire, vous marchez seul dans la rue, en face de deux personnes, ils discutent, nouvellement ouvert, à proximité d'un dépanneur. Tout à coup, derrière lui vint un éclat de chiens rapides aboiements « écorce Wang », vous regardez rapidement revenir à la façon dont il était. A cette époque, la rue, j'entendu la sirène de la voiture de police, « les enfants Wuwa, les enfants, les enfants Wuwa Hooroar. »
Après un certain temps, vous passez devant Dieu, ils découvrent que le chien ne semble pas arrêter les appels, mais la discussion est toujours piétonne du son est toujours l'oreille, la police siffler lentement crescendos plus loin.
Vous ne pouvez pas se rendre compte que, en fait, vous venez de rencontrer et facilement remplir un demi-siècle de problèmes de calcul scientifique casse-tête - problème de cocktail.
1. scène auditive figure dans une rue, des images de l'IEEE Spectrum
problème Cocktail Party (cocktail problème du parti), est un scientifique cognitiviste britannique Edward ColinCherry a proposé en 1953 dans l'étude des mécanismes attentionnels. Il fait référence au genre de l'oreille humaine dans la capacité complexe des environnements d'écoute à choisir.
Dans le cas de multiples voix est apparu, les gens peuvent se concentrer sur un stimulus sonore particulier, tout en ignorant d'autres bruits de fond. En d'autres termes, les humains peuvent se concentrer dans une conversation personnelle, tout en ignorant d'autres conversations ou le bruit de fond.
Rappelons que nous supposons que ce scénario, quand une sirène de voiture de police apparaissent, nous pouvons rapidement attirer l'attention à cette voix au-dessus, tout en ignorant les interférences d'autres sons, comme voix des piétons et des aboiements de chiens. Bien sûr, vous êtes libre de tester le comportement auditif dans l'environnement de multiples sources sonores, les faits vous diront, vous pouvez toujours entendre parfaitement naturel et une partie de ce que vous voulez entendre, mais pas toujours en même temps de se concentrer sur plus la source sonore.
Photos du réseau
En fait, face à la capacité d'attention auditive pour sélectionner l'environnement complexe du système auditif humain a montré un talent incroyable. Bien que le mécanisme de l'effet cocktail du complexe, mais pour nous les humains, parmi de multiples sources sonores converties attention est une chose très facile, que nous ne pouvons même pas sentir la présence de ce processus. Cependant, pour nos ordinateurs ou une variété d'appareils intelligents, comment sélectionner le son que vous voulez entendre dans un environnement complexe, c'est un très gros problème.
Pour résoudre ce problème, les scientifiques ont mené des recherches et des analyses. Au cours des 60 dernières années, les scientifiques ont fait beaucoup de problèmes pour l'approche de cocktail. Il peut être formé essentiellement de trois genres différents: un procédé basé sur le traitement du signal, les méthodes basées sur des règles et des méthodes basées sur la décomposition. Cependant, ces méthodes sont encore limitées dans leur hypothèse respective Idéalement, les données ou plus état stable. Pour le système de calcul, sélectionnez la prochaine audience du réel environnement plus complexe est encore difficile d'obtenir les résultats souhaités.
Heureusement, avec l'accumulation de données et le développement de la technologie, les méthodes, la profondeur des réseaux de neurones ont commencé à montrer leurs talents dans le domaine de la résolution du problème de cocktail.
les questions de CocktailConférence sont destinés à séparer le signal utile du signal perturbé vocal, ce processus peut être un terrain très naturel pour atteindre un problème d'apprentissage supervisé. Comme la profondeur de la fonction d'identification par réseau de neurones est un procédé d'apprentissage de la surveillance du courant le plus puissant, il peut être utilisé en tant que signal d'apprentissage à partir des données brutes bruyants pour isoler la cible (par exemple, le masque ou la voix sur le spectre d'amplitude d'intérêt) dans.
Récemment, l'Institut Académie chinoise des sciences du modèle auditif d'automatisation et de l'équipe de l'informatique cognitive dans ce domaine ont fait de nouveaux progrès. Les chercheurs proposent un modèle de sélection de l'attention auditive, nous allons nous concentrer sur le problème de cocktail « attention » et la clé point de départ.
Photos du réseau
Les chercheurs font de ce modèle ont été réalisées « écoute active » et « passive » stimulation deux tâches. Lors de l'exécution de la tâche, l'empreinte vocale comporte plusieurs modèles de haut-parleur dans l'enregistrement, le mixage de ces sons sont superposés sur le même canal de fréquence. Ensuite, laissez la machine continuer à apprendre et à extraire ces caractéristiques, accumulé une richesse de connaissances et d'expérience, laissez la machine pour identifier et extraire leur propre « intérêt » à partir des informations de son.
l'attention auditive de sélection. La structure de cellule de mémoire de la figure durée (b) pour stocker des caractéristiques d'empreinte vocale du locuteur; (A) dans le modèle de cadre général FIG.
Dans des expériences comparatives présentées dans le discours anglais deux ensembles de données indiquent que la sélection du modèle d'attention auditive meilleure robustesse en scène auditive multi-haut-parleur contenant du bruit.
Cette étude offre un nouvel avenir - une nouvelle voie sur une variété de questions liées à la voix de traitement dans un environnement complexe.
Imaginez que dans un avenir proche, dans un métro bruyant, nous rendons compte que sur la destination que vous pouvez rapidement et avec précision compléter l'achat sur la machine de billet, dans le son de la télévision forte, nous sommes encore loin de commande facile de robots intelligents être actionné par la voix, dans la foule bruyante, nous sommes toujours sans accroc en utilisant l'assistant vocal du téléphone ...... tout le fonctionnement de la machine merveilleuse exubérant « voix », nous ne probablement plus des obstacles.
Les détails du travail, voir « lire l'original. »