La reconnaissance vocale AI Défi en ligne: trois structures avec une étude approfondie de 50 types de classification sonore de l'environnement

Lei Feng réseau AI source d'un commentaire par: Auparavant, AI Yanxishe (https://god.yanxishe.com) a lancé une reconnaissance d'image Défi domaines de la santé, l'alimentation, la sécurité et le défi de plus de 30 jeux de direction PNL. Dans ce processus, l'IA Grand Dieu dans chaque défi non seulement d'améliorer encore la force de leur programmation, mais aussi laissé un plus impressionnant pour les développeurs, un travail valorisant.

Selon certains commentaires des joueurs Grand Dieu, il est certain que le thème du jeu choisi une signification très nouvelle et pratique, mais maintenant ils ne répondent plus aux défis de la difficulté principale en la matière, et a demandé si nous pouvions présenter un degré plus élevé de difficulté du jeu?

Bien sûr, pas de problème! Il est difficile de ne pas mettre à jour à nouveau « 50 types de classification sonore de l'environnement » Défi de la reconnaissance vocale Viens!

apprentissage en profondeur et la reconnaissance vocale

Dans la plupart des applications actuelles de reconnaissance vocale, la profondeur de l'apprentissage est la méthode la plus commune. Il est en imitant la structure du cerveau humain, a établi un DNN, des données d'entrée à travers la couche d'entrée, les correspondances complexes entre les avancées sémantique de bas à haut extraction propose couche par couche, pour établir une des caractéristiques de bas niveau.

Pour permettre un traitement efficace de l'entrée de données complexes, la machine peut apprendre des connaissances différentes humanlike résoudre intelligemment et efficacement des problèmes complexes sont intelligents, par exemple: la reconnaissance vocale, reconnaissance d'images vidéo, le traitement du langage et la recherche d'information terrain.

La disposition selon les réseaux de neurones profonds, des méthodes de formation et d'autres facteurs, nous allons apprendre en profondeur est divisé en trois grandes catégories: générer la structure profonde, déterminer la structure profonde et structure profonde mélangée.

apprentissage en profondeur et la reconnaissance vocale

Structure DNN

A, la génération d'une structure profonde

philosophe américain Noam Chomsky la structure du langage dans « structure profonde » et « structure de surface » deux structures. règles linguistiques générées par certaines phrases et des phrases de structure régulière profonde (intervention sémantique), et la structure profonde du traitement des règles convertie devient la structure de surface (intervention vocale), puis convertis en visible pour l'homme à comprendre les mots.

structure profonde est générée par l'apprentissage de la machine que la corrélation d'ordre supérieur entre les données observées, ou des caractéristiques statistiques entre les données observées et la classification des formes de distribution de classe associée est obtenue, convertissant ainsi une structure profonde de classe de la langue de la machine peut être identifiée.

éléments constitutifs DBN sont limitées Machine Boltzmann (RBM)

structure profonde du générateur de représentation est de proposer réseau de confiance profonde (Réseaux profonde de croyance, DBN) en 2006 par Geoffrey Hinton. Il se compose d'un neurones multi-couches, couche par couche à travers ses charges d'entraînement entre le poids des neurones, permettant à l'ensemble du réseau neuronal en fonction de la probabilité la plus élevée afin de générer les données d'apprentissage.

De plus, le modèle peut être utilisé en plus des données de classification de fonctions d'identification de DBN, il peut également être utilisé pour générer les données.

références:

« Un algorithme rapide d'apprentissage pour les Nets de croyance profonde » par Geoffrey E. Hinton et Simon Osindero.

https://www.mitpressjournals.org/doi/pdfplus/10.1162/neco.2006.18.7.1527

En second lieu, la structure profonde de la discrimination

La détermination d'une classe de la structure profonde de la structure profonde est mis en uvre par les compétences d'apprentissage de classification de motif direct à la distinction entre les différentes catégories. Ce qui représente le modèle de convolution est un réseau de neurones (Convolutif Neural Network, CNN).

À l'heure actuelle dans le sens de la reconnaissance vocale, cnn profonde considéré comme l'un des sens plus populaire, CNN et les trois cadre idéologique importante, y compris: la perception de la région, le partage de poids, l'échantillonnage dans l'espace ou le temps il y a une forte association.

modèle CNN

On sait que dans des circonstances normales, après la reconnaissance de la parole est le spectre de la parole sur la base de l'analyse temps-fréquence est terminée, et dans lequel, lorsque le spectre de la parole a une forte caractéristiques structurelles. Le réseau de neurones à convolution fournit passer juste convolution invariant dans le temps et dans l'espace, cette idée est appliquée à la modélisation acoustique de reconnaissance de la parole, il peut bien surmonter la diversité du signal de parole lui-même.

Dans cette perspective, CNN peut être envisagée lorsque l'ensemble du spectre de l'analyse du signal de parole obtenu en tant que traitement d'image, et utilise ensuite un réseau d'image convolution profonde largement utilisée pour l'identifier.

références:

"Classification IMAGEnet avec Deep convolutifs Neural Networks" par Krizhevsky, Alex, Ilya Sutskever et Geoffrey E. Hinton.

En troisième lieu, le mélange de la structure profonde

la structure profonde est un modèle profond profond du type à structure mixte et la phase de génération génère une discrimination de mode lié. La plupart des formations de modèle de mélange profond, la première unité de production sera initialisé aux paramètres du modèle solution optimale approximative, puis utilisez pour affiner l'ensemble des moyens de jugement pour résoudre des problèmes très complexes de problèmes de modélisation et de promotion.

Par exemple: en continu restreint Boltzmann machine (machine continue Boltzmann restreinte, CRBM) au lieu des données continues de modélisation GAR, avide couche traditionnelle CNN par couche avec l'algorithme d'apprentissage non supervisé pour améliorer la liaison lorsque l'extracteur de caractéristiques de données d'étiquette la performance de la formation, des algorithmes d'optimisation pour résoudre le modèle de réseau de neurones profonde vitesse de convergence lente, facile à surajustement ou à l'aide des questions telles que mondial, avec un algorithme de pré-formation (algorithme CD) pour améliorer l'efficacité de la formation GAR.

Cette structure a tendance à être plus compliquée, mais l'effet est finalement atteint également mieux. Certains chercheurs ont dû apprendre sur la base de la migration, la profondeur de l'apprentissage et l'apprentissage par cur combiné avec algorithme intégré frontal et peut être atteint, de sorte que le taux de précision de la reconnaissance vocale environnementale finale de 88% (augmentation de meilleur algorithme du monde précédent près de 2 points de pourcentage).

Comparaison de la structure profonde hybride du résultat de reconnaissance de la parole

50 types de classification sonore de l'environnement

En reconnaissance de la parole, nous nous concentrons généralement en fonction de l'identification, la tâche sera subdivisée en différentes catégories, telles que: la reconnaissance de genre musical, l'identification du locuteur, le sexe du haut-parleur, la voix et d'autres types de classification, améliorant ainsi la précision de la reconnaissance vocale.

Dans cette AI Yanxishe (https://god.yanxishe.com/) a lancé le défi, nous avons sélectionné les « 50 types de classification son environnement » espèce de discours thème de la catégorie.

Source: AI Yanxishe

Heure de début: 21/02/202009:00:00

Heure de fin: 20/03/202023:59:59

Le jeu demande aux joueurs de lire avec précision cinq catégories, un total de 50 types de sous-classe audio, la durée de 5 secondes à chaque format de fichier audio wav. ensembles de données freesound.org de projets publics, de l'extraction manuelle, un total de 1600 ensemble de la formation, le test à 400.

5 catégories de détails classification vocale

Format de fichier dans lequel l'ensemble de données détaillées sont suit comme:

Nom du fichier Nom: {PLIER} - {CLIP_ID} - {TAKE} - {target} .wav

  • {} PLIER - Index

  • {} CLIP_ID - ID de clip d'origine

  • {} TAKE - lettres pour homonymie entre les différents segments du même clip

  • {Target} - Type - format numérique

Dataset lien de téléchargement:

https://static.leiphone.com/sound_classification_50.zip

Les critères de jugement et de l'argent de prix

Les résultats finaux sont présentés ci-dessous les documents soumis, dans lequel un premier champ de bits: Test Set ID (ID, nom du document note à partir de 0), le deuxième champ: Catégorie - numérique .

Ps: document de résultats recommande d'utiliser UTF-8 (BOM) codant pour ~

(L'image exemple de réponse en utilisant le Bloc-notes ouvert ++)

Passez en revue toute la transparence jeu complet, csv et nous allons comparer les joueurs soumis, confirmer les données d'image de résolution correcte et à une note selon la formule suivante, où:

  • Vrai: le nombre de modèle de classification correcte

  • Le nombre total d'échantillons de test ensemble: Total

La compétition fournit encore la base d'un prize pool de 3000 yuans, mis en place un total de trois prix, dont: Prix de participation (30%), percée (20%), les prix de classement (50%), ces trois prix ne sont pas mutuellement conflit, aussi longtemps que vous suffit de montrer, est tout de suite pas de problème!

Tous les jours 24h00, nous mettrons à jour les derniers résultats sur la liste de site officiel, vous pouvez vérifier votre classement à tout moment.

Pour plus d'informations, consultez la page d'accueil pour entrer dans la compétition:

https://god.yanxishe.com/37

Lei Feng réseau AI, une source de Lei Feng réseau Avis

Plus carte | Dongguan Marina Bay: Dans le site de départ, le retour au travail dans la production complexe de « printemps »
Précédent
ne peut plus reporter le mariage a eu lieu - Wuhan Peng Yinhua médecin âgé de 29 ans qui est mort d'une pneumonie infectant nouvelle couronne
Prochain
CVPR 2020 pour recevoir des documents publiés: recrutement 1470, le taux d'accueil « Eren vers le bas », seulement 22%
Bien voir votre visage, mais je me souviens de la façon dont votre travail au sérieux
La lutte de la Chine contre les marchandises de transport du SRAS Qatar Airways pour ouvrir le PDG « canal vert » apprécie les efforts de la Chine pour lutter contre l'épidémie
Chongqing: les travailleurs migrants de l'UEM Voyage en train à Shaoxing, Zhejiang retour au travail
Guerre « peste » 27 jours, ces choses que le groupe directeur central « vers » derrière
Protection de Voyage quotidien Daquan
ville reprendre la production « zéro cas » a repris à l'esprit
Atlas | Meizhou Meixian District: machines rugissantes plein feu
Bienvenue à la maison! Le personnel médical militaire Vérifier segment de train à grande vitesse ferroviaire
Des scientifiques d'outre-mer lettre ouverte: Je crois que le pouvoir du peuple chinois, tout cela sera bientôt fini
Retour au travail dans le temps, « éteindre les lumières » usine peut continuer à vivre?
Wuhan: nouvelle pneumonie couronne chez les patients gravement malades de la France Tongji hôpital du district scolaire Metro 11 sorti de l'hôpital