La reconnaissance vocale AI D�fi en ligne: trois structures avec une �tude approfondie de 50 types de classification sonore de l'environnement

Lei Feng r�seau AI source d'un commentaire par: Auparavant, AI Yanxishe (https://god.yanxishe.com) a lanc� une reconnaissance d'image D�fi domaines de la sant�, l'alimentation, la s�curit� et le d�fi de plus de 30 jeux de direction PNL. Dans ce processus, l'IA Grand Dieu dans chaque d�fi non seulement d'am�liorer encore la force de leur programmation, mais aussi laiss� un plus impressionnant pour les d�veloppeurs, un travail valorisant.

Selon certains commentaires des joueurs Grand Dieu, il est certain que le th�me du jeu choisi une signification tr�s nouvelle et pratique, mais maintenant ils ne r�pondent plus aux d�fis de la difficult� principale en la mati�re, et a demand� si nous pouvions pr�senter un degr� plus �lev� de difficult� du jeu?

Bien s�r, pas de probl�me! Il est difficile de ne pas mettre � jour � nouveau � 50 types de classification sonore de l'environnement � D�fi de la reconnaissance vocale Viens!

apprentissage en profondeur et la reconnaissance vocale

Dans la plupart des applications actuelles de reconnaissance vocale, la profondeur de l'apprentissage est la m�thode la plus commune. Il est en imitant la structure du cerveau humain, a �tabli un DNN, des donn�es d'entr�e � travers la couche d'entr�e, les correspondances complexes entre les avanc�es s�mantique de bas � haut extraction propose couche par couche, pour �tablir une des caract�ristiques de bas niveau.

Pour permettre un traitement efficace de l'entr�e de donn�es complexes, la machine peut apprendre des connaissances diff�rentes humanlike r�soudre intelligemment et efficacement des probl�mes complexes sont intelligents, par exemple: la reconnaissance vocale, reconnaissance d'images vid�o, le traitement du langage et la recherche d'information terrain.

La disposition selon les r�seaux de neurones profonds, des m�thodes de formation et d'autres facteurs, nous allons apprendre en profondeur est divis� en trois grandes cat�gories: g�n�rer la structure profonde, d�terminer la structure profonde et structure profonde m�lang�e.

apprentissage en profondeur et la reconnaissance vocale

Structure DNN

A, la g�n�ration d'une structure profonde

philosophe am�ricain Noam Chomsky la structure du langage dans � structure profonde � et � structure de surface � deux structures. r�gles linguistiques g�n�r�es par certaines phrases et des phrases de structure r�guli�re profonde (intervention s�mantique), et la structure profonde du traitement des r�gles convertie devient la structure de surface (intervention vocale), puis convertis en visible pour l'homme � comprendre les mots.

structure profonde est g�n�r�e par l'apprentissage de la machine que la corr�lation d'ordre sup�rieur entre les donn�es observ�es, ou des caract�ristiques statistiques entre les donn�es observ�es et la classification des formes de distribution de classe associ�e est obtenue, convertissant ainsi une structure profonde de classe de la langue de la machine peut �tre identifi�e.

�l�ments constitutifs DBN sont limit�es Machine Boltzmann (RBM)

structure profonde du g�n�rateur de repr�sentation est de proposer r�seau de confiance profonde (R�seaux profonde de croyance, DBN) en 2006 par Geoffrey Hinton. Il se compose d'un neurones multi-couches, couche par couche � travers ses charges d'entra�nement entre le poids des neurones, permettant � l'ensemble du r�seau neuronal en fonction de la probabilit� la plus �lev�e afin de g�n�rer les donn�es d'apprentissage.

De plus, le mod�le peut �tre utilis� en plus des donn�es de classification de fonctions d'identification de DBN, il peut �galement �tre utilis� pour g�n�rer les donn�es.

r�f�rences:

� Un algorithme rapide d'apprentissage pour les Nets de croyance profonde � par Geoffrey E. Hinton et Simon Osindero.

https://www.mitpressjournals.org/doi/pdfplus/10.1162/neco.2006.18.7.1527

En second lieu, la structure profonde de la discrimination

La d�termination d'une classe de la structure profonde de la structure profonde est mis en uvre par les comp�tences d'apprentissage de classification de motif direct � la distinction entre les diff�rentes cat�gories. Ce qui repr�sente le mod�le de convolution est un r�seau de neurones (Convolutif Neural Network, CNN).

� l'heure actuelle dans le sens de la reconnaissance vocale, cnn profonde consid�r� comme l'un des sens plus populaire, CNN et les trois cadre id�ologique importante, y compris: la perception de la r�gion, le partage de poids, l'�chantillonnage dans l'espace ou le temps il y a une forte association.

mod�le CNN

On sait que dans des circonstances normales, apr�s la reconnaissance de la parole est le spectre de la parole sur la base de l'analyse temps-fr�quence est termin�e, et dans lequel, lorsque le spectre de la parole a une forte caract�ristiques structurelles. Le r�seau de neurones � convolution fournit passer juste convolution invariant dans le temps et dans l'espace, cette id�e est appliqu�e � la mod�lisation acoustique de reconnaissance de la parole, il peut bien surmonter la diversit� du signal de parole lui-m�me.

Dans cette perspective, CNN peut �tre envisag�e lorsque l'ensemble du spectre de l'analyse du signal de parole obtenu en tant que traitement d'image, et utilise ensuite un r�seau d'image convolution profonde largement utilis�e pour l'identifier.

r�f�rences:

"Classification IMAGEnet avec Deep convolutifs Neural Networks" par Krizhevsky, Alex, Ilya Sutskever et Geoffrey E. Hinton.

En troisi�me lieu, le m�lange de la structure profonde

la structure profonde est un mod�le profond profond du type � structure mixte et la phase de g�n�ration g�n�re une discrimination de mode li�. La plupart des formations de mod�le de m�lange profond, la premi�re unit� de production sera initialis� aux param�tres du mod�le solution optimale approximative, puis utilisez pour affiner l'ensemble des moyens de jugement pour r�soudre des probl�mes tr�s complexes de probl�mes de mod�lisation et de promotion.

Par exemple: en continu restreint Boltzmann machine (machine continue Boltzmann restreinte, CRBM) au lieu des donn�es continues de mod�lisation GAR, avide couche traditionnelle CNN par couche avec l'algorithme d'apprentissage non supervis� pour am�liorer la liaison lorsque l'extracteur de caract�ristiques de donn�es d'�tiquette la performance de la formation, des algorithmes d'optimisation pour r�soudre le mod�le de r�seau de neurones profonde vitesse de convergence lente, facile � surajustement ou � l'aide des questions telles que mondial, avec un algorithme de pr�-formation (algorithme CD) pour am�liorer l'efficacit� de la formation GAR.

Cette structure a tendance � �tre plus compliqu�e, mais l'effet est finalement atteint �galement mieux. Certains chercheurs ont d� apprendre sur la base de la migration, la profondeur de l'apprentissage et l'apprentissage par cur combin� avec algorithme int�gr� frontal et peut �tre atteint, de sorte que le taux de pr�cision de la reconnaissance vocale environnementale finale de 88% (augmentation de meilleur algorithme du monde pr�c�dent pr�s de 2 points de pourcentage).

Comparaison de la structure profonde hybride du r�sultat de reconnaissance de la parole

50 types de classification sonore de l'environnement

En reconnaissance de la parole, nous nous concentrons g�n�ralement en fonction de l'identification, la t�che sera subdivis�e en diff�rentes cat�gories, telles que: la reconnaissance de genre musical, l'identification du locuteur, le sexe du haut-parleur, la voix et d'autres types de classification, am�liorant ainsi la pr�cision de la reconnaissance vocale.

Dans cette AI Yanxishe (https://god.yanxishe.com/) a lanc� le d�fi, nous avons s�lectionn� les � 50 types de classification son environnement � esp�ce de discours th�me de la cat�gorie.

Source: AI Yanxishe

Heure de d�but: 21/02/202009:00:00

Heure de fin: 20/03/202023:59:59

Le jeu demande aux joueurs de lire avec pr�cision cinq cat�gories, un total de 50 types de sous-classe audio, la dur�e de 5 secondes � chaque format de fichier audio wav. ensembles de donn�es freesound.org de projets publics, de l'extraction manuelle, un total de 1600 ensemble de la formation, le test � 400.

5 cat�gories de d�tails classification vocale

Format de fichier dans lequel l'ensemble de donn�es d�taill�es sont suit comme:

Nom du fichier Nom: {PLIER} - {CLIP_ID} - {TAKE} - {target} .wav

{} PLIER - Index
{} CLIP_ID - ID de clip d'origine
{} TAKE - lettres pour homonymie entre les diff�rents segments du m�me clip
{Target} - Type - format num�rique

Dataset lien de t�l�chargement:

https://static.leiphone.com/sound_classification_50.zip

Les crit�res de jugement et de l'argent de prix

Les r�sultats finaux sont pr�sent�s ci-dessous les documents soumis, dans lequel un premier champ de bits: Test Set ID (ID, nom du document note � partir de 0), le deuxi�me champ: Cat�gorie - num�rique .

Ps: document de r�sultats recommande d'utiliser UTF-8 (BOM) codant pour ~

(L'image exemple de r�ponse en utilisant le Bloc-notes ouvert ++)

Passez en revue toute la transparence jeu complet, csv et nous allons comparer les joueurs soumis, confirmer les donn�es d'image de r�solution correcte et � une note selon la formule suivante, o�:

Vrai: le nombre de mod�le de classification correcte
Le nombre total d'�chantillons de test ensemble: Total

La comp�tition fournit encore la base d'un prize pool de 3000 yuans, mis en place un total de trois prix, dont: Prix de participation (30%), perc�e (20%), les prix de classement (50%), ces trois prix ne sont pas mutuellement conflit, aussi longtemps que vous suffit de montrer, est tout de suite pas de probl�me!

Tous les jours 24h00, nous mettrons � jour les derniers r�sultats sur la liste de site officiel, vous pouvez v�rifier votre classement � tout moment.

Pour plus d'informations, consultez la page d'accueil pour entrer dans la comp�tition:

https://god.yanxishe.com/37

Lei Feng r�seau AI, une source de Lei Feng r�seau Avis

Route de la soie

Apprenez � conna�tre la Chine

La reconnaissance vocale AI D�fi en ligne: trois structures avec une �tude approfondie de 50 types de classification sonore de l'environnement

apprentissage en profondeur et la reconnaissance vocale

Structure DNN

50 types de classification sonore de l'environnement

Les crit�res de jugement et de l'argent de prix