Comment � � de Notebook � de haute pr�cision les mots-cl�s Spotting sur le processeur Cortex-M

Nous l'architecture de r�seau de neurones peut �tre optimis�, de sorte que la m�moire et l'adaptation des limites de calcul du microcontr�leur, et ne modifie pas la pr�cision. Nous allons expliquer et explorer la profondeur du r�seau de neurones de convolution s�parable pour identifier les mots-cl�s potentiels dans le processeur Cortex-M dans cet article.

Mot-cl� Spotting (KWS) pour la r�alisation de dispositifs intelligents bas�s sur l'utilisateur vocale interactive est critique, exigent une r�ponse en temps r�el et une grande pr�cision pour assurer une bonne exp�rience utilisateur. R�cemment, les r�seaux de neurones sont devenus un choix populaire pour l'architecture KWS, par rapport aux algorithmes de traitement de la voix traditionnels, les r�seaux de neurones pr�cision sup�rieure.

tuyau de r�seau neuronal de mots-cl�s Longues

En raison de rester � toujours �, KWS appliqu� le budget de puissance est tr�s limit�e. Bien que les applications KWS peuvent fonctionner sur une haute performance d�di� DSP ou CPU, mais il est plus adapt� pour fonctionner sur le bras microcontr�leur Cortex-M, aider � r�duire le co�t, le bras Cortex-M microcontr�leurs souvent bord choses pour d'autres t�ches.

Cependant, pour d�ployer un r�seau de neurones KWS bas� sur les microcontr�leurs Cortex-M, nous sommes confront�s aux d�fis suivants:

L'espace est limit�

Les syst�mes Cortex-M fournissent g�n�ralement � plusieurs centaines de Ko de m�moire disponible. Cela signifie que l'ensemble du mod�le de r�seau neuronal, y compris d'entr�e / sortie, le poids et l'activation, doit fonctionner � l'int�rieur de cette petite plage de m�moire.

ressources limit�es

Parce que KWS pour maintenir en permanence, les besoins en temps r�el qui limitent le nombre total d'op�rations chaque raisonnement du r�seau de neurones.

Ce qui suit est une architecture de r�seau de neurones typique appropri� pour le raisonnement KWS:

Profondeur r�seau neuronal (DNN)

DNN type r�seau de neurones � action directe, reli�e � la pile compl�te des couches de la couche active et non lin�aire.

r�seau neuronal convolutif (CNN)

Sur la base de l'un des principaux d�fauts de DNN KWS est impossible pour l'association locale des fonctions vocales, la corr�lation dans le domaine temporel, la mod�lisation de la corr�lation dans le domaine fr�quentiel. CNN peut �tre une des caract�ristiques dans le domaine temporel et le domaine fr�quentiel que le traitement d'image d'entr�e et effectue la corr�lation pour trouver cette op�ration de convolution 2D ci-dessus.

Recurrent Neural Network (RNN de)

Dans de nombreuses t�ches de mod�lisation de la s�quence RNN ils montrent d'excellentes performances, en particulier dans la reconnaissance vocale, la mod�lisation du langage et de la traduction. RNN non seulement en mesure de trouver la relation temporelle entre le signal d'entr�e, mais aussi l'utilisation du m�canisme � blocage � � la capture d�pendent de la dur�e de la relation.

Convolution r�seau neuronal r�current (CRNN)

r�seau neuronal convolutif est un cycle hybride et CNN RNN se trouve dans une corr�lation temporelle / spatiale locale. couche de mod�le CRNN commence � partir de la convolution, il est alors RNN, coder le signal, suivie d'une couche dense enti�rement connect�.

r�seau neural profondeur de convolution s�parable (DS-CNN)

R�cemment, la profondeur du r�seau de neurones de convolution s�parable est recommand� comme des alternatives efficaces pour le fonctionnement standard de convolution 3D, et a �t� utilis� l'architecture r�seau compacte pour la vision par ordinateur.

DS-CNN d'abord filtr� en utilisant 2D s�par�, les caract�ristiques d'entr�e de chaque canal dans le calcul de convolution figure, puis convolution par points (� savoir 1x1-), d�livre en sortie la dimension de profondeur combin�e. Par d�composition ult�rieure norme convolution 2D et 3D 1D, le nombre de param�tres et l'op�ration est r�duit, de sorte que l'architecture plus profonde et plus large possible, m�me dans le microcontr�leur pour ex�cuter le dispositif de ressources limit�es.

Lorsque vous ex�cutez le G�n�rateur de mots sur Spotting processeur Cortex-M, utilisation de la m�moire et le temps d'ex�cution sont les deux facteurs les plus importants dans la conception et l'optimisation des r�seaux de neurones � cet effet, vous devez tenir compte de ces deux facteurs. Trois restriction de r�seau de neurones sont indiqu�es ci-dessous pour les petites, moyennes et grandes syst�me Cortex-M, la configuration d'un syst�me typique � base de Cortex-M.

cat�gorie KWS mod�le de r�seau neuronal de cat�gorie (NN), en supposant que 10 fois par seconde raisonnement et 8 en poids / activation

Pour r�gler le mod�le, afin de ne pas d�passer les limites de la m�moire et le calcul du microcontr�leur doit �tre effectu� sur un param�tre de recherche. Le tableau suivant pr�sente l'architecture de r�seau de neurones et les param�tres correspondants doivent �tre super optimis�s.

r�seau de neurones hyperparam'etre espace de recherche

Tout d'abord, effectuer une extraction de caract�ristiques de recherche exhaustive et le mod�le de r�seau de neurones hyper-param�tres, puis effectuez une s�lection manuelle pour r�duire l'espace de recherche, � la fois r�p�t�e. La figure ci-dessous r�sume l'architecture de r�seau neuronal adapt� pour le mod�le de performance optimale et les exigences de m�moire correspondant et le calcul. l'architecture DS-CNN offre la plus grande pr�cision, mais aussi la m�moire et les ressources informatiques sont �galement beaucoup plus faible.

optimal de la relation mod�le de r�seau neuronal � la m�moire et l'arithm�tique / raisonnement

KWS applications Cortex-M7 d�ploy�es dans la carte de d�veloppement STM32F746G-DISCO (comme indiqu� ci-dessous) sur la base, contenant le mod�le DNN 8 en poids et 8 activation, l'inf�rence KWS ex�cut�s 10 fois par seconde pendant le fonctionnement. Chaque inf�rence (y compris la copie de m�moire, l'extraction de caract�ristiques MFCC, DNN r�alis�e) dure environ 12 millisecondes. Pour �conomiser de l'�nergie, ce qui permet le microcontr�leur attend le reste du mode d'interruption de temps (WFI). toute demande KWS utilise environ 70 Ko de m�moire, comprenant un poids d'environ 66 Ko, pendant environ 1 KB activation, environ 2 Ko d'E / S et fonction audio MFCC.

d�ploiement KWS du Conseil Cortex-M7 D�veloppement

En r�sum�, le bras processeur Cortex-M peut obtenir une grande pr�cision dans les applications de reconnaissance de mots-cl�s, alors que les besoins en m�moire et de calcul pour adapter l'architecture de limite r�seau. l'architecture DS-CNN offre la plus grande pr�cision, mais aussi la m�moire et les ressources informatiques sont �galement beaucoup plus faible.

Route de la soie

Apprenez � conna�tre la Chine

Comment � � de Notebook � de haute pr�cision les mots-cl�s Spotting sur le processeur Cortex-M