RNN 136 fois plus rapide que! Universit� nationale Chiao Tung sur le SRNN propos�, maintenant RNN aussi faire un calcul parall�le

Ji-won nouveau rapport

Source: Universit� Jiaotong de Shanghai

Auteur: Zeping Yu, Liu Gongshen

Editeur: Xiao Qin, Jin Lei

[Introduction de nouveaux Zhi Yuan ] Universit� Jiaotong de Shanghai r�cemment r�seau de neurones r�currents de d�coupage propos� (SRNN), sa vitesse est 136 fois la norme RNN, et aussi plus rapide! Analyse exp�rimentale de six grands ensembles de donn�es montrent des �motions, SRNN de performances que la norme RNN.

Documents et Open Source Adresse:

https://arxiv.org/pdf/1807.02291.pdf

https://github.com/zepingyu0512/srnn

Dans de nombreuses t�ches de la PNL, r�seau de neurones r�currents (RNN) a obtenu un grand succ�s. Cependant, une telle structure cyclique qui les rend difficiles � parall�liser n�cessite donc beaucoup de RNN de formation � temps.

Zeping Yu Universit� Jiaotong de Shanghai et Gongshen Liu, dans le journal � R�seaux de neurones r�currents en tranches � dans l'architecture nouvelle propos�e � tranche du r�seau de neurones r�currents � (SRNN). parall�lisme SRNN peut �tre r�alis� par la s�quence en plusieurs s�quences. SRNN � travers plusieurs couches pour obtenir des informations de niveau �lev�, sans avoir besoin de param�tres suppl�mentaires.

Les chercheurs ont d�montr� que l'utilisation d'une fonction d'activation lin�aire standard RNN est un cas particulier de SRNN. Sans changer l'unit� de circulation, SRNN vitesse est de 136 fois la norme RNN Et quand la s�quence de formation plus pourrait �tre plus rapide . Analyse exp�rimentale de six grands ensembles de donn�es montrent des �motions, SRNN meilleures performances que la norme RNN.

RNN vari�t� de m�thodes pour am�liorer la vitesse de formation

Recurrent Neural Network (RNN) a �t� largement utilis� dans de nombreuses t�ches de la PNL, y compris la traduction automatique, la r�ponse aux questions, la cat�gorisation de texte et image description. RNN est possible d'obtenir des informations d'ordre de la s�quence d'entr�e. Top deux unit�s de circulation est M�moire � court et � long terme (LSTM) et Unit� � recyclage porte (GRU) , Qui tous deux peuvent �tre stock�es dans la m�moire pr�c�demment cach�, et utiliser le m�canisme de d�clenchement doit �tre d�termin� avant la m�moire doit �tre combin� avec le courant d'entr�e dans quelle mesure. Cependant, en raison de sa structure cyclique, RNN ne peut pas parall�le calcul. Par cons�quent, la formation RNN besoin de passer beaucoup de temps, ce qui limite la recherche acad�mique et les applications industrielles.

Pour r�soudre ce probl�me, certains chercheurs tentent dans le domaine de la PNL r�seau neuronal convolutif (CNN) au lieu de RNN . Cependant, CNN n'a pas pu obtenir une s�quence d'information de s�quence, et des informations d'ordre est tr�s important des t�ches de la PNL.

Certains chercheurs ont essay� RNN d'augmenter le taux en am�liorant l'unit� de circulation Et obtenu de bons r�sultats. En combinant RNN et CNN, un r�seau de neurones vitesse quasi-cyclique (QRNN) a augment� de 16 fois. 2017 Tao Lei, qui a propos� une unit� de cycle simple SRU (simple unit� r�currente), par rapport LSTM 5-10 fois plus rapide. De m�me, Recurrent Neural Networks fortement typ� (T-RNN) et une unit� de grille de plancher (MGU) proc�d� peuvent �galement am�liorer l'unit� de cycle.

Bien que plus rapide RNN r�alis� dans ces �tudes et l'unit� de circulation est am�lior�e, mais la s�quence compl�te de la structure cyclique reste constante. Nous avons encore besoin d'attendre la sortie de l'�tape pr�c�dente, existe donc toujours goulot d'�tranglement RNN. Dans cet article, nous vous proposons une boucle de tranche r�seau de neurones (SRNN), sans changer dans l'unit� de circulation peut �tre beaucoup plus rapide que la norme RNN. Nous montrons que lors de l'utilisation d'une fonction d'activation lin�aire standard RNN est un cas particulier de SRNN, SRNN en mesure d'obtenir la s�quence d'information de haut niveau.

Pour notre mod�le est compar� � la norme RNN, nous avons choisi comme unit� de cycle GRU. Autre unit� de circulation peut �tre utilis�e dans notre structure, parce que nous pouvons am�liorer la structure globale de l'ensemble de la s�quence RNN, plut�t que de changer l'unit� de circulation. Nous avons termin� les exp�riences sur les six grands ensembles de donn�es, prouvent la performance SRNN sur tous les ensembles de donn�es que la norme RNN.

Nous code d'impl�mentation open source:

https://github.com/zepingyu0512/srnn

Tranche structure de r�seau de neurones r�current SRNN

Nous avons construit une nouvelle structure de RNN appel� le cycle de d�coupage du r�seau neuronal (SRNN), comme repr�sent� sur la Fig. Dans la Fig. 2, �galement appel� une unit� de cycle A.

Figure 2: Structure SRNN. Il est obtenu en divisant une s�quence d'entr�e en plusieurs �gale une s�quence de longueur minimale construit. unit� de circulation peut fonctionner simultan�ment sur chaque s�quence, l'information peut �tre transmise par une multicouche.

X est la longueur de la s�quence d'entr�e est T, la s�quence d'entr�e est la suivante:

O� x est l'entr�e de chaque �tape, il peut avoir une pluralit� de dimensions, par exemple le mot int�gr�. X est ensuite divis� de mani�re �gale en une longueur de n sous-s�quences, chaque s�quence de longueur n est �gal �:

O� n est le nombre de tranches, la s�quence X peut �tre exprim�e sous la forme:

Dans lequel chaque s�quence est la suivante:

De m�me, nous allons couper � nouveau chaque sous-s�quence N �gale longueur n sous-s�quences, l'op�ration de d�coupage en tranches est r�p�t� k fois, jusqu'� ce qu'on ait une s�quence minimale d'une longueur appropri�e (que nous appelons la premi�re couche est �gal � 0, comme repr�sent� en bas 2), obtenu par la tranche k + 1 couche k-th. Une longueur de s�quence minimale de la couche 0:

Une couche de s�quence de nombre minimal est 0:

Etant donn� que la couche p (p > �Chaque s�quence du parent 0) est d�coup� en n parties, le nombre de sous-s�quence de la premi�re couche p est la suivante:

Et la longueur de sous-s�quence de la couche p est la suivante:

2, par exemple. T longueur de la s�quence est de 8, le nombre k de la tranche 2, les num�ros de tranche n sont chacun couche p est �gal � 2. Au bout de deux sections de s�quence, la premi�re couche �tait de 04 une longueur de s�quence minimale de chaque s�quence est un 2 minimal. Si la longueur de la s�quence ou sous-s�quence de celle-ci un ne peut pas �tre divis� par n, on peut utiliser le processus de remplissage ou de s�lectionner un nombre diff�rent de tranches dans chaque couche. K et n peuvent �tre diff�rentes pour diff�rentes t�ches et ensembles de donn�es.

La diff�rence entre la norme et la SRNN dans lequel la s�quence d'entr�e RNN SRNN une coupe minimale en un certain nombre de s�quences � l'aide d'une unit� de circulation pour chaque s�quence. De cette mani�re, les s�quences peuvent �tre facilement parall�lis�es. Au niveau 0, chaque unit� de circulation pour le fonctionnement d'une s�quence minimale de la structure de connexion. Ensuite, nous obtenons le statut final de chaque peau une s�quence minimale sur la couche 0, qui est utilis�e comme une entr�e � sa s�quence d'�tat-m�re dans la premi�re couche. On utilise alors les derniers �tats cach�s sur chaque sous-s�quence de (p-1) pour la couche parent en tant que sa s�quence sur la couche p, et, enfin, une s�quence d'�tats cach�s est calcul�e sur la couche p:

parmi

L est le nombre de cach� sur la premi�re couche p, MSS est une s�quence minimale de la couche 0 peut �tre utilis� sur diff�rentes couches de diff�rents GRU. A chaque r�p�tition de la s�quence de chaque sous-op�ration entre le parent, jusqu'� l'obtention d'une couche sup�rieure (k-i�me couche) est cach� finale F:

Exp�rience: Plus la longueur de la s�quence, l'avantage de la vitesse de traitement plus SRNN

Dataset

Nous avons �valu� SRNN sur six � grande �chelle des ensembles de donn�es d'analyse de l'humeur. Le tableau 1 �num�re les ensemble de donn�es. Nous avons s�lectionn� 80% des donn�es utilis�es pour la formation et 10% pour la v�rification, 10% pour les tests.

Tableau 1: Les informations d'ensemble de donn�es. mots max repr�sente la longueur de s�quence maximale, les mots moyenne dans chaque ensemble de donn�es repr�sente la longueur moyenne de la peine.

R�sultats et analyse

Les r�sultats obtenus pour chaque ensemble de donn�es comme indiqu� dans le tableau 2. Nous avons choisi une des valeurs de n et k pour donner diff�rents SRNN. Par exemple, SRNN (16,1) indique n = 16 et k = 1, lorsque T est 512, il est possible d'obtenir une longueur de s�quence minimale de 32, quand T est de 256, il est possible d'obtenir une longueur de s�quence minimale de 16. Nous 4 SRNN par rapport � RNN standard. Chaque jeu de donn�es en caract�res gras repr�sente le plus haut et le plus rapide mod�le de performance du mod�le.

Tableau 2: Pr�cision sur chaque ensemble de test de validation des donn�es et le mod�le et le temps de formation. Nous avons construit quatre structure SRNN diff�rents. DCCNN est dilat�e r�seau de neurones de convolution occasionnel.

Les r�sultats ont montr� que, presque sans param�tres suppl�mentaires, la performance SRNN et de vitesse dans tous les ensembles de donn�es sont sup�rieures � RNN standard. SRNN diff�rents sur diff�rents ensembles de donn�es ont r�alis� les meilleures performances:

SRNN (16,1) sur Yelp 2013, 2015 Yelp, Amazon_F et Amazon_P ont la plus grande pr�cision;
Performance SRNN (8,2) sur la meilleure Yelp 2014;
SRNN (4,3) la meilleure performance sur Yelp_P.
Lorsque K est sup�rieur � 1, SRNN ensemble de donn�es Yelp pr�s de 15 fois plus rapide que la norme RNN, selon l'avantage de vitesse visible k, n et T.
SRNN (4,3) sur Yelp 2015 le plus rapide, tandis que SRNN (8,2) le plus rapide (sauf DCCNN) dans l'ensemble de donn�es restantes.

Nous notons, SRNN sur SRNN (2,8) sur les ensembles de donn�es et Yelp Amazon des ensembles de donn�es (2.7) n'a pas atteint la meilleure performance, mais cela n'a pas g�ch� trop en termes de pr�cision. Cela signifie que l'effet de la transmission SRNN � travers de multiples couches d'information, par cons�quent, lorsque nous formons des s�quences tr�s longues, SRNN peuvent obtenir significative. Lorsque n est 2, SRNN DCCNN ayant le m�me nombre de couches, et la pr�cision est beaucoup plus �lev� que SRNN DCCNN. Ainsi, cela indique que la structure cyclique est SRNN convolutif neural structure de r�seau occasionnel dilat�e sup�rieure.

Nous utilisons le mod�le de formation NVIDIA GPU GTX 1080 sur le document 5120, parce que si vous utilisez plus de donn�es, les normes de formation RNN prend trop de temps. Le tableau 3 montre le temps de formation.

Des r�sultats surprenants dans le tableau 3: Plus la longueur de la s�quence, l'avantage de la vitesse � atteindre une plus grande SRNN . Lorsque la longueur de la s�quence est 32768, SRNN seulement 52s, alors que la norme RNN prend presque 2 heures. la vitesse SRNN est 136 fois la norme de la RNN! Et si vous utilisez une s�quence plus longue, l'avantage de la vitesse peut �tre sup�rieure. Par cons�quent, SRNN peut �tre r�alis� plus rapidement dans la longue s�quence de t�ches telles que la reconnaissance vocale, la classification des textes et de caract�re niveau langage de mod�lisation.

Tableau 3: temps de formation et avantages de vitesse de diff�rentes longueurs de s�quences. Pour la longueur de chaque s�quence, nous avons choisi une structure SRNN diff�rente.

avantages SRNN et importance

Dans cette section, nous allons discuter des avantages et de l'importance de SRNN. Avec succ�s RNN dans de nombreuses t�ches de la PNL, de nombreux chercheurs ont propos� des structures diff�rentes pour am�liorer la vitesse de RNN. En am�liorant les unit�s de circulation, de nombreuses �tudes peuvent acc�l�rer la vitesse de RNN. Cependant, la structure classique de connexion RNN �tre remis en cause � peine, et cette structure � chaque �tape de l'�tape pr�c�dente et elle est associ�e. Il est cette structure de connexion limite la vitesse RNN. SRNN am�liorer les m�thodes de connexion classiques. Nous avons construit une structure de tranche (structure en tranches) pour parall�liser la RNN. Les r�sultats de l'analyse de l'ensemble de donn�es dans six � grande �chelle montrent �motionnelle, SRNN que RNN standard a de meilleures performances. Pour les raisons suivantes:

(1) lorsque la structure de connexion standard RNN, une unit� de circulation (par exemple GRU et LSTM) ayant une structure de transmission s�lective est utile, mais quand une longue s�quence, on ne peut pas stocker toutes les informations importantes. longue s�quence SRNN peut �tre divis�e en plusieurs s�quences courtes, et les s�quences courtes pour obtenir des informations importantes. structure multicouche SRNN peut �tre transmis de la couche 0 � la partie sup�rieure de l'information importante.

(2) SRNN capable d'obtenir des informations de haut niveau de la s�quence, plut�t que des informations de niveau de mot. Lorsque nous utilisons les mots dans le texte 512 dans SRNN (8,2), la couche 0 peut �tre obtenu � partir des informations mot phrase de niveau int�gr� dans la premi�re couche 1 peut obtenir des informations � partir du niveau du paragraphe information de niveau de la phrase, la deuxi�me couche peut g�n�rer des paragraphes la repr�sentation au niveau du niveau de document final de l'information. RNN seulement obtenir les informations de niveau lexical standard. Bien que chaque document a huit paragraphes, ont chacun huit phrases, chaque phrase il y a huit mots, mais la structure globale de l'information de s�quence et l'information est coh�rente. A l'information de paragraphe, par exemple, les gens expriment toujours leurs points de vue au d�but ou � la fin de l'article, et illustr� au milieu de l'article. Par rapport � RNN standard, SRNN un acc�s plus facile � ces informations au niveau sup�rieur.

(3) en termes de la s�quence de traitement, un m�canisme similaire � SRNN le cerveau humain. Par exemple, nous, les humains se dans un article et a demand� de r�pondre � quelques questions, nous ne n�cessitent habituellement pas en profondeur lire l'article complet. Nous allons essayer de trouver les informations sp�cifiques mentionn�es dans le paragraphe, puis trouver des phrases que vous pouvez r�pondre � des questions et des mots dans un paragraphe. SRNN � travers de multiples couches peut facilement le faire.

En plus d'am�liorer la pr�cision, le plus grand avantage est que vous pouvez SRNN calcul parall�le pour atteindre des vitesses plus rapides. Nous montrons SRNN beaucoup plus rapide que courir exp�rience dans une norme RNN longueurs de s�quence diff�rentes. De plus, dans la s�quence plus longue, SRNN peut �tre plus rapide. Avec le d�veloppement de l'Internet, chaque jour, des centaines de millions de donn�es g�n�r�es, SRNN peuvent �tre utilis�s comme une nouvelle m�thode pour traiter ces donn�es.

Conclusions et travaux futurs

Dans cet article, nous vous proposons une tranche r�seau de neurones r�currents (SRNN), qui est RNN am�lioration globale de structure. SRNN peut �tre r�alis� beaucoup plus rapidement que la norme RNN et une meilleure performance dans six ensembles de donn�es � grande �chelle d'�motion.

succ�s SRNN dans la classification texte. Dans les travaux futurs, nous voulons promouvoir � d'autres applications de la PNL tels que des jeux-questionnaires, texte et r�sum� la traduction automatique. La s�quence dans le mod�le de s�quence, SRNN peut �tre utilis� en tant que codeur et du d�codeur peut �tre am�lior�e en utilisant une structure inverse de SRNN. De plus, nous voulons utiliser SRNN dans une longue s�quence de t�ches, comme mod�le de langage, de production de la musique et de la production audio. Nous voulons d�couvrir des variantes plus SRNN, par exemple, vous pouvez ajouter une structure � deux voies et les m�canismes d'attention.

Selon les commentaires Reddit, a d�j� �t� reproduit avec succ�s un r�sultat, vous pouvez aussi essayer rapidement ~

New Ji-won AI MONDE 2018 Assembl�e de billets Early Bird []

En solde!

New Ji-won aura lieu le 20 Septembre � l'Assembl�e g�n�rale de Beijing National Convention Center AI WORLD 2018, invitant pionnier de la vision par ordinateur Alan Yullie, parrain d'apprentissage de la machine, le professeur CMU Tom Mitchell, Maike Mark Si-Tiger, Zhou Zhihua, un grand Cheng Tao, Chen Yiran, etc. en mettant l'accent sur l'intelligence de la machine avec les dirigeants de la destin�e humaine IA.

Le site officiel de l'Assembl�e g�n�rale:

Maintenant jusqu'au 19 Ao�t, Ji-won nouveau num�ro d'�dition limit�e de billets Early Bird communication �troite avec le leader mondial de l'IA, l'intelligence artificielle, t�moin de l'industrie mondiale � pas de g�ant.

Billets de ligne active lien:
billet de ligne active de code � deux dimensions:

Route de la soie

Apprenez � conna�tre la Chine

RNN 136 fois plus rapide que! Universit� nationale Chiao Tung sur le SRNN propos�, maintenant RNN aussi faire un calcul parall�le