Abandonnez la fantaisie et adoptez Transformer: une comparaison de trois extracteurs de fonctionnalit�s de traitement du langage naturel (CNN / RNN / TF) (Partie 1)

Commentaire sur la technologie d'intelligence artificielle de Leifeng.com Note: L'auteur de cet article est M. Zhang Junlin. Il est directeur de la Soci�t� chinoise de l'information de Chine et titulaire d'un doctorat de l'Institut du logiciel de l'Acad�mie chinoise des sciences. Il est actuellement expert principal en algorithmes dans le laboratoire d'IA de Sina Weibo. Auparavant, M. Zhang Junlin a �t� expert technique principal � Alibaba et responsable de la nouvelle �quipe technique, ainsi que directeur technique et directeur technique � Baidu et � l'UFIDA. Parall�lement, il est l'auteur d'ouvrages techniques "This is the Search Engine: Detailed Explanation of Core Technology" (ce livre a remport� le 12e National Excellent Book Award) et "Big Data Daily Knowledge: Architecture and Algorithms". Cet article a �t� publi� pour la premi�re fois dans Zhihu, et r�imprim� par Leifeng.com AI Technology Review avec l'autorisation de l'auteur.

Au moment de quitter l'ancien et d'accueillir le nouveau, tout le monde est occup� � revoir les r�sultats de l'ann�e �coul�e (ou � compter les pots avec des larmes devant le po�le) et � faire des plans pour 2019. Bien s�r, de nombreux amis ont une ex�cution et une efficacit� de travail �lev�es. Copiez simplement le plan r�alis� d�but 2018, et le plan pour 2019 peut �tre compl�t� en 3 secondes.Je vous f�licite. D'un point de vue �conomique, 2018 peut �tre une triste ann�e pour tout le monde, mais pour le domaine du traitement du langage naturel, 2018 est sans aucun doute une ann�e tr�s enrichissante, et si vous ne pouvez choisir qu'une des nombreuses avanc�es technologiques. Si tel est le cas, le mod�le Bert devrait �tre bien m�rit�. Dans le dernier article pr�sentant Bert, "From Word Embedding to Bert Model - The History of Pre-Training Technology in Natural Language Processing", j'ai d�clar� avec fiert� les deux jugements personnels suivants: l'un est le mod�le en deux �tapes de Bert ( Pre-training + Finetuning) deviendra s�rement une m�thode populaire pour la recherche et les applications industrielles dans le domaine de la PNL; la seconde est que du point de vue des extracteurs de fonctionnalit�s dans le domaine de la PNL, Transformer remplacera progressivement RNN en tant qu'extracteur de fonctionnalit�s le plus courant. En ce qui concerne le jugement de l'extracteur de fonctionnalit�s, l'article ci-dessus est limit� en longueur, mais ne donne qu'une conclusion, sans donner une explication tentante. Quiconque a lu mon article sait que je ne suis pas une personne qui tire des conclusions avec d�sinvolture (celle qui ajoute La phrase suivante: "Vous ne vous levez pas n�gligemment ..." S'il vous pla�t, arr�tez, ne r�v�lez pas de secrets d'�tat, vous pouvez continuer � dormir, peu importe si vous bruyiez les autres �tudiants, haha), mais pourquoi ai-je tir� cette conclusion � l'�poque? Cet article peut �tre consid�r� comme une rumeur de ce qui pr�c�de, qui fournira des preuves plus d�taill�es pour �tayer les conclusions faites auparavant.

Si je fais un macro-jugement sur la tendance future des trois principaux extracteurs de fonctionnalit�s dans la PNL actuelle, mon jugement est le suivant: RNN a pratiquement termin� sa mission historique et se retirera progressivement de l'�tape historique � l'avenir; si CNN est correctement transform� � l'avenir, il y a encore l'espoir d'avoir une place dans le domaine de la PNL. Si le succ�s de la transformation d�passe les attentes, alors il y aura un chef de guerre qui pourrait �tre une partie distincte pour continuer � survivre et � grandir. Bien s�r, je pense que cet espoir n'est pas grand. Vous pouvez jouer au basket avec Song Xiaobao. La probabilit� de pleurer est assez similaire; et Xinhuan Transformer deviendra �videmment bient�t l'extracteur de fonctionnalit�s le plus courant pour la PNL. Quant � savoir s'il y aura un nouvel extracteur de fonctionnalit�s � l'avenir, Tranformer sera supprim� d'un seul coup, puis remplac� par le nouveau roi de la montagne d'extraction de fonctionnalit�s? Ce genre d'inqui�tude est en fait tout � fait n�cessaire. Apr�s tout, Li Shangyin nous a averti il y a mille ans: �La gr�ce de Jun est comme l'eau qui coule vers l'est, et vous devez perdre votre faveur et vous inqui�ter. Ne faites pas pr�c�der les fleurs, la brise fra�che est seulement � l'ouest du palais. Head. Bien s�r, ce po�me semble �tre plus appropri� pour RNN � l'heure actuelle, car le futur Transformer tombera en disgr�ce? La r�ponse � cette question peut �tre fondamentalement affirmative, ce n'est rien de plus que si ce moment survient 3 ans plus tard ou 1 an plus tard. Bien s�r, j'esp�re que si c'est vous ou moi qui lisez cet article, un jour dans le futur, je sortirai une femme d'apparence ordinaire de la rue et je l'enverrai en Cor�e pour une chirurgie esth�tique, s'�cartant accidentellement du mod�le de beaut� de l'industrie cosm�tique de la cha�ne de montage. Il est pr�f�rable de faire ressortir une beaut� �poustouflante du pays de Tianxiang pour faire entrer Transformer dans le palais froid. Mais dans l'�tat actuel, m�me avec les jumelles, il semble que nous n'ayons pas vu un candidat avec cette qualification appara�tre dans notre champ de vision.

Je sais que si vous �tes un personnel de R&D rigoureux, vous ne devriez pas tirer de conclusions claires qui semblent quelque peu arbitraires lorsque la situation actuelle n'est pas si claire, donc cette d�claration peut �tre controvers�e. Mais ce sont bien mes v�ritables pens�es actuelles. �Quant au jugement ci-dessus bas� sur quoi? Y a-t-il un fondement � ce jugement? La base est-elle suffisante? Je crois que vous pouvez avoir votre propre conclusion apr�s avoir lu cet article.

En parlant de cela, certains �tudiants qui souffrent g�n�ralement moins et qui aiment cueillir des �pines se demanderont: pourquoi dites-vous que les extracteurs de fonctionnalit�s typiques de la PNL sont ces trois? O� mettez-vous d'autres extracteurs de fonctionnalit�s bien connus tels que R�cursif NN? Eh bien, oui, de nombreux articles qui pr�sentent des d�veloppements importants dans la PNL consid�rent m�me R�cursive NN comme un d�veloppement majeur de la PNL. En plus de cela, il en existe d'autres tels que Memory Network Profitez �galement de ce traitement honorable au niveau minist�riel. Mais je n'ai pas �t� tr�s optimiste sur ces deux technologies et je n'ai pas �t� optimiste sur ces deux technologies depuis de nombreuses ann�es. La situation actuelle a renforc� cette vision. Et je vous conseille gratuitement, il n'y a pas besoin de perdre de temps sur ces deux technologies. Quant au pourquoi, parce que cela n'a rien � voir avec le sujet de cet article, j'ai l'occasion de d�velopper plus tard.

Ce qui pr�c�de est la conclusion, ci-dessous, nous entrons formellement dans l'�tape de la preuve.

Battlefield Reconnaissance: caract�ristiques et types de missions PNL

Les caract�ristiques des t�ches PNL sont tr�s diff�rentes de celles des images. La figure ci-dessus montre un exemple. L'entr�e de PNL est souvent une phrase ou un article, elle pr�sente donc plusieurs caract�ristiques: Premi�rement, l'entr�e est une s�quence lin�aire unidimensionnelle, qui est facile � comprendre ; Deuxi�mement, l'entr�e est de longueur variable, certaines sont longues et d'autres courtes. Ce point ajoutera en fait des probl�mes au traitement du mod�le; encore une fois, la relation de position relative des mots ou des clauses est tr�s importante et les positions de deux mots sont interchang�es Peut conduire � une signification compl�tement diff�rente. Si vous m'entendez vous dire: "Vous n'avez pas � rembourser les dix millions que vous me devez" et "Vous n'avez pas � rembourser les dix millions que je vous dois", que ressentez-vous en entendant? Pour comprendre la diff�rence entre les deux; en outre, les fonctionnalit�s longue distance de la phrase sont �galement tr�s importantes pour comprendre la s�mantique. Pour des exemples, reportez-vous aux mots avec l'ic�ne rouge. La capacit� de l'extracteur de fonctionnalit�s � capturer des fonctionnalit�s longue distance est �galement tr�s utile pour r�soudre les t�ches de PNL. Pivot.

Veuillez vous rappeler les caract�ristiques ci-dessus, Le fait qu'un extracteur de caract�ristiques s'adapte aux caract�ristiques du domaine du probl�me d�termine parfois son succ�s ou son �chec, et la direction de nombreuses am�liorations du mod�le est en fait de le rendre plus adapt� aux caract�ristiques du probl�me de domaine . C'est pourquoi j'explique ce contenu avant d'introduire des extracteurs de fonctionnalit�s tels que RNN, CNN et Transformer.

La PNL est un domaine tr�s large, comprenant des dizaines de sous-domaines et, en th�orie, tant qu'elle est li�e au traitement du langage, elle peut �tre incluse dans cette gamme. Mais si nous r�sumons un grand nombre de t�ches NLP, nous constaterons que la plupart des t�ches NLP peuvent �tre r�sum�es en plusieurs cat�gories de t�ches. Deux t�ches apparemment tr�s diff�rentes peuvent �tre compl�tement identiques du point de vue du mod�le de r�solution de t�ches.

D'une mani�re g�n�rale, la grande majorit� des probl�mes de PNL peuvent �tre class�s dans les quatre types de t�ches illustr�es dans la figure ci-dessus: l'un est le marquage de s�quence, qui est la t�che PNL la plus typique, comme la segmentation de mots chinois, le marquage d'une partie du discours, la reconnaissance d'entit�s nomm�es et le marquage de r�les s�mantiques Et ainsi de suite peut �tre class� dans cette cat�gorie de probl�mes, sa caract�ristique est que chaque mot de la phrase oblige le mod�le � donner une cat�gorie de classification en fonction du contexte. La deuxi�me cat�gorie concerne les t�ches de classification, telles que notre classification de texte commune, le calcul des sentiments, etc. peuvent �tre class�s dans cette cat�gorie. Sa caract�ristique est que quelle que soit la longueur de l'article, une cat�gorie de classification peut �tre donn�e dans son ensemble. Le troisi�me type de t�che est le jugement de la relation de phrase, comme l'implication, l'assurance qualit�, la r��criture s�mantique, le raisonnement en langage naturel et d'autres t�ches sont tout ce mode, sa caract�ristique est que, �tant donn� deux phrases, le mod�le juge si les deux phrases ont une certaine relation s�mantique; La quatri�me cat�gorie concerne les t�ches g�n�ratives, telles que la traduction automatique, la synth�se de texte, l'�criture de po�sie et de phrases, la recherche d'images et la parole, etc., appartiennent toutes � cette cat�gorie. Sa caract�ristique est qu'apr�s la saisie du contenu du texte, un autre paragraphe de texte doit �tre g�n�r� de mani�re autonome.

Pour r�soudre ces diff�rentes t�ches, quelle est la plus importante du point de vue du mod�le? C'est la capacit� de l'extracteur de caract�ristiques. Surtout apr�s la popularit� de l'apprentissage profond, ce point devient plus important. Parce que le plus grand avantage du deep learning est "de bout en bout". Bien s�r, cela ne signifie pas du client au cloud. Cela signifie que dans le pass�, les d�veloppeurs devaient r�fl�chir aux fonctionnalit�s � extraire. Mais apr�s l'�re de bout en bout, ces Ne vous inqui�tez pas du tout, lancez l'entr�e d'origine dans un bon extracteur de fonctionnalit�s, et il extraira des fonctionnalit�s utiles par lui-m�me.

En tant que cr�ateur de bogues senior et ing�nieur d'algorithme, ce que vous devez faire maintenant, c'est: choisir un bon extracteur de fonctionnalit�s, choisir un bon extracteur de fonctionnalit�s, choisir un bon extracteur de fonctionnalit�s et lui fournir beaucoup de donn�es d'entra�nement, D�finissez la fonction de perte, dites-lui ce que vous voulez qu'elle fasse ... Ensuite, vous pensez que vous n'avez pas � attendre le r�sultat, non? Alors vous �tes la personne la plus optimiste de tout l'univers que j'aie jamais vue ... Vous passez en fait beaucoup de temps � r�gler les param�tres ....... � partir de ce processus, on peut voir que si nous avons un extracteur de fonctionnalit�s puissant, il est in�vitable que l'ing�nieur en algorithme junior devienne un homme de r�glage. � l'�poque o� AutoML (automatique qui) est populaire, peut-�tre voulez-vous �tre un tuning Je ne peux pas participer au chevalier, Li Si a dit: "Je veux aller � Cai Dongmen pour chasser le lapin rus�, et comment puis-je l'obtenir!" S'il vous pla�t comprendre. Alors ch�rissez vos journ�es o� vous ajustez encore vos super param�tres � deux heures du soir, car pour vous il y a de bonnes et de mauvaises nouvelles. La bonne nouvelle est que cela peut �tre comme �a pour vous. dur Les jours s'�coulent! La mauvaise nouvelle est que cela pourrait �tre une journ�e si difficile pour vous � courre de ! ! ! Alors, comment pouvez-vous devenir un ma�tre d'algorithme? Vous allez concevoir un extracteur de fonctionnalit�s plus puissant.

Les trois extracteurs de fonctionnalit�s sont d�crits ci-dessous.

V�t�ran sur le champ de bataille RNN: Lian Po est vieux et peut encore manger

Je suppose que tout le monde conna�t le mod�le RNN, je ne vais donc pas le pr�senter en d�tail. Reportez-vous � la figure ci-dessus pour la structure du mod�le. Le cur est que chaque entr�e correspond � un nud de couche cach�, et une s�quence lin�aire est form�e entre les nuds de couche cach�s, et les informations sont dans la couche cach�e de l'avant vers l'arri�re. Passez en arri�re progressivement. Passons directement � ce dont je veux parler.

Pourquoi RNN peut devenir l'extracteur de fonctionnalit�s grand public pour r�soudre les probl�mes de PNL

Nous savons que RNN est rapidement devenu un mod�le vedette accrocheur depuis son introduction dans le monde de la PNL, et est largement utilis� dans diverses t�ches de PNL. Cependant, le RNN d'origine a �galement des probl�mes. Il adopte une structure de s�quence lin�aire pour collecter en continu les informations d'entr�e de l'avant vers l'arri�re. Cependant, cette structure de s�quence lin�aire a des difficult�s d'optimisation lors de la propagation arri�re, car le chemin de propagation arri�re est trop long, ce qui peut facilement conduire � de graves probl�mes. Le d�grad� dispara�t ou le d�grad� explose. Afin de r�soudre ce probl�me, les mod�les LSTM et GRU ont �t� ult�rieurement introduits. En ajoutant des informations d'�tat interm�diaires � propager directement vers l'arri�re pour att�nuer le probl�me de la disparition de gradient, de tr�s bons r�sultats ont �t� obtenus. Ainsi, LSTM et GRU sont rapidement devenus les mod�les standard de RNN. En fait, dans le domaine de l'image, l'id�e originale du saut de connexion, qui a conduit � la r�volution du mod�le par HighwayNet / Resnet, etc., a �t� emprunt�e au m�canisme de transfert de couche cach�e du LSTM. Apr�s une optimisation continue, la PNL a ensuite emprunt� au champ d'image et introduit le m�canisme d'attention (� partir de ces deux processus, vous pouvez voir la r�f�rence technique mutuelle et la promotion de diff�rents domaines), le r�seau de superposition approfondit les couches et le cadre Encoder-Decoder est introduit. Ces progr�s technologiques ont consid�rablement �largi les capacit�s et les effets d'application du RNN. Le mod�le pr�sent� dans la figure ci-dessous est un coffret cadeau technologique g�n�ral tr�s typique qui utilise RNN pour r�soudre des t�ches de PNL. Avant que la nouvelle technologie n'apparaisse, vous pouvez voir ce coffret cadeau technologique dans divers domaines de la PNL.

Le contenu ci-dessus pr�sente bri�vement le processus g�n�ral d'�volution technologique de RNN dans le domaine de la PNL. Alors pourquoi RNN est-il devenu si rapidement populaire en PNL et l'a-t-il domin�? La raison principale est que la structure de RNN est naturellement adapt�e pour r�soudre le probl�me de la PNL.L'entr�e de la PNL est souvent une phrase de s�quence lin�aire de longueur variable, et la structure de RNN elle-m�me est une structure de r�seau qui peut accepter une entr�e de longueur variable et conduire des informations lin�airement de l'avant vers l'arri�re. , Et l'introduction de trois portes dans LSTM est �galement tr�s efficace pour capturer des fonctionnalit�s longue distance. Par cons�quent, RNN est particuli�rement adapt� au sc�nario d'application de s�quence lin�aire de la PNL, ce qui est la raison fondamentale pour laquelle RNN est si populaire dans le monde de la PNL.

Deux graves probl�mes auxquels RNN est confront� dans la nouvelle �re

RNN est populaire dans l'industrie de la PNL depuis de nombreuses ann�es (2014-2018?). Avant 2018, la plupart des r�sultats de l'�tat de l'art dans divers sous-domaines �taient obtenus par RNN. Mais au cours de l'ann�e �coul�e, voyant que le statut du leader de RNN Qunlun a �t� �branl�, le soi-disant leader a ouvert la voie depuis 3 � 5 ans, et il semble que le mod�le de c�l�brit� Internet ne fasse pas exception.

Alors pourquoi est-ce? Il y a deux principales raisons.

La premi�re raison r�side dans la mont�e en puissance de certains nouveaux mod�les � venir, comme le mod�le CNN sp�cialement modifi� et le Transformer particuli�rement populaire r�cemment. Ces �toiles montantes, en particulier l'effet d'application de Transformer, pr�sentent des avantages �vidents par rapport � RNN. C'est la raison principale: si les anciens ne peuvent pas faire les nouveaux venus et n'ont pas la capacit� de se r�inventer et de se r�volutionner, ils doivent naturellement se retirer de la sc�ne de l'histoire consciemment ou involontairement. C'est une loi naturelle. En ce qui concerne la preuve sp�cifique de la faiblesse des capacit�s RNN, j'en parlerai plus tard dans cet article, et je n'en discuterai pas ici. Bien s�r, les royalistes de RNN parmi le staff technique devraient encore �tre assez nombreux, ils n'abandonneront pas facilement les �toiles de signalisation qui ont �t� si populaires, ils ont donc r�fl�chi ou r�fl�chissent � des pistes d'am�lioration pour tenter de prolonger la vie de RNN. Quant � savoir ce que sont ces m�thodes et si elles sont efficaces, nous continuerons � en discuter plus tard.

Un autre probl�me qui entrave s�rieusement la popularit� future de RNN est que la structure de d�pendance de s�quence de RNN lui-m�me est assez hostile pour le calcul massivement parall�le. En termes simples, il est difficile pour les RNN d'avoir des capacit�s de calcul parall�le efficaces. Cela peut ne pas sembler un gros probl�me � premi�re vue, mais c'est en fait tr�s s�rieux. Si vous n'�tes satisfait d'envoyer un article qu'en modifiant le RNN, ce n'est vraiment pas un gros probl�me, mais si l'industrie choisit la technologie, il est peu probable qu'elle choisisse cette lenteur lorsqu'un mod�le beaucoup plus rapide est disponible. Du mod�le. Un mod�le qui n'a pas d'application pratique pour soutenir sa valeur d'existence, la question de ses perspectives, on estime que la r�ponse peut �tre obtenue en pensant dans le cervelet.

La question est: pourquoi la puissance de calcul parall�le du RNN est-elle faible? Qu'est-ce qui l'a caus�?

Nous savons que la raison pour laquelle RNN est RNN, le signe le plus typique qui peut le distinguer des autres mod�les est: le calcul de l'�tat de la couche cach�e au temps T d�pend de deux entr�es, l'une est le mot d'entr�e de la phrase Xt au temps T, ce n'est pas une caract�ristique , Tous les mod�les doivent recevoir cette entr�e d'origine; la cl� est une autre entr�e. L'�tat de la couche cach�e St au temps T d�pend �galement de la sortie de l'�tat de la couche cach�e S (t-1) au temps T-1, qui refl�te le mieux l'essence de RNN Le point caract�ristique est que les informations historiques de RNN sont transmises plus tard par ce canal de transmission d'informations.Reportez-vous � la figure ci-dessus pour un sch�ma. Alors pourquoi la puissance de calcul parall�le de RNN n'est-elle pas bonne? Le probl�me r�side ici. Parce que le calcul au temps T d�pend du r�sultat du calcul de la couche cach�e au temps T-1, et le calcul au temps T-1 d�pend du r�sultat du calcul de la couche cach�e au temps T-2 ... Cela forme la soi-disant d�pendance de s�quence. Autrement dit, seul le premier pas de temps peut �tre calcul� avant que le r�sultat du deuxi�me pas de temps puisse �tre calcul�. Cela rend les RNN incapables de calculer en parall�le de ce point de vue et ne peuvent honn�tement suivre le pas de temps qu'un mot par mot Les mots vont � l'envers.

CNN et Transformer n'ont pas ce genre de probl�me de d�pendance de s�quence, donc la puissance de calcul parall�le n'est pas un probl�me pour les deux, et les op�rations � chaque pas de temps peuvent �tre calcul�es ensemble en parall�le.

Alors, RNN peut-il �tre modifi� pour am�liorer ses capacit�s de calcul parall�le? Si oui, quel est l'effet? Discutons de ce probl�me ci-dessous.

Comment transformer RNN pour avoir des capacit�s de calcul parall�le?

Comme mentionn� ci-dessus, le nud de l'incapacit� de RNN � effectuer un calcul parall�le r�side dans la d�pendance du r�sultat du calcul au temps T-1 au temps T, et cela se refl�te dans le r�seau enti�rement connect� entre les couches cach�es. Puisque le noeud est l�, si vous voulez r�soudre le probl�me, vous devez commencer par ce lien. Que peut-on faire de plus dans ce lien pour augmenter la puissance de calcul parall�le de RNN? Vous pouvez y penser.

En fait, il ne vous reste plus beaucoup d'options. Vous pouvez avoir deux grandes id�es � am�liorer: l'une consiste � conserver le lien cach� entre tout pas de temps continu (T-1 � T); et l'autre est Interrompre partiellement la connexion de couche cach�e entre des pas de temps cons�cutifs (temps T-1 � T).

Examinons d'abord la premi�re m�thode. Maintenant, notre probl�me a �t� transform� en: nous devons toujours garder la connexion cach�e entre tout pas de temps continu (temps T-1 � T), mais sous cette pr�misse, nous devons �tre en mesure de Comment g�rer le calcul parall�le? Parce que tant que la connexion de couche masqu�e de deux pas de temps cons�cutifs est conserv�e, cela signifie que le r�sultat de la couche masqu�e au temps T doit �tre calcul�, et le r�sultat de la couche masqu�e au temps T-1 doit �tre calcul� en premier. Cela ne tombe pas dans le pi�ge de la d�pendance de s�quence. ? Eh bien, c'est vrai, mais pourquoi doit-il �tre parall�le entre les entr�es � diff�rents pas de temps? Personne ne dit que le calcul parall�le de RNN doit se faire � des pas de temps diff�rents.Pensez-y, la couche cach�e contient-elle �galement de nombreux neurones? Alors peut-on le faire en parall�le parmi les neurones cach�s? Si vous n'avez pas compris ce que cela signifie, veuillez voir l'image ci-dessous.

La figure ci-dessus ne montre que les nuds de couche cach�s de chaque pas de temps. La couche cach�e de chaque pas de temps contient 3 neurones. Il s'agit d'une vue de dessus, regardant les nuds de couche cach�s du RNN de haut en bas. En outre, il existe toujours des connexions entre les neurones cach�s en deux �tapes de temps cons�cutives.La figure ci-dessus n'est pas repr�sent�e par souci de simplicit�. Vous devriez comprendre maintenant. En supposant qu'il y a 3 neurones de couche cach�s, alors nous pouvons former 3 calculs parall�les (la fl�che rouge est s�par�e en trois), et chaque canal a toujours le probl�me de d�pendance de s�quence, donc chaque canal C'est toujours en s�rie. La grande id�e doit �tre claire, non? Cependant, les �tudiants qui comprennent la structure de RNN constateront qu'il reste un probl�me: les connexions entre les neurones de la couche cach�e sont enti�rement connect�es, c'est-�-dire qu'un neurone de la couche cach�e au temps T est connect� � tous les neurones de la couche cach�e au temps T-1. Si tel est le cas, il est impossible d'effectuer des calculs parall�les entre les neurones. Vous pouvez vous demander pourquoi. C'est simple. Je suppose que vous avez la capacit� de le comprendre. Alors que faire? C'est tr�s simple. La relation de connexion entre les neurones de la couche cach�e au temps T et T-1 doit �tre modifi�e, de la connexion compl�te pr�c�dente au neurone � la position correspondante (le neurone dans la m�me rang�e s�par� par la fl�che rouge dans la figure ci-dessus Entre) est connect�, mais pas connect� � d'autres neurones. De cette mani�re, ce probl�me peut �tre r�solu et des calculs parall�les peuvent �tre effectu�s entre des neurones cach�s de chemins diff�rents.

L'id�e de la premi�re m�thode pour transformer la puissance de calcul parall�le de RNN est � peu pr�s celle d�crite ci-dessus. Le repr�sentant de cette m�thode est la m�thode SRU propos�e dans l'article "Unit�s r�currentes simples pour une r�currence hautement parall�lisable". Son am�lioration la plus essentielle est de combiner les couches cach�es. La d�pendance des neurones est modifi�e de enti�rement connect� au produit Hadamard, de sorte que l'unit� de couche cach�e au temps T d�pend � l'origine de toutes les unit�s de couche cach�e au temps T-1, mais elle ne d�pend que de l'unit� correspondante au temps T-1, donc elle peut �tre cach�e Des calculs parall�les sont effectu�s entre les unit�s de couche, mais la collecte d'informations est toujours effectu�e en s�ries chronologiques. Ainsi, le parall�lisme se produit entre des unit�s cach�es, pas entre diff�rents pas de temps.

C'est en fait une m�thode plus ing�nieuse, mais son probl�me est que la limite sup�rieure du degr� de parall�lisme est limit�e. Le degr� de parall�lisme d�pend du nombre de neurones de la couche cach�e, et g�n�ralement cette valeur n'est souvent pas trop grande, et l'augmentation du parall�lisme n'est plus possible. C'est trop possible. De plus, chaque circuit parall�le n�cessite encore un calcul de s�quence, ce qui ralentira �galement la vitesse globale. La vitesse de test de SRU est la suivante: la vitesse de classification du texte est �quivalente � celle du CNN original (Kim 2014) .Le papier ne dit pas si CNN a adopt� une m�thode d'apprentissage parall�le. D'autres n'ont fait des �valuations d'effets que sur des t�ches complexes, la compr�hension de la lecture et les t�ches de TA, et n'ont pas compar� la vitesse avec CNN. Je suppose qu'il y a une raison � cela, car les t�ches complexes n�cessitent souvent des r�seaux profonds, et d'autres ne sont pas des devinettes.

La deuxi�me id�e typique d'am�lioration est la suivante: afin de pouvoir effectuer des calculs parall�les entre les entr�es � diff�rents pas de temps, il n'y a qu'une seule fa�on de rompre la connexion entre les couches cach�es, mais pas toutes, car c'est fondamentalement Il est impossible de capturer les fonctionnalit�s combin�es, donc la seule strat�gie qui peut �tre s�lectionn�e est l'interruption partielle, telle que l'interruption tous les 2 pas de temps, mais comment capturer des fonctionnalit�s un peu plus �loign�es? Il ne peut qu'approfondir la profondeur de la couche et �tablir la relation entre les entit�s longue distance � travers la profondeur de la couche. Un mod�le repr�sentatif est le RNN en tranches illustr� dans la figure ci-dessus. Quand j'ai vu ce mannequin pour la premi�re fois, je ne pouvais pas m'emp�cher de rire comme une barre, et je n'ai pas pu m'emp�cher de m'avancer pour lui dire bonjour: bonjour, mannequin CNN, je ne m'attendais pas � ce que vous comme un rugueux le porterait un jour Une robe rose, d�guis�e en RNN, est apparue devant moi, haha. Les �l�ves qui comprennent le mod�le CNN souriront lorsqu'ils verront ma phrase ci-dessus: N'est-ce pas une version simplifi�e de CNN? Les �tudiants qui ne connaissent pas CNN sugg�rent qu'apr�s avoir lu la partie CNN plus tard, regardez en arri�re et voyez si cela signifie cela.

Qu'en est-il de l'am�lioration de la vitesse du RNN apr�s cette transformation? L'article donne une exp�rience de comparaison de vitesse. En r�sum�, la vitesse du SRNN est 5 � 15 fois plus rapide que le mod�le GRU. Eh bien, l'effet est bon, mais compar� au mod�le de comparaison de vitesse du mod�le DC-CNN, il est encore environ 3 fois plus lent que le mod�le CNN en moyenne. Cest normal, mais cest un peu trop compliqu�. Cest normal parce que cela changeait � lorigine le RNN en une structure de type CNN, et le mod�le de s�quence RNN est toujours utilis� dans le fragment, il ralentira donc in�vitablement, et il est normal d�tre plus lent que CNN . Dire �d�raisonnable� signifie: puisqu'il s'agit essentiellement de CNN et que la vitesse est plus lente que celle de CNN, quelle est la signification de ce changement? Pourquoi ne pas utiliser CNN directement? n'est-ce pas? L'ancien camarade de classe qui aime se comporter parce qu'il souffre de moins de nourriture dira � nouveau: Peut-�tre que l'effet est particuli�rement bon. Eh bien, � en juger par le m�canisme d'action de cette structure, c'est peu probable. Vous avez dit que la partie exp�rimentale de l'article prouve ce point. Je pense que l'exp�rience comparative dans la partie exp�rimentale n'est pas suffisante. Vous devez compl�ter d'autres mod�les CNN autres que DC-CNN pour comparaison. Bien s�r, ceci est purement une opinion personnelle, ne le prenez pas au s�rieux, car je secoue souvent la t�te lorsque je parle.� ce moment, les gens me donneront g�n�ralement des commentaires surpris: Pourquoi est-ce que j'entends le bruit de l'eau lorsque vous parlez?

Ci-dessus �num�re deux id�es majeures pour am�liorer les capacit�s de calcul parall�le des RNN Personnellement, je suis pessimiste quant aux capacit�s de calcul parall�le des RNN, principalement parce que les caract�ristiques essentielles des RNN d�terminent que nous avons trop peu de choix. Il ne s'agit que de choisir d'interrompre ou de ne pas interrompre la connexion de la couche cach�e. Si vous choisissez d'interrompre, vous serez confront� aux probl�mes ci-dessus. Vous constaterez qu'il ne s'agit peut-�tre plus d'un mod�le RNN. Afin de le faire ressembler � un RNN, la structure RNN est toujours adopt�e dans le segment interrompu, ce qui ralentira sans aucun doute la vitesse. Donc, c'est un dilemme: au lieu de passer � un autre mod�le, si nous choisissons de ne pas interrompre, il semble que nous ne pouvons effectuer un parall�lisme qu'entre neurones cach�s, l'inconv�nient �tant que la limite sup�rieure du parall�lisme est tr�s �lev�e. Faible; d'autre part, l'estimation de la d�pendance de s�quence qui existe toujours dans celle-ci est toujours un probl�me. C'est la raison du pessimisme, principalement parce qu'il n'y a pas de grand espoir.

G�n�ral CNN: Stimuler les champs de bataille de PlayerUnknown du champ de bataille

Il y a plus d'un an, CNN �tait le mod�le d'apprentissage en profondeur le plus courant dans le traitement du langage naturel autre que RNN. Voici l'introduction de l'extracteur de fonctionnalit�s CNN, qui sera plus d�taill� que RNN, principalement en consid�rant que tout le monde le conna�t peut-�tre pas RNN Si haut.

Mod�le CNN nostalgique pr�coce en PNL

La premi�re introduction de CNN dans la PNL �tait le travail de Kim en 2014. Reportez-vous � la figure ci-dessus pour la structure du papier et du r�seau. De mani�re g�n�rale, le mot ou le mot d'entr�e est exprim� dans Word Embedding, de sorte que l'entr�e d'informations textuelles unidimensionnelles d'origine est convertie en une structure d'entr�e bidimensionnelle. Supposons que l'entr�e X contient n caract�res et que le Word Embedding de chaque caract�re La longueur est d, alors l'entr�e est un vecteur bidimensionnel de d * n.

La couche convolutionnelle est essentiellement une couche d'extraction d'entit�s, et l'hyperparam�tre F peut �tre d�fini pour sp�cifier le nombre de noyaux de convolution (filtre) que la couche convolutionnelle contient. Pour un filtre, il est concevable qu'il existe une fen�tre mobile d'une taille de d * k commen�ant � partir du premier mot de la matrice d'entr�e et se d�pla�ant vers l'arri�re, o� k est la taille de la fen�tre sp�cifi�e par Filter et d est la longueur de Word Embedding. Pour une fen�tre � un certain moment, via la transformation non lin�aire du r�seau de neurones, la valeur d'entr�e dans cette fen�tre est convertie en une certaine valeur caract�ristique. Au fur et � mesure que la fen�tre continue de reculer, la valeur caract�ristique correspondant � ce filtre est g�n�r�e en continu pour former le filtre Vecteur de caract�ristiques. C'est ainsi que le noyau de convolution extrait les fonctionnalit�s. Chaque filtre de la couche convolutionnelle fonctionne de cette mani�re pour former une s�quence de caract�ristiques diff�rente. La couche Regroupement effectue des op�rations de r�duction de dimensionnalit� sur les entit�s Filtrer pour former les entit�s finales. En g�n�ral, le r�seau neuronal de couche enti�rement connect� est connect� apr�s la couche de regroupement pour former le processus de classification final.

C'est le m�canisme de travail du mod�le CNN qui a d'abord �t� appliqu� dans le domaine de la PNL. Il a �t� utilis� pour r�soudre la t�che de classification des phrases en PNL. Il semblait tr�s concis. Apr�s cela, des mod�les am�lior�s sur cette base sont apparus les uns apr�s les autres. Ces mod�les CNN nostalgiques peuvent �galement �tre �quivalents aux mod�les RNN nostalgiques de l'�poque dans certaines t�ches, ils peuvent donc se d�velopper de mani�re extravagante dans plusieurs domaines de la PNL, mais dans plus de domaines PNL, ils sont toujours supprim�s par le mod�le RNN au stade pr�coce de la d�pression. Situation embarrassante. Alors pourquoi CNN, qui a �t� invincible dans le domaine de l'image, une fois qu'il s'est heurt� au champ de la PNL, a-t-il �t� supprim� par le serpent RNN pour voir le champ d'image des anciens de Jiangdong? Cela montre que cette version de CNN a encore de nombreux probl�mes. En fait, le probl�me le plus fondamental r�side dans le fait que l'ancienne r�volution a rencontr� de nouveaux probl�mes. La raison principale est que le nouvel environnement n'a pas apport� de changements cibl�s aux caract�ristiques du nouvel environnement, il est donc confront� au probl�me de l'insuffisance. .

CNN peut-il survivre aux divers environnements de t�ches NLP de RNN? La r�ponse est sur le point d'�tre r�v�l�e.

L'�volution de CNN: le Colis�e de la s�lection naturelle

Jetons un coup d'il aux probl�mes de la version nostalgique de CNN, puis voyons comment nos experts en PNL ont transform� CNN, et il a �t� chang� pour une version moderne de CNN qui a l'air bien � l'heure actuelle.

Tout d'abord, nous devons �tre clairs: quelles fonctionnalit�s sont captur�es par CNN? De la version nostalgique mentionn�e ci-dessus de la couche convolutive CNN, vous pouvez probablement voir que la cl� r�side dans la fen�tre glissante couverte par le noyau de convolution.Les fonctionnalit�s que CNN peut capturer sont essentiellement refl�t�es dans cette fen�tre glissante. La fen�tre glissante de taille k traverse doucement les mots de la phrase et ondule, alors que capture-t-elle? En fait, elle capture les informations sur le fragment k-gramme du mot. Ces fragments de k-gramme sont CNN Pour les entit�s captur�es, la taille de k d�termine la distance � laquelle les entit�s peuvent �tre captur�es.

Cela dit, regardons le premier probl�me de la version de Kim de CNN: il n'a qu'une seule couche convolutive. En surface, cela semble �tre un probl�me de profondeur insuffisante, non? Je vais vous demander en retour: pourquoi CNN devrait-il �tre profond? En fait, faire de la profondeur est un moyen, pas une fin. Le probl�me avec une seule couche convolutive est que pour les entit�s longue distance, un CNN monocouche ne peut pas la capturer. Si la fen�tre glissante k est au plus �gale � 2 et s'il existe une entit� longue distance avec une distance de 5, quel que soit le nombre de volumes activ�s Le noyau du produit ne peut pas couvrir l'entr�e avec une distance de 5, il ne peut donc pas capturer les fonctionnalit�s longue distance.

Alors, comment pouvons-nous capturer les fonctionnalit�s longue distance? Il existe deux m�thodes d'am�lioration typiques: l'une consiste � supposer que nous utilisons toujours une seule couche convolutive, et la taille de la fen�tre glissante k est suppos�e �tre 3, c'est-�-dire que seuls trois mots d'entr�e sont re�us, mais nous voulons capturer des entit�s avec une distance de 5, que devons-nous faire? ? �videmment, si la fen�tre du noyau de convolution couvre toujours une zone continue, ce n'est certainement pas la t�che. Rappel: avez-vous d�j� jou� � Jump, non? Une strat�gie similaire peut-elle �tre adopt�e? Oui, vous pouvez sauter et vous couvrir, non? C'est l'id�e de base de la convolution dilat�e, et c'est en effet une solution.

La deuxi�me m�thode consiste � faire la profondeur. La premi�re couche de couche convolutive, en supposant que la taille de fen�tre glissante k est de 3, si une autre couche convolutionnelle est empil�e, en supposant que la taille de fen�tre glissante est �galement 3, mais la deuxi�me couche de fen�tres couvre les caract�ristiques de sortie de la premi�re couche de fen�tres, donc Il peut en fait couvrir la distance d'entr�e jusqu'� 5. Si vous continuez � empiler la couche convolutive, vous pouvez continuer � augmenter la longueur du noyau de convolution pour couvrir l'entr�e.

Voici deux solutions typiques aux capacit�s de capture d'entit�s longue distance de CNN. CNN dilat� est un peu d�licat, et il existe des connaissances sur la fa�on de d�finir les hyperparam�tres lors de la superposition de couches convolutives. �tant donn� que les sauts continus peuvent manquer certaines combinaisons de caract�ristiques, il doit �tre soigneusement ajust� La correspondance des param�tres garantit que toutes les combinaisons possibles sont couvertes. Relativement parlant, l'approfondissement de CNN est la direction principale du d�veloppement. La raison ci-dessus est facile � comprendre. En fait, depuis l'�mergence de CNN, les gens ont essay� diff�rentes m�thodes pour essayer d'atteindre la profondeur de CNN. Cependant, la r�alit� est souvent impitoyable. Le probl�me pour trouver comment lancer est que CNN ne le fait pas profond�ment. La couche convolutive � 3 couches ne peut pas �tre effectu�e, et plus le r�seau est profond n'aide pas l'effet de t�che (veuillez ne pas utiliser CharCNN comme contre-exemple, des recherches ult�rieures montrent que le CNN � 2 couches utilisant des mots est plus efficace que CharCNN). Il semble que ce probl�me soit toujours caus� par des m�thodes d'optimisation insuffisantes des param�tres de r�seau profond, plut�t que par la profondeur de la couche est inutile. Plus tard, apr�s l'�mergence de nouvelles technologies dans le domaine de l'image comme Resnet, il est naturel que les gens envisagent l'introduction de Skip Connection et de diverses technologies d'optimisation de Norm et d'autres param�tres, de mani�re � augmenter lentement la profondeur du r�seau CNN.

Ce qui pr�c�de est le premier probl�me de la version Kim de CNN, le probl�me de ne pas pouvoir capturer les fonctionnalit�s longue distance, et la principale solution propos�e par les chercheurs derri�re. En regardant en arri�re la version Kim de CNN, il y a un autre probl�me, � savoir la couche Max Pooling, qui est en fait li�e � savoir si CNN peut conserver les informations de position des mots dans la phrase d'entr�e. Tout d'abord, je veux poser une question: parce que RNN est une structure de s�quence lin�aire, il code naturellement les informations de position; alors, CNN peut-il conserver les informations de position relative de l'entr�e d'origine? Nous avons dit plus t�t que les informations de localisation sont tr�s utiles pour les probl�mes de PNL. En fait, le noyau de convolution CNN peut conserver la position relative entre les entit�s. La raison est tr�s simple. La fen�tre coulissante glisse de gauche � droite et les entit�s captur�es sont �galement dispos�es dans cet ordre. Il a donc d�j� enregistr� les informations de position relative dans la structure. . Mais si la couche de pooling est imm�diatement connect�e � la couche convolutionnelle, la logique de fonctionnement de Max Pooling est la suivante: seule la caract�ristique la plus forte est s�lectionn�e et conserv�e � partir du vecteur de caract�ristiques obtenu � partir d'un noyau de convolution, donc quand il s'agit de la couche Pooling, les informations de position sont Jetez-le, c'est en fait une perte d'information en PNL. Par cons�quent, dans le domaine de la PNL, l'une des tendances de d�veloppement actuelles de CNN est d'abandonner la couche Pooling et de s'appuyer sur la couche enti�rement convolutive pour superposer la profondeur du r�seau. Il y a une raison � cela (bien s�r, le champ d'image est �galement cette tendance).

La figure ci-dessus montre la structure principale d'un CNN moderne qui peut �tre utilis� dans le domaine de la PNL. Il est g�n�ralement superpos� par une couche convolutive 1-D avec profondeur, en utilisant Skip Connection pour aider � l'optimisation, ou en introduisant CNN dilat� et d'autres moyens. Par exemple, le corps principal de ConvS2S est la structure illustr�e dans la figure ci-dessus. Le codeur contient 15 couches convolutives, la taille du noyau de convolution = 3 et la longueur d'entr�e de la couverture est de 25. Bien s�r, pour ConvS2S, l'introduction de la fonction non lin�aire gated GLU dans le noyau de convolution est �galement une aide importante. En raison des limites d'espace, je ne vais pas l'�tendre ici. GLU semble �tre un composant essentiel du mod�le CNN en NLP et m�rite d'�tre ma�tris�. Un autre exemple est TCN (Paper: An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling), qui int�gre plusieurs technologies: en utilisant CNN dilat� pour �tendre la longueur de couverture d'entr�e d'une seule couche convolutive, en utilisant une profondeur d'empilement de couche convolutive compl�te, en utilisant Skip Connection a assist� l'optimisation et introduit Casual CNN pour rendre la structure du r�seau invisible pour les donn�es apr�s le pas de temps T. Cependant, les exp�riences de TCN ont deux probl�mes �vidents: un probl�me est que la t�che n'est pas une t�che PNL typique sauf pour les mod�les de langage, mais une t�che de donn�es synth�tiques, de sorte que la conclusion de l'article est difficile de dire directement qu'elle convient au domaine de la PNL; un autre point, il utilise La m�thode de comparaison utilis�e pour comparer l'effet n'utilisait pas le mod�le qui fonctionnait bien � l'�poque pour la comparaison, et le point de r�f�rence de comparaison �tait faible. Par cons�quent, l'effet de mod�le du TCN n'est pas suffisamment convaincant. En fait, les �l�ments qu'il devrait introduire sont fondamentalement introduits, et l'exp�rience n'est pas assez convaincante, je pense que c'est peut-�tre le manque de GLU.

En outre, parlez bri�vement du probl�me de codage de position de CNN et des capacit�s de calcul parall�le. Comme mentionn� ci-dessus, la couche convolutive de CNN conserve en fait les informations de position relative. Tant que vous n'utilisez pas vos mains lors de la conception du mod�le et que vous n'ins�rez pas la couche de regroupement dans la couche interm�diaire, le probl�me n'est pas important et la position n'est pas sp�cifiquement ajust�e dans la partie d'entr�e L'encodage est tr�s bien. Mais vous pouvez �galement ajouter une incorporation de position � chaque mot dans la section d'entr�e comme ConvS2S, et superposer l'incorporation de position du mot et l'incorporation de vecteur de mot pour former une entr�e de mot. C'est �galement possible, et c'est aussi une pratique normale.

Quant aux capacit�s de calcul parall�le de CNN, elles sont tr�s puissantes, ce qui est en fait tr�s facile � comprendre. Nous consid�rons une couche convolutive monocouche. Tout d'abord, pour un certain noyau de convolution, il n'y a pas de d�pendance entre la position de chaque fen�tre glissante, donc elle peut �tre calcul�e en parall�le; de plus, il n'y a pas d'influence mutuelle entre diff�rents noyaux de convolution, donc Il peut �galement �tre calcul� en parall�le. Le parall�lisme de CNN est tr�s libre et tr�s �lev�, ce qui est un tr�s bon avantage de CNN.

Le contenu ci-dessus pr�sente comment la version nostalgique de CNN a surv�cu �tape par �tape � travers l'auto-�volution dans le PNL Shura Field. La direction d'�volution de CNN, si elle se r�sume en mille mots dans une phrase, est la suivante: essayez de rendre la profondeur de CNN aussi profonde que possible.A mesure que la profondeur augmente, de nombreux probl�mes apparemment non pertinents sont r�solus. Tout comme le th�me principal de notre pays au cours des 40 derni�res ann�es a �t� le d�veloppement �conomique, de nombreux probl�mes ne seront pas un probl�me si l'�conomie se d�veloppe bien. Ces derni�res ann�es, la raison pour laquelle tout le monde se sent difficile � divers �gards est que l�conomie ne fonctionne pas bien. Par cons�quent, de nombreux probl�mes ne peuvent �tre r�solus par la conduite �conomique. Par cons�quent, des difficult�s apparemment diverses sont apparues. C'est une v�rit�.

Donc, apr�s avoir pr�sent� tant de choses, quelle est l'efficacit� de la version moderne de CNN? Comment se compare-t-il avec RNN et Transforme? Ne vous inqui�tez pas, nous discuterons de ce probl�me plus tard.

White Knight Transformer: les h�ros du monde se tiennent sur la sc�ne

Transformer a �t� propos� par Google dans le document �Attention, c'est tout ce dont vous avez besoin� pour les t�ches de traduction automatique en 2017, et il a suscit� une r�ponse consid�rable. Chaque coll�gue engag� dans la recherche et le d�veloppement de PNL doit bien comprendre Transformer, son importance est sans aucun doute, surtout apr�s avoir lu mon article, je crois que votre sentiment d'urgence sera plus urgent, je suis une telle personne Un expert en cr�ation d'anxi�t�. Cependant, je ne vais pas me concentrer ici. Si vous souhaitez vous familiariser avec Transformer, vous pouvez consulter les trois articles suivants: L'un est le billet de blog de Jay Alammar, The Illustrated Transformer, qui pr�sente visuellement Transformer. Il est tr�s facile de comprendre l'ensemble du m�canisme. Il est recommand� de commencer par cet article. C'est une version de traduction chinoise, le deuxi�me article est le blog de Calvo: Dissection de BERT Partie 1: L'encodeur, bien qu'il soit dit d'analyser Bert, mais parce que Bert's Encoder est Transformer, il analyse en fait Transformer. Les exemples donn�s ici sont bons; Ensuite, vous pouvez aller plus loin en vous r�f�rant � "The Annotated Transformer." �crit par le groupe de recherche PNL de l'Universit� Harvard, le principe du code est � deux volets, et l'explication est tr�s claire.

Ce qui suit ne parle que du contenu li� au sujet de cet article.

Pour clarifier ici, l'extracteur de fonctionnalit�s de Transformer mentionn� dans cet article n'est pas ce � quoi le document original fait r�f�rence. Nous savons que le Transformateur mentionn� dans l'article "Attention est tout ce dont vous avez besoin" se r�f�re au cadre complet Encoder-Decoder, et je parle du point de vue des extracteurs de fonctionnalit�s. Vous pouvez simplement le comprendre comme la partie Encoder du document. Le but de la partie Encoder �tant relativement simple, il est d'extraire des caract�ristiques de la phrase originale, tandis que la partie Decoder a relativement plus de fonctions. Outre la fonction d'extraction de caract�ristiques, elle inclut �galement la fonction de mod�le de langage et la fonction de mod�le de traduction exprim�e par le m�canisme d'attention. Veuillez donc faire attention ici pour �viter toute confusion dans la compr�hension ult�rieure du concept.

La partie Encoder du Transformer (pas les modules marqu�s comme encodeurs dans l'image ci-dessus, mais le tout dans la case rouge, l'image ci-dessus est de The Illustrated Transformer, Jay Alammar appelle chaque bloc Encoder, qui n'est pas conforme au nom conventionnel) Une pile de plusieurs blocs transformateurs identiques. Ce bloc de transformateur est en fait la partie la plus critique de Transformer, et la formule de base est ici. Alors � quoi �a ressemble?

Voyez l'image ci-dessus. Est-ce que �a a l'air mignon, un peu comme un robot Android, n'est-ce pas? Cela doit �tre soulign� ici. Bien que l'article original de Transformer ait toujours mis l'accent sur l'auto-attention, � l'heure actuelle, il n'y a pas que l'auto-attention qui peut am�liorer l'effet Transformer. Tous les �l�ments de ce bloc, y compris l'auto-attention multi-t�tes, la connexion Ignorer, LayerNorm et FF travaillent ensemble. Pourquoi dites vous cela? Vous verrez cela plus tard.

Sur la base des caract�ristiques de la t�che NLP, parlons de la solution correspondante de Transformer. Tout d'abord, le langage naturel est g�n�ralement une phrase de longueur variable, alors comment r�soudre ce probl�me de longueur variable? L'approche de Transformer est similaire � CNN. En g�n�ral, la longueur maximale de l'entr�e est d�finie. Si la phrase n'est pas aussi longue, elle est remplie de remplissage, de sorte que toute l'entr�e du mod�le semble au moins de longueur fixe. De plus, la position relative entre les mots dans les phrases NLP contient beaucoup d'informations. Comme mentionn� ci-dessus, RNN codera naturellement les informations de position dans le mod�le car sa structure est une s�quence lin�aire; et la couche convolutive de CNN conserve en fait la position. Relativement informatif, donc ne rien faire n'est pas un gros probl�me. Mais pour Transformer, afin de pouvoir conserver les informations de position relative entre les mots de la phrase d'entr�e, quelque chose doit �tre fait. Pourquoi doit-il faire quelque chose? �tant donn� que la premi�re couche du r�seau d'entr�e est la couche d'auto-attention Muli-head, nous savons que l'auto-attention fera en sorte que le mot d'entr�e actuel et tout mot de la phrase aient une relation, puis l'int�grent dans un vecteur d'int�gration, mais lorsque toutes les informations sont incorpor�es, la position Les informations ne sont pas cod�es. Par cons�quent, Transformer, contrairement � RNN ou CNN, doit coder explicitement les informations Positionon � l'entr�e. Transformer utilise des fonctions de position pour coder la position, tandis que les mod�les tels que Bert attribuent � chaque mot une incorporation de position, qui correspond � l'incorporation de mot. L'incorporation de position est ajout�e pour former l'incorporation d'entr�e du mot, similaire � l'approche ConvS2S mentionn�e ci-dessus. En ce qui concerne le probl�me des fonctionnalit�s d�pendantes � longue distance dans les phrases PNL, l'auto-attention peut naturellement r�soudre ce probl�me, car lors de l'int�gration d'informations, le mot actuel et n'importe quel mot de la phrase sont connect�s, donc cela se fait en une seule �tape. . Contrairement � RNN, qui doit �tre renvoy� � travers la s�quence de nuds cach�s, et CNN, qui doit augmenter la profondeur du r�seau pour capturer les fonctionnalit�s longue distance, la solution Transformer est relativement simple et intuitive � ce stade. Il s'agit de pr�senter s�par�ment comment Transformer r�sout plusieurs points cl�s des t�ches PNL.

Il existe deux versions de Transformer: Transformer base et Transformer Big. La structure des deux est en fait la m�me. La principale diff�rence est que le nombre de blocs Transformer inclus est diff�rent. La base du Transformer contient 12 piles de blocs, tandis que le Transformer Big est doubl� pour contenir 24 blocs. Sans aucun doute, Transformer Big a doubl� la profondeur du r�seau, la quantit� de param�tres et la quantit� de calcul par rapport � la base de Transformer, il s'agit donc d'un mod�le relativement lourd, mais l'effet est �galement le meilleur.

(Partie 1)

Lei Feng.com AI Technology Review est r�imprim� avec l'autorisation de l'auteur.

Route de la soie

Apprenez � conna�tre la Chine

Abandonnez la fantaisie et adoptez Transformer: une comparaison de trois extracteurs de fonctionnalit�s de traitement du langage naturel (CNN / RNN / TF) (Partie 1)

Battlefield Reconnaissance: caract�ristiques et types de missions PNL

V�t�ran sur le champ de bataille RNN: Lian Po est vieux et peut encore manger

G�n�ral CNN: Stimuler les champs de bataille de PlayerUnknown du champ de bataille

White Knight Transformer: les h�ros du monde se tiennent sur la sc�ne