AAAI 2020 | CHINE: r�seau de d�couplage Attention pour la reconnaissance de texte

Auteur | Wang Tianwei

Modifier |, dix ans

Cet article � l'Institut sud de la Chine Universit� et associ� ensemble pour terminer, �tait de 20 papiers AAAI-accept�s � d�coupl� Network Attention pour la reconnaissance de texte � interpr�tation.

https://arxiv.org/abs/1912.10205

fond

Avec le d�veloppement rapide de l'apprentissage en profondeur de nombreuses nouvelles fa�ons ces derni�res ann�es pour identifier les domaines du texte est apparu. m�canisme de l'attention est l'une des m�thodes les plus avanc�es pour identifier le texte actuel, qui a fait particuli�rement bon effet sur la t�che de reconnaissance de texte de la sc�ne.

Cependant, le m�canisme de fonctionnement en cours d'alignement de mise au point d�pend �tape de d�codage de l'information, ce qui conduit � une �tape de d�codage erreur sur une ou confusion, le m�canisme d'alignement d'attention g�n�re une erreur, cette erreur s'accumule et se propager. Le probl�me dans le long texte �crit � la main refl�te plus �vidente.

Pour rem�dier � cette situation, nous proposons une attention r�seau de d�couplage (DAN), le r�seau se concentrerait d�coupleur de phase d'alignement � partir du d�codeur, l'�tape ne d�pend plus de l'information de d�codage qui est align�. Les exp�riences montrent que, DAN att�nuer efficacement le probl�me des m�canismes d'erreur d'alignement de l'attention et fait SOTA ou un effet consid�rable sur la reconnaissance de l'�criture manuscrite et de la sc�ne � la fois sc�ne de textes.

m�thodes Pr�sentation

DAN se compose de trois modules: un extracteur de caract�ristiques (FE), le module d'alignement de convolution (CAM), coupl� au d�codeur (DTD). caract�ristique figure FE extraction d'une pluralit� d'�chelles l'image d'entr�e; caract�ris� en ce r�cepteur extracteur de caract�ristiques de CAM multi�chelle, la taille d'une convolution compl�te en utilisant la structure, les caract�ristiques de sortie et analogues de la figure carte de l'attention; DTD finalement d�cod� r�sultat de reconnaissance.

module d'alignement convolution

Un module de convolution utilise une structure d'alignement complet de convolution, la couche L compos�e de convolution. combine module d'entr�e caract�ristiques des diff�rents processus d'extraction de caract�ristiques � l'�chelle, l'�tape de d�convolution, et chaque �l�ment peut �tre ajout� � l'�tape de convolution caract�ristiques correspondantes. MaxT � travers le module de sortie est activ� apr�s la fonction sigmo�de Zhang carte d'attention. Apr�s chaque attention la carte apr�s la normalisation. d�codage maxT est le pas de temps maximum, � savoir, le nombre maximum de caract�res dans le texte. Texte long dans la t�che de reconnaissance de l'�criture manuscrite, la valeur peut �tre r�gl�e sur 150, 200 maxT, SceneText la t�che de reconnaissance au niveau des mots, la valeur peut �tre r�gl�e sur 25 maxT.

En modifiant la taille de pas et l'op�ration de convolution CAM FE, le DAN peut �tre commut� entre flexible forme � une ou deux dimensions, en r�ponse � des sc�narios d'application diff�rents. La figure FE caract�ristique de sortie d'un tr�s press�, � savoir une dimension sous forme de l'identification, la reconnaissance DAN r�gles applicables au texte �crit � la main longue, au cours de la forme � deux dimensions, le DAN applicable au sc�nario de reconnaissance de texte irr�guli�re. Dans diff�rents sc�narios d'application, DAN flexible et efficace, ont atteint SOTA ou un effet consid�rable.

d�codeur d�coupler

Apr�s le d�couplage d�codeur similaire � d�codeur attention � d'autres processus de fonctionnement, la fonction dimensionnelle carte d'attention de la figure et une somme pond�r�e pour chaque caract�re sont s�quentiellement d�cod�s. En m�me temps, les r�sultats de d�codage �tape pr�c�dente apr�s int�gration, impliqu� dans l'�tape de d�codage en cours afin de renforcer l'apprentissage s�mantique. la formation DAN a besoin d'�tiquetage seulement de la classe de caract�res, ne n�cessite pas d'informations de position de chaque caract�re.

exp�rience

1. Hors ligne texte �crit � la main, dans la t�che de reconnaissance de texte �crit � la main hors ligne, nous avons s�lectionn� deux ensembles de donn�es IAM et exp�rience RIMES.

(1) Le r�sultat des comparaisons. DAN peut �tre vu de Tableau2 sont d'excellents r�sultats dans les deux ensembles de donn�es.

(2) des exp�riences d'ablation. Dans cet article, la conception du module CAM sont discut�es, deux conclusions :. 1 nombre CAM de couches doit �tre assez profond pour obtenir de bons r�sultats. 2. Tant que un cadre raisonnable, la taille des canaux de sortie MAXt peu d'effet sur le r�sultat de la reconnaissance.

(3) une analyse en profondeur de l'�limination des erreurs d'alignement. J'ai choisi deux structure classique Attention: l'attention Bahdanau et l'attention de Luong, l'effet d'alignement a encore �t� analys� sur ensemble de donn�es IAM. Comme on peut le voir sur la figure 6, DAN att�nuer efficacement le probl�me de l'alignement � long texte.

2. la reconnaissance du texte de la sc�ne, dans cette t�che, nous utilisons l'ensemble des donn�es de sept exp�riences de texte r�guli�res / irr�guli�res, en utilisant l'exp�rience de d�codeur � deux voies.

Les r�sultats pr�sent�s dans le tableau 5 par exemple. Comme on le voit, le DAN fait SOTA ou des effets comparables sur la plupart des ensembles de donn�es, en m�me temps, dans un r�sultat de reconnaissance irr�guli�re � deux dimensions identifiant les donn�es de texte figurant � une dimension nettement meilleure reconnaissance.

r�sum�

Cet article pr�sente un r�seau d'attention de d�couplage (DAN), pour r�soudre les erreurs d'alignement accumulent m�canisme de propagation de l'attention provoqu�e par le probl�me de d�codage. DAN reconnaissance texte de l'�criture et des sc�nes de reconnaissance de sc�ne texte deux applications ont montr� de meilleurs r�sultats. En comparaison avec les m�thodes pr�c�dentes de d�finir des m�canismes de l'attention, DAN plus souples et robustes.

De plus, il est mention vaut que les auteurs de l'�tude o� l'�quipe ce mod�le comme l'un des modules de la technologie cl�, l'int�gration avec d'autres technologies d'identification, ont particip� � cette signe de l'ann�e de rue ICDAR en anglais reconnaissance de caract�res de sc�ne (ICDAR 2019-Rects) international concurrence, et a remport� le champion de la t�che de reconnaissance ICDAR 2019-rects.

Route de la soie

Apprenez � conna�tre la Chine

AAAI 2020 | CHINE: r�seau de d�couplage Attention pour la reconnaissance de texte