AAAI 2020 | texte de la limite � - un proc�d� de d�tection d'un texte de forme arbitraire

Auteur | Wang Hao, la boucle

Modifier | Camel

Cet article provient de: CSIG Document d'analyse d'image et le comit� de reconnaissance

Cet article USTC Chine, la collaboration de Alibaba, publi� en 2020 AAAI papier: interpr�tation "All You Need Is Boundary Vers un texte arbitraire en forme Spotting".

Documents lien: https: //arxiv.org/pdf/1911.09550.pdf

Cet article pr�sente un point limite pour repr�senter toute forme de m�thode de texte pour r�soudre le probl�me de la fin pour identifier tout texte sous la forme d'une image de sc�ne naturelle. Repr�sent� sur la Figure 1:

Zone de texte repr�sent�s par deux m�thodes: 1 FIG.

Les proc�d�s classiques avec un cadre rectangulaire externe pour repr�senter la limite de texte (Fig. 1, (a)), pour extraire des caract�ristiques � l'int�rieur du quadrilat�re de Roi-Align (fig. 1, (b)), qui extrait une grande quantit� de bruit de fond, ce qui affecte la reconnaissance r�seau. Avec la repr�sentation textuelle du point limite de forme arbitraire pr�sente les avantages suivants:

Point limite pr�cise peut d�crire la forme du texte, fond �liminer le bruit caus� par (figure 1 (c).);
Par le point limite, le texte peut �tre une forme quelconque tant que correction de texte horizontal, faciliter r�seau de reconnaissance (figure 1 (d).);
�tant donn� que la repr�sentation des points limites, l'identification d'une propagation arri�re de la branche d'optimiser la d�tection des points limites.

I. Contexte

Souvent �tudi� comme deux d�tection et l'identification de texte ind�pendant sous-t�ches, mais en fait, les deux sont li�s entre eux les uns avec les autres et peuvent promouvoir.

Quelques travaux r�cents commence attention probl�mes de reconnaissance de bout en texte, et prennent des progr�s significatifs. Texte visage irr�guli�re, une pluralit� de paires de ces m�thodes sera d�crite au moyen d'une segmentation de la zone de texte. Une m�thode de division entre n�cessitent souvent de post-traitement complexe, et acquiert la zone de texte et la branche n'est pas la reconnaissance d�rivable, texte pour identifier des informations s�mantiques ne peuvent pas �tre branches pour optimiser la zone de texte de propagation inverse.

Pendant ce temps, une m�thode de segmentation de caract�res en utilisant la m�thode d'identification, ce qui rend le lecteur s�rie lose les capacit�s de mod�lisation et des caract�res suppl�mentaires marqu�s n�cessitent la reconnaissance de l'augmentation de la difficult� de formation et les co�ts d'�tiquetage.

En second lieu, le principe d�crit

Bien que la bo�te de candidat de point limite th�oriquement pr�dit directement � partir de la pr�diction horizontale (figure. 3 (d) ci-dessous), mais un texte de sc�ne naturelle rendu diverses formes, angles et comme la transformation affine, ce qui en fait directement � partir de niveau zone de point limite de pr�diction candidat devient tr�s difficile, pas la stabilit�.

Ainsi, nous avons pr�dit point limite au minimum circonscrite par exemple de texte quadrangulaire, de sorte que des angles diff�rents, la forme du texte peut �tre tourn� � une forme horizontale, la pr�diction de point limite pour le r�seau plus efficace, plus facile sur l'instance de texte align�.

Les d�tails sp�cifiques de la m�thode indiqu�e dans la figure 2,.

Figure 2. Le cadre g�n�ral

Le proc�d� comprend ici trois parties: une bo�te de direction du contour rectangulaire multi-d�tecteur (d�tecteur bo�te rectangulaire orient�e), un d�tecteur de point limite (le r�seau de d�tection de point limite) et l'identification d'un r�seau (r�seau de reconnaissance). Pour multi-direction du cadre rectangulaire entourant le d�tecteur, la bande de papier est d'abord effectu�e en utilisant le RPN d'extraction de zone candidate.

Afin de produire cadre rectangulaire multi-directionnel, la r�gression du d�calage central dans le rectangle de destination, l'angle largeur, la hauteur et l'inclinaison des r�gions candidates extraites. Apr�s l'obtention d'un cadre de contour rectangulaire, en utilisant une extraction de caract�ristiques de rectangle, et les points de fronti�re de mot de r�gression des r�gions candidates extraites. Apr�s avoir obtenu le point limite pr�dite, la caract�ristique de la zone de texte est corrig�e, et l'entr�e corrig�e � la reconnaissance de la fonction suivante.

Figure 3: illustre le proc�d� de r�gression

Le r�seau de d�tection de point limite,. La figure 3 (c), le proc�d� selon la r�gression d'ancrage par d�faut (point de r�f�rence set), ces points d'ancrage soit �galement plac�s sur les deux c�t�s longs de la plus petite zone de d�limitation rectangulaire, K �gale distance des points d'�chantillonnage en m�me temps en tant que point fronti�re de mot provenant de chacune des instances du texte cible c�t�s longs. Dans ce document, le rapport pr�dit d�calage de coordonn�es moyen pour obtenir le point de la fronti�re, � savoir un vecteur de pr�diction (points limites). Pour les points limites

Peut �tre obtenu � partir pr�dites d�calage,

qui

points de trac� repr�sentatifs d�finis. Pour identifier un r�seau, dans lequel l'identificateur est utilis� pour pr�dire la s�quence correcte de caract�res. Tout d'abord, le codeur est une s�quence de codage de correction �tant caract�ris� en

. Ensuite, sur la base du foyer F du d�codeur dans une s�quence de caract�res

, O� T est la longueur de la s�quence. Lorsque, pour la premi�re t, par le d�codeur de l'�tat de la couche de masquage

Et les r�sultats de l'�tape pr�c�dente

les r�sultats pr�vus pour l'�tape en cours. Le proc�d� d�crit ici un mode de formation de fin compl�tement, la perte de la fonction du r�seau comprend quatre sections,

qui

RPN pour la perte,

Un multi-direction du cadre rectangulaire des valeurs de perte de retour,

Pour la perte de valeur du point de retour limite,

Pour identifier la perte du r�seau. Troisi�mement, les principaux r�sultats et visualisations

Tableau 1 Du point de vue,

Tableau 1: R�sultats sur l'ensemble du texte. � P �, � R � et � F � repr�sente la pr�cision, le rappel et F t�ches de d�tection m�trique. � E2E � repr�sente la fin � la fin, � Aucun � signifie qu'aucune identification d'un dictionnaire, le dictionnaire � Full � contient tous les mots dans l'ensemble de test.

Les m�thodes d�crites ici atteignent d'excellentes performances sur dataset courbe, nettement en avance les m�thodes pr�c�dentes. , Il a am�lior� la performance globale est principalement de trois points:

1) par rapport aux m�thodes bas�es sur la segmentation MaskTextSpotter, ici d�codeur de reconnaissance sur la base de l'attention, peut capturer des relations s�mantiques entre les caract�res, et chaque pr�diction caract�re MaskTextSpotter de fa�on ind�pendante;

2) par rapport aux autres proc�d�s d�crits ici en utilisant la fonction de point limite est corrig�e zone de texte, pr�sente de meilleures caract�ristiques de reconnaissance;

3) gr�ce � un meilleur r�sultat de reconnaissance, �tant donn� que la d�tection de caract�ristique partag�e et l'identification, le r�sultat de la d�tection par l'impact caract�ris� en outre am�lior�e.

Pour le tableau 2,

Le tableau 2, ICDAR2015 et ICDAR 2013 (DetEval) r�sultats. d�signent l'utilisation d'un dictionnaire de reconnaissance fort, faible, et en g�n�ral � S �, � W � et � G �. * Indique les donn�es d'apprentissage MLT2017 de formation.

Les m�thodes d�crites dans les donn�es acquises ICDAR15 d�finies meilleurs r�sultats multidirectionnelles, gr�ce � la s�quence, plus que reconnaisseur r�sultats pr�c�dents dans le cas o� seul le dictionnaire g�n�ral. ICDAR13 niveau d�fini dans les donn�es, la m�thode utilis�e ici est le caract�re non marqu�, �galement obtenu un bon r�sultat.

Figure 4: Total-texte, ICDAR2015 et ICDAR 2013 Le texte sur les exemples de conclusions.

La figure 4 montre certains des r�sultats de la figure visuelle. Proc�d� de forme quelconque peut manipuler le texte et de traitement de puits vertical de texte, peut obtenir l'ordre de lecture correct du texte verticalement.

IV R�sum� et discussion

Ce document pr�sente un texte pour repr�senter les points limites du r�seau d'extr�mit� en forme arbitraire, cette exp�rience prouve l'efficacit� et sup�rieure en fin de t�che de reconnaissance. D�tection et identification des t�ches de la t�che point limite peut b�n�ficier cette repr�sentation sous forme:

1) Etant donn� que les points de fronti�re sont repr�sent�s guide, identifiant ainsi un d�riv� de la branche de retour sera en outre d'optimiser le r�sultat de la d�tection;

2) Utiliser la fonction de point limite irr�guli�re interf�rence de fond de texte corrig� amovible, peut am�liorer les performances de reconnaissance.

Pour plus d'informations AAAI 2020, au AAAI � 2020 Exchange Group "Effectu�, plus le mode groupe: Ajout AI Yanxishe haut assistant (AIyanxishe2), notes" AAAI � invit�s dans le groupe.

Route de la soie

Apprenez � conna�tre la Chine

AAAI 2020 | texte de la limite � - un proc�d� de d�tection d'un texte de forme arbitraire