Auteur | Wang Hao, la boucle
Modifier | Camel
Cet article provient de: CSIG Document d'analyse d'image et le comité de reconnaissance
Cet article USTC Chine, la collaboration de Alibaba, publié en 2020 AAAI papier: interprétation "All You Need Is Boundary Vers un texte arbitraire en forme Spotting".
Documents lien: https: //arxiv.org/pdf/1911.09550.pdf
Cet article présente un point limite pour représenter toute forme de méthode de texte pour résoudre le problème de la fin pour identifier tout texte sous la forme d'une image de scène naturelle. Représenté sur la Figure 1:
Zone de texte représentés par deux méthodes: 1 FIG.
Les procédés classiques avec un cadre rectangulaire externe pour représenter la limite de texte (Fig. 1, (a)), pour extraire des caractéristiques à l'intérieur du quadrilatère de Roi-Align (fig. 1, (b)), qui extrait une grande quantité de bruit de fond, ce qui affecte la reconnaissance réseau. Avec la représentation textuelle du point limite de forme arbitraire présente les avantages suivants:
-
Point limite précise peut décrire la forme du texte, fond éliminer le bruit causé par (figure 1 (c).);
-
Par le point limite, le texte peut être une forme quelconque tant que correction de texte horizontal, faciliter réseau de reconnaissance (figure 1 (d).);
-
Étant donné que la représentation des points limites, l'identification d'une propagation arrière de la branche d'optimiser la détection des points limites.
I. Contexte
Souvent étudié comme deux détection et l'identification de texte indépendant sous-tâches, mais en fait, les deux sont liés entre eux les uns avec les autres et peuvent promouvoir.
Quelques travaux récents commence attention problèmes de reconnaissance de bout en texte, et prennent des progrès significatifs. Texte visage irrégulière, une pluralité de paires de ces méthodes sera décrite au moyen d'une segmentation de la zone de texte. Une méthode de division entre nécessitent souvent de post-traitement complexe, et acquiert la zone de texte et la branche n'est pas la reconnaissance dérivable, texte pour identifier des informations sémantiques ne peuvent pas être branches pour optimiser la zone de texte de propagation inverse.
Pendant ce temps, une méthode de segmentation de caractères en utilisant la méthode d'identification, ce qui rend le lecteur série lose les capacités de modélisation et des caractères supplémentaires marqués nécessitent la reconnaissance de l'augmentation de la difficulté de formation et les coûts d'étiquetage.
En second lieu, le principe décrit
Bien que la boîte de candidat de point limite théoriquement prédit directement à partir de la prédiction horizontale (figure. 3 (d) ci-dessous), mais un texte de scène naturelle rendu diverses formes, angles et comme la transformation affine, ce qui en fait directement à partir de niveau zone de point limite de prédiction candidat devient très difficile, pas la stabilité.
Ainsi, nous avons prédit point limite au minimum circonscrite par exemple de texte quadrangulaire, de sorte que des angles différents, la forme du texte peut être tourné à une forme horizontale, la prédiction de point limite pour le réseau plus efficace, plus facile sur l'instance de texte aligné.
Les détails spécifiques de la méthode indiquée dans la figure 2,.
Figure 2. Le cadre général
Le procédé comprend ici trois parties: une boîte de direction du contour rectangulaire multi-détecteur (détecteur boîte rectangulaire orientée), un détecteur de point limite (le réseau de détection de point limite) et l'identification d'un réseau (réseau de reconnaissance). Pour multi-direction du cadre rectangulaire entourant le détecteur, la bande de papier est d'abord effectuée en utilisant le RPN d'extraction de zone candidate.
Afin de produire cadre rectangulaire multi-directionnel, la régression du décalage central dans le rectangle de destination, l'angle largeur, la hauteur et l'inclinaison des régions candidates extraites. Après l'obtention d'un cadre de contour rectangulaire, en utilisant une extraction de caractéristiques de rectangle, et les points de frontière de mot de régression des régions candidates extraites. Après avoir obtenu le point limite prédite, la caractéristique de la zone de texte est corrigée, et l'entrée corrigée à la reconnaissance de la fonction suivante.
Figure 3: illustre le procédé de régression
Le réseau de détection de point limite,. La figure 3 (c), le procédé selon la régression d'ancrage par défaut (point de référence set), ces points d'ancrage soit également placés sur les deux côtés longs de la plus petite zone de délimitation rectangulaire, K égale distance des points d'échantillonnage en même temps en tant que point frontière de mot provenant de chacune des instances du texte cible côtés longs. Dans ce document, le rapport prédit décalage de coordonnées moyen pour obtenir le point de la frontière, à savoir un vecteur de prédiction (points limites). Pour les points limites
Peut être obtenu à partir prédites décalage,
qui
points de tracé représentatifs définis. Pour identifier un réseau, dans lequel l'identificateur est utilisé pour prédire la séquence correcte de caractères. Tout d'abord, le codeur est une séquence de codage de correction étant caractérisé en
. Ensuite, sur la base du foyer F du décodeur dans une séquence de caractères
, Où T est la longueur de la séquence. Lorsque, pour la première t, par le décodeur de l'état de la couche de masquage
Et les résultats de l'étape précédente
les résultats prévus pour l'étape en cours. Le procédé décrit ici un mode de formation de fin complètement, la perte de la fonction du réseau comprend quatre sections,
qui
RPN pour la perte,
Un multi-direction du cadre rectangulaire des valeurs de perte de retour,
Pour la perte de valeur du point de retour limite,
Pour identifier la perte du réseau. Troisièmement, les principaux résultats et visualisations
Tableau 1 Du point de vue,
Tableau 1: Résultats sur l'ensemble du texte. « P », « R » et « F » représente la précision, le rappel et F tâches de détection métrique. « E2E » représente la fin à la fin, « Aucun » signifie qu'aucune identification d'un dictionnaire, le dictionnaire « Full » contient tous les mots dans l'ensemble de test.
Les méthodes décrites ici atteignent d'excellentes performances sur dataset courbe, nettement en avance les méthodes précédentes. , Il a amélioré la performance globale est principalement de trois points:
1) par rapport aux méthodes basées sur la segmentation MaskTextSpotter, ici décodeur de reconnaissance sur la base de l'attention, peut capturer des relations sémantiques entre les caractères, et chaque prédiction caractère MaskTextSpotter de façon indépendante;
2) par rapport aux autres procédés décrits ici en utilisant la fonction de point limite est corrigée zone de texte, présente de meilleures caractéristiques de reconnaissance;
3) grâce à un meilleur résultat de reconnaissance, étant donné que la détection de caractéristique partagée et l'identification, le résultat de la détection par l'impact caractérisé en outre améliorée.
Pour le tableau 2,
Le tableau 2, ICDAR2015 et ICDAR 2013 (DetEval) résultats. désignent l'utilisation d'un dictionnaire de reconnaissance fort, faible, et en général « S », « W » et « G ». * Indique les données d'apprentissage MLT2017 de formation.
Les méthodes décrites dans les données acquises ICDAR15 définies meilleurs résultats multidirectionnelles, grâce à la séquence, plus que reconnaisseur résultats précédents dans le cas où seul le dictionnaire général. ICDAR13 niveau défini dans les données, la méthode utilisée ici est le caractère non marqué, également obtenu un bon résultat.
Figure 4: Total-texte, ICDAR2015 et ICDAR 2013 Le texte sur les exemples de conclusions.
La figure 4 montre certains des résultats de la figure visuelle. Procédé de forme quelconque peut manipuler le texte et de traitement de puits vertical de texte, peut obtenir l'ordre de lecture correct du texte verticalement.
IV Résumé et discussion
Ce document présente un texte pour représenter les points limites du réseau d'extrémité en forme arbitraire, cette expérience prouve l'efficacité et supérieure en fin de tâche de reconnaissance. Détection et identification des tâches de la tâche point limite peut bénéficier cette représentation sous forme:
1) Etant donné que les points de frontière sont représentés guide, identifiant ainsi un dérivé de la branche de retour sera en outre d'optimiser le résultat de la détection;
2) Utiliser la fonction de point limite irrégulière interférence de fond de texte corrigé amovible, peut améliorer les performances de reconnaissance.
Pour plus d'informations AAAI 2020, au AAAI « 2020 Exchange Group "Effectué, plus le mode groupe: Ajout AI Yanxishe haut assistant (AIyanxishe2), notes" AAAI « invités dans le groupe.