AAAI 2020 | texte de la limite à - un procédé de détection d'un texte de forme arbitraire

Auteur | Wang Hao, la boucle

Modifier | Camel

Cet article provient de: CSIG Document d'analyse d'image et le comité de reconnaissance

Cet article USTC Chine, la collaboration de Alibaba, publié en 2020 AAAI papier: interprétation "All You Need Is Boundary Vers un texte arbitraire en forme Spotting".

Documents lien: https: //arxiv.org/pdf/1911.09550.pdf

Cet article présente un point limite pour représenter toute forme de méthode de texte pour résoudre le problème de la fin pour identifier tout texte sous la forme d'une image de scène naturelle. Représenté sur la Figure 1:

Zone de texte représentés par deux méthodes: 1 FIG.

Les procédés classiques avec un cadre rectangulaire externe pour représenter la limite de texte (Fig. 1, (a)), pour extraire des caractéristiques à l'intérieur du quadrilatère de Roi-Align (fig. 1, (b)), qui extrait une grande quantité de bruit de fond, ce qui affecte la reconnaissance réseau. Avec la représentation textuelle du point limite de forme arbitraire présente les avantages suivants:

  • Point limite précise peut décrire la forme du texte, fond éliminer le bruit causé par (figure 1 (c).);

  • Par le point limite, le texte peut être une forme quelconque tant que correction de texte horizontal, faciliter réseau de reconnaissance (figure 1 (d).);

  • Étant donné que la représentation des points limites, l'identification d'une propagation arrière de la branche d'optimiser la détection des points limites.

I. Contexte

Souvent étudié comme deux détection et l'identification de texte indépendant sous-tâches, mais en fait, les deux sont liés entre eux les uns avec les autres et peuvent promouvoir.

Quelques travaux récents commence attention problèmes de reconnaissance de bout en texte, et prennent des progrès significatifs. Texte visage irrégulière, une pluralité de paires de ces méthodes sera décrite au moyen d'une segmentation de la zone de texte. Une méthode de division entre nécessitent souvent de post-traitement complexe, et acquiert la zone de texte et la branche n'est pas la reconnaissance dérivable, texte pour identifier des informations sémantiques ne peuvent pas être branches pour optimiser la zone de texte de propagation inverse.

Pendant ce temps, une méthode de segmentation de caractères en utilisant la méthode d'identification, ce qui rend le lecteur série lose les capacités de modélisation et des caractères supplémentaires marqués nécessitent la reconnaissance de l'augmentation de la difficulté de formation et les coûts d'étiquetage.

En second lieu, le principe décrit

Bien que la boîte de candidat de point limite théoriquement prédit directement à partir de la prédiction horizontale (figure. 3 (d) ci-dessous), mais un texte de scène naturelle rendu diverses formes, angles et comme la transformation affine, ce qui en fait directement à partir de niveau zone de point limite de prédiction candidat devient très difficile, pas la stabilité.

Ainsi, nous avons prédit point limite au minimum circonscrite par exemple de texte quadrangulaire, de sorte que des angles différents, la forme du texte peut être tourné à une forme horizontale, la prédiction de point limite pour le réseau plus efficace, plus facile sur l'instance de texte aligné.

Les détails spécifiques de la méthode indiquée dans la figure 2,.

Figure 2. Le cadre général

Le procédé comprend ici trois parties: une boîte de direction du contour rectangulaire multi-détecteur (détecteur boîte rectangulaire orientée), un détecteur de point limite (le réseau de détection de point limite) et l'identification d'un réseau (réseau de reconnaissance). Pour multi-direction du cadre rectangulaire entourant le détecteur, la bande de papier est d'abord effectuée en utilisant le RPN d'extraction de zone candidate.

Afin de produire cadre rectangulaire multi-directionnel, la régression du décalage central dans le rectangle de destination, l'angle largeur, la hauteur et l'inclinaison des régions candidates extraites. Après l'obtention d'un cadre de contour rectangulaire, en utilisant une extraction de caractéristiques de rectangle, et les points de frontière de mot de régression des régions candidates extraites. Après avoir obtenu le point limite prédite, la caractéristique de la zone de texte est corrigée, et l'entrée corrigée à la reconnaissance de la fonction suivante.

Figure 3: illustre le procédé de régression

Le réseau de détection de point limite,. La figure 3 (c), le procédé selon la régression d'ancrage par défaut (point de référence set), ces points d'ancrage soit également placés sur les deux côtés longs de la plus petite zone de délimitation rectangulaire, K égale distance des points d'échantillonnage en même temps en tant que point frontière de mot provenant de chacune des instances du texte cible côtés longs. Dans ce document, le rapport prédit décalage de coordonnées moyen pour obtenir le point de la frontière, à savoir un vecteur de prédiction (points limites). Pour les points limites

Peut être obtenu à partir prédites décalage,

qui

points de tracé représentatifs définis. Pour identifier un réseau, dans lequel l'identificateur est utilisé pour prédire la séquence correcte de caractères. Tout d'abord, le codeur est une séquence de codage de correction étant caractérisé en

. Ensuite, sur la base du foyer F du décodeur dans une séquence de caractères

, Où T est la longueur de la séquence. Lorsque, pour la première t, par le décodeur de l'état de la couche de masquage

Et les résultats de l'étape précédente

les résultats prévus pour l'étape en cours. Le procédé décrit ici un mode de formation de fin complètement, la perte de la fonction du réseau comprend quatre sections,

qui

RPN pour la perte,

Un multi-direction du cadre rectangulaire des valeurs de perte de retour,

Pour la perte de valeur du point de retour limite,

Pour identifier la perte du réseau. Troisièmement, les principaux résultats et visualisations

Tableau 1 Du point de vue,

Tableau 1: Résultats sur l'ensemble du texte. « P », « R » et « F » représente la précision, le rappel et F tâches de détection métrique. « E2E » représente la fin à la fin, « Aucun » signifie qu'aucune identification d'un dictionnaire, le dictionnaire « Full » contient tous les mots dans l'ensemble de test.

Les méthodes décrites ici atteignent d'excellentes performances sur dataset courbe, nettement en avance les méthodes précédentes. , Il a amélioré la performance globale est principalement de trois points:

1) par rapport aux méthodes basées sur la segmentation MaskTextSpotter, ici décodeur de reconnaissance sur la base de l'attention, peut capturer des relations sémantiques entre les caractères, et chaque prédiction caractère MaskTextSpotter de façon indépendante;

2) par rapport aux autres procédés décrits ici en utilisant la fonction de point limite est corrigée zone de texte, présente de meilleures caractéristiques de reconnaissance;

3) grâce à un meilleur résultat de reconnaissance, étant donné que la détection de caractéristique partagée et l'identification, le résultat de la détection par l'impact caractérisé en outre améliorée.

Pour le tableau 2,

Le tableau 2, ICDAR2015 et ICDAR 2013 (DetEval) résultats. désignent l'utilisation d'un dictionnaire de reconnaissance fort, faible, et en général « S », « W » et « G ». * Indique les données d'apprentissage MLT2017 de formation.

Les méthodes décrites dans les données acquises ICDAR15 définies meilleurs résultats multidirectionnelles, grâce à la séquence, plus que reconnaisseur résultats précédents dans le cas où seul le dictionnaire général. ICDAR13 niveau défini dans les données, la méthode utilisée ici est le caractère non marqué, également obtenu un bon résultat.

Figure 4: Total-texte, ICDAR2015 et ICDAR 2013 Le texte sur les exemples de conclusions.

La figure 4 montre certains des résultats de la figure visuelle. Procédé de forme quelconque peut manipuler le texte et de traitement de puits vertical de texte, peut obtenir l'ordre de lecture correct du texte verticalement.

IV Résumé et discussion

Ce document présente un texte pour représenter les points limites du réseau d'extrémité en forme arbitraire, cette expérience prouve l'efficacité et supérieure en fin de tâche de reconnaissance. Détection et identification des tâches de la tâche point limite peut bénéficier cette représentation sous forme:

1) Etant donné que les points de frontière sont représentés guide, identifiant ainsi un dérivé de la branche de retour sera en outre d'optimiser le résultat de la détection;

2) Utiliser la fonction de point limite irrégulière interférence de fond de texte corrigé amovible, peut améliorer les performances de reconnaissance.

Pour plus d'informations AAAI 2020, au AAAI « 2020 Exchange Group "Effectué, plus le mode groupe: Ajout AI Yanxishe haut assistant (AIyanxishe2), notes" AAAI « invités dans le groupe.

AAAI 2020 | Université nationale Chiao Tung & modèle cloud proposé DCMN + de la science et de la technologie, à se fissurer « compréhension à la lecture » des problèmes, a remporté d'obtenir les perf
Précédent
Pourquoi est fonction de réseau de neurones inactif est pas disponible?
Prochain
capacité de généralisation de combinaison est pauvre? Essayez d'apprendre la profondeur du solveur combiné d'intégration
AAAI2020 | prochain roman épidémie de coronavirus, a également à la réunion?
Il est temps d'abandonner le réseau de neurones récurrents
projets publics WuHan.support officiellement recrutés amis
évolution nerveuse: une étude non approfondie
De Mahjong à « pesticides », a capturé la répartition de jeu AI
Le plus complet ! Quels sont les grands événements dans le domaine de la PNL en 2019 ?
couplets Fête du Printemps qui AI forte de se fâcher
AAAI 2020 | Université Zhongshan HCP laboratoire: basé sur l'arbre des stratégies d'apprentissage de renforcement progressif, le code open source a été
attaque sous-marque, la musique de nuage Netease fonction « conservateur »
« 2020 Technology Trend »: AI et la Chine, le monde futur de la technologie Mots-clés
Que plus de 200 milliards de marché chinois animal de compagnie?