AAAI 2020 | CHINE: réseau de découplage Attention pour la reconnaissance de texte

Auteur | Wang Tianwei

Modifier |, dix ans

Cet article à l'Institut sud de la Chine Université et associé ensemble pour terminer, était de 20 papiers AAAI-acceptés « découplé Network Attention pour la reconnaissance de texte » interprétation.

https://arxiv.org/abs/1912.10205

fond

Avec le développement rapide de l'apprentissage en profondeur de nombreuses nouvelles façons ces dernières années pour identifier les domaines du texte est apparu. mécanisme de l'attention est l'une des méthodes les plus avancées pour identifier le texte actuel, qui a fait particulièrement bon effet sur la tâche de reconnaissance de texte de la scène.

Cependant, le mécanisme de fonctionnement en cours d'alignement de mise au point dépend étape de décodage de l'information, ce qui conduit à une étape de décodage erreur sur une ou confusion, le mécanisme d'alignement d'attention génère une erreur, cette erreur s'accumule et se propager. Le problème dans le long texte écrit à la main reflète plus évidente.

Pour remédier à cette situation, nous proposons une attention réseau de découplage (DAN), le réseau se concentrerait découpleur de phase d'alignement à partir du décodeur, l'étape ne dépend plus de l'information de décodage qui est aligné. Les expériences montrent que, DAN atténuer efficacement le problème des mécanismes d'erreur d'alignement de l'attention et fait SOTA ou un effet considérable sur la reconnaissance de l'écriture manuscrite et de la scène à la fois scène de textes.

méthodes Présentation

DAN se compose de trois modules: un extracteur de caractéristiques (FE), le module d'alignement de convolution (CAM), couplé au décodeur (DTD). caractéristique figure FE extraction d'une pluralité d'échelles l'image d'entrée; caractérisé en ce récepteur extracteur de caractéristiques de CAM multiéchelle, la taille d'une convolution complète en utilisant la structure, les caractéristiques de sortie et analogues de la figure carte de l'attention; DTD finalement décodé résultat de reconnaissance.

module d'alignement convolution

Un module de convolution utilise une structure d'alignement complet de convolution, la couche L composée de convolution. combine module d'entrée caractéristiques des différents processus d'extraction de caractéristiques à l'échelle, l'étape de déconvolution, et chaque élément peut être ajouté à l'étape de convolution caractéristiques correspondantes. MaxT à travers le module de sortie est activé après la fonction sigmoïde Zhang carte d'attention. Après chaque attention la carte après la normalisation. décodage maxT est le pas de temps maximum, à savoir, le nombre maximum de caractères dans le texte. Texte long dans la tâche de reconnaissance de l'écriture manuscrite, la valeur peut être réglée sur 150, 200 maxT, SceneText la tâche de reconnaissance au niveau des mots, la valeur peut être réglée sur 25 maxT.

En modifiant la taille de pas et l'opération de convolution CAM FE, le DAN peut être commuté entre flexible forme à une ou deux dimensions, en réponse à des scénarios d'application différents. La figure FE caractéristique de sortie d'un très pressé, à savoir une dimension sous forme de l'identification, la reconnaissance DAN règles applicables au texte écrit à la main longue, au cours de la forme à deux dimensions, le DAN applicable au scénario de reconnaissance de texte irrégulière. Dans différents scénarios d'application, DAN flexible et efficace, ont atteint SOTA ou un effet considérable.

décodeur découpler

Après le découplage décodeur similaire à décodeur attention à d'autres processus de fonctionnement, la fonction dimensionnelle carte d'attention de la figure et une somme pondérée pour chaque caractère sont séquentiellement décodés. En même temps, les résultats de décodage étape précédente après intégration, impliqué dans l'étape de décodage en cours afin de renforcer l'apprentissage sémantique. la formation DAN a besoin d'étiquetage seulement de la classe de caractères, ne nécessite pas d'informations de position de chaque caractère.

expérience

1. Hors ligne texte écrit à la main, dans la tâche de reconnaissance de texte écrit à la main hors ligne, nous avons sélectionné deux ensembles de données IAM et expérience RIMES.

(1) Le résultat des comparaisons. DAN peut être vu de Tableau2 sont d'excellents résultats dans les deux ensembles de données.

(2) des expériences d'ablation. Dans cet article, la conception du module CAM sont discutées, deux conclusions :. 1 nombre CAM de couches doit être assez profond pour obtenir de bons résultats. 2. Tant que un cadre raisonnable, la taille des canaux de sortie MAXt peu d'effet sur le résultat de la reconnaissance.

(3) une analyse en profondeur de l'élimination des erreurs d'alignement. J'ai choisi deux structure classique Attention: l'attention Bahdanau et l'attention de Luong, l'effet d'alignement a encore été analysé sur ensemble de données IAM. Comme on peut le voir sur la figure 6, DAN atténuer efficacement le problème de l'alignement à long texte.

2. la reconnaissance du texte de la scène, dans cette tâche, nous utilisons l'ensemble des données de sept expériences de texte régulières / irrégulières, en utilisant l'expérience de décodeur à deux voies.

Les résultats présentés dans le tableau 5 par exemple. Comme on le voit, le DAN fait SOTA ou des effets comparables sur la plupart des ensembles de données, en même temps, dans un résultat de reconnaissance irrégulière à deux dimensions identifiant les données de texte figurant à une dimension nettement meilleure reconnaissance.

résumé

Cet article présente un réseau d'attention de découplage (DAN), pour résoudre les erreurs d'alignement accumulent mécanisme de propagation de l'attention provoquée par le problème de décodage. DAN reconnaissance texte de l'écriture et des scènes de reconnaissance de scène texte deux applications ont montré de meilleurs résultats. En comparaison avec les méthodes précédentes de définir des mécanismes de l'attention, DAN plus souples et robustes.

De plus, il est mention vaut que les auteurs de l'étude où l'équipe ce modèle comme l'un des modules de la technologie clé, l'intégration avec d'autres technologies d'identification, ont participé à cette signe de l'année de rue ICDAR en anglais reconnaissance de caractères de scène (ICDAR 2019-Rects) international concurrence, et a remporté le champion de la tâche de reconnaissance ICDAR 2019-rects.

brevet délivré Google GAN, un ensemble de réseau de formation de combat est dans le sac
Précédent
Livre d'aujourd'hui | try-réseau virtuel, la base de comptage de la population, l'apprentissage des fonds fédéraux, la détection cible
Prochain
Déclarer la guerre Deepfake
Institut de recherche sur l'intelligence artificielle du Nord a été fondée: l'intégration des ressources scolaires AI, la construction du modèle « nouvelle ingénierie »
Pour l'apprentissage continu sur le réseau: un nouveau algorithmes d'intelligence artificielle permettent pas plus « catastrophique oubli »
Livre d'aujourd'hui | vêtements et image corporelle générée essayer virtuelle, l'apprentissage en profondeur robuste, le style de migration d'image
IPSC 2020 de papier | supplémentaire objectif avant gaussienne pour faciliter l'ignorance de la diversité négative
Classement de la plupart autorité universitaires influents du monde liste AI 2000, AI recherche met en évidence le manque de chinois
AAAI 2020 | Nord: convolution de dessin en plusieurs étapes de l'algorithme d'auto-apprentissage supervisé
AAAI 2020 | USTC: diagnostic neurocognitif système éducatif intelligent, l'apprentissage à partir des données d'interfonctionnement fonction
2019, champ ML et la PNL de l'axe de recherche top dix
AI technologie open source marques équipe la plus forte, GMIC * AI source d'un Sommet mondial Developer (Beijing) est venu
Aujourd'hui Papier | équation différentielle stochastique, ruisselait reconnaissance automatique de la parole, la classification d'images, connectivité dense réseaux convolutifs
Jeff Dean personnellement: en 2019, Google AI et subvertir quoi? (Apprendre à)