Nommé texte orienté entité de reconnaissance Twitter

Li Gang, Huang Yongfeng

(NGN électronique Engineering Laboratory, l'Université de Tsinghua, Pékin 100084, Chine)

NER est une technologie de base dans le domaine du traitement du langage naturel. Ces dernières années, de micro-blogging et d'autres plate-forme de réseaux sociaux pour le développement rapide de sa forme unique de la technologie de reconnaissance des entités traditionnelles nommée présente de nouveaux défis. Il suggère également une méthode améliorée basée sur le modèle conditionnel de champ aléatoire pour microblogging court texte, les ambiguïtés sémantiques et d'autres caractéristiques, caractéristiques et introduit les vecteurs de caractéristiques de mots à thème extraites à un modèle de formation de source de données externe, les données microblog à grande échelle, les coûts de main-d'uvre standardisés les caractéristiques de grande, en prenant l'algorithme d'apprentissage actif basé sur la confiance minimum, plus le coût du modèle des effets de formation intensive de la main-d'uvre. Des expériences ont prouvé ensemble de données Weibo, ce qui augmente la valeur de 4,54% par rapport aux conditions classiques F méthode aléatoire.

reconnaissance d'entités nommées, microblogging, vecteur, CRFs mot, apprentissage actif

CLC: TP391

Code de document: A

DOI: 10,16157 / j.issn.0258-7998.179024

format de citation chinois: Gang, Huang Yongfeng Procédé de reconnaissance d'entités nommées, le texte Twitter Technologie électronique, 2018,44 (1): 118-120,124.

Anglais format de citation: Li Gang, Huang Yongfeng. Une approche de la reconnaissance de l'entité appelée à micro-blog . Application de la technique électronique, 2018,44 (1): 118-120,124.

0 introduction

NER (reconnaissance d'entités nommées) fait référence aux différentes entités du texte reconnu, comme les noms, les noms, les noms ou tout autre moyen d'identification unique , un traitement du langage naturel (Natural Language Processing, la PNL) est un très important la technologie de base. Ces dernières années, Twitter, Sina Weibo et d'autres nouvelle plate-forme de réseau social se développe rapidement devenir la nouvelle direction de NER. RITTER A et al., Un système T-NER est appliqué sur un Twitter, reconstruit nommé processus de reconnaissance de l'entité. Turienne J et al. pour le système de reconnaissance des entités nommées en utilisant un semi-supervisé, ce qui réduit considérablement le coût de la reconnaissance. Liu Xiaohua et al dans le cadre d'un semi-supervisé et un K combiner les CRF pour identifier les entités nommées Twitter, a obtenu de bons résultats.

D'après les travaux ci-dessus est Twitter, ne pas considérer chinoise profonde sémantique, et plus l'utilisation des ensembles de données d'auto-construction limitée, n'a pas tenu compte du coût et le manque de marqueurs artificiels, et doit donc être améliorée. Dans cet article, la reconnaissance de l'entité nommée pour microblogging chinois, il reconnaîtra comme un problème d'étiquetage de séquence par algorithme amélioré d'optimisation basée sur l'effet de la reconnaissance du modèle probabiliste. texte Weibo pour faire court, moins d'informations et de style informel, des caractéristiques ambiguës, l'introduction de sources de données externes pour extraire les caractéristiques profondes sémantiques, pour les grands ensembles de données microblogging problème manuel coûts de traitement, la mise en place d'algorithmes d'apprentissage actif au manuel plus petit Prise en compte promu effet de reconnaissance.

1 Twitter pour la méthode de reconnaissance des entités nommées

CoNLL2003 la norme de référence, étant donné un micro-blog, qui ont besoin d'identifier les noms, lieux, organisations et autres entités ont été nommés classe d'entité 4 .

L'étude du modèle de base à l'aide du modèle CRF .

1.1 Sélection entité

Caractéristiques de base de l'utilisation actuelle du mot mots de fonction de la parole et le type et l'emplacement avant et après le mot, qui est le modèle le plus CRF caractéristique sera adoptée. générant ainsi le modèle de base pour le modèle, ce qui correspond aux résultats expérimentaux en tant que ligne de base.

1.1.1 Caractéristiques du thème

modèle (Latent Dirichlet Allocation, LDA) est un modèle probabiliste sujet non supervisé. Sous chaque thème sont distribués dans une forte probabilité mots apparaissent, ces mots ont une forte corrélation avec ce thème, l'utilisation de résoudre liées à la performance de cette polysémie, synonymes et d'autres questions dans une certaine mesure. Modèle de formation utilise une source de données externe, vous pouvez spécifier à l'avance le nombre de sujets k.

Après avoir obtenu le modèle LDA, pour un thème k donnée par p (w | t), chaque sujet sera traité comme une caractéristique, chaque mot sera considéré comme un ensemble de formation de représentation vectorielle K dimensions de caractéristique k, chaque mot peut être exprimé sous la forme d'un vecteur k dimensions, à savoir:

Où, vi pour i-ième vecteur de mot, Àk représente le mot sur le poids du k-ième sujet, N étant la taille du vocabulaire.

1.1.2 mot vecteur caractéristique

Les mots dérivés du vecteur de représentation distribuée HINTON G E proposé. Un outil de formation de mot populaire vecteur est word2vec, proposé par MIKOLOV T en 2013. mot word2vec peut être mis en correspondance avec la dimension d espace vectoriel, désigné par la similitude d'espace vectoriel de similarité du texte sur la sémantique, l'aide de micro-blogging sémantique résoudre le problème d'ambiguïté.

Mot dimension vecteur généralement de 200 à 500, si le mot caractéristique vecteur est introduit en tant que modèle de CRF directement, le calcul excessif. Voici la nécessité d'utiliser leur similitude, et peut donc être simplifiée par la méthode clustering. Des expériences pour sélectionner les mots représentés comme vecteurs terme 200 à 500 dimensions, et puis utiliser k-means, les classes d'entités en entrée au modèle. On notera en particulier que, par rapport à un seul résultat de regroupement, une meilleure approche est un regroupement multi-couches (groupe multi-couches).

1.2 Modèle renforcer

Le traitement manuel coûteux corpus de micro-blogging traitement manuel afin d'obtenir une performance maximale du système avec des coûts de main-d'uvre minimaux augmentent, l'étude a utilisé des algorithmes d'apprentissage actif. algorithme d'apprentissage actif se compose de deux parties, l'une est classée, et l'autre est une stratégie d'échantillonnage . classificateur CRF en utilisant un modèle modifié décrit précédemment. méthode de la stratégie d'échantillonnage peut être utilisée.

L'échantillonnage incertitude est une mesure commune du contenu de l'information des échantillons, dans le modèle de marquage de séquence, l'incertitude d'échantillonnage peut être déterminée en se basant sur la confiance minimale (moins de confiance) LC (x).

Dans laquelle X représente un échantillon, y * est la plus grande probabilité correspondant à la marque. Pour une bonne formation modèle CRF, la probabilité correspondante peut être émis alors que chaque marquage micro-blog P. donne maintenant le cadre de l'algorithme.

Algorithme 1: algorithmes d'apprentissage actif fondé sur la confiance

Entrée: corpus DL marqué, DU corpus sans étiquette

Sortie: classificateur C

classificateur DL est formé avec C (classificateur CRF)

répéter l'opération:

expérience 2

L'expérience utilise trois ensembles de données, à savoir l'ensemble de la formation, l'ensemble jeu et test étendu. Dans lequel la marque barre 3000 comme le corpus de jeu de formation, corpus marque bar 2000 comme l'ensemble de test. 2 supplémentaires comme une extension pour définir 000 l'apprentissage actif, aucune étiquette. 5 millions par micro-blogging En plus de l'annulation de bruit lourd comme une source externe, respectivement, pour la formation du modèle de LDA et de formation de modèle vectoriel mot pour l'extraction de caractéristiques usage externe.

2.1 Critères d'évaluation

Les critères d'évaluation utilisés ici comprennent la précision de P (Precision), le taux de rappel R (retrait) et la valeur F1 (F1-mesure) 3 indicateurs. F1 est la moyenne harmonique des taux de précision et de rappel, il est un index complet.

2.2 Les données expérimentales et analyse

(1) comporte au moyen d'un ensemble d'apprentissage base de l'extracteur, la base de la modélisation, évaluée sur l'ensemble de test. Les résultats sont présentés dans le tableau 1. Ce résultat sera utilisé comme une comparaison de référence avec des expériences ultérieures.

(2) l'introduction de caractéristiques externes de la pluralité d'ensembles d'expériences. . La figure 1 est un côté gauche pour renforcer l'effet de l'introduction de la fonction de sujet, bien qu'efficace, mais pas évident. La figure 1 est un effet secondaire de droite comme présenté dans le modèle après le mot longs vecteurs 400 sont dimension cluster. valeur F1 à 400 le nombre de grappes est atteint 63,96%, nettement améliorée par rapport à l'état initial. La raison en est principalement les composantes du vecteur du mot implicite une syntaxe riche et sémantique des informations de contexte, le modèle interne LDA utilise un sac de modèle de mots prend en compte que la relation entre la co-occurrence du mot sans tenir compte du contexte, ce modèle simplifié mais entraînent inévitablement une perte d'information.

les résultats expérimentaux de HIBERARCHY représentés sur la figure 2, le pilier avant de la Fig. 4 représente l'effet de chaque regroupement de dimension unique (200, 300, respectivement, sont regroupés en classes grappes), représente la dernière utiliser les quatre premiers effet de regroupement en tant que regroupement multicouche, apparemment mieux que seul cluster.

L'ajout de toutes les caractéristiques externes à l'expérience du modèle de base, afin d'améliorer la valeur F165,41%.

(3) l'utilisation de méthodes d'apprentissage actifs afin de renforcer davantage le modèle. Renforcer l'effet comme indiqué sur la figure. Données détaillées dans le tableau 2. La courbe Model_ba ne représente que les caractéristiques externes du modèle sans l'effet de l'apprentissage actif. Model_la graphique représente l'ensemble du corpus d'apprentissage jetable comprenant un ensemble de DL et DU, y compris les dispositifs d'extension sont étiquetés (étiquette tout) et utilisé pour la formation du modèle. Model_al1, Model_al2 et model_al3 est d'utiliser des stratégies d'apprentissage actif, mais différents modèles de seuil. Dans l'ensemble, quel que soit le seuil à prendre, ne pas prendre l'initiative d'apprendre par rapport à l'apprentissage actif peut améliorer la valeur de la F1, et une convergence rapide.

Le tableau 2 illustre plus en détail les avantages de l'apprentissage actif. Model_la besoin de marquer de micro-blogging bandes 2080, environ 90.000 mots, le prix est trop artificiel. En revanche, les trois modèles d'apprentissage actif peut réduire considérablement la quantité de marque artificielle. F1 valeur Model_al2 qui est supérieure à Model_al30,25%, la quantité de marqueur améliorée seulement 12,9%, tandis que Model_al1 par rapport à Model_al2, F1 accroître seulement la valeur de 0,1%, mais le prix est d'augmenter la quantité de 17%, et plus de deux itérations fois. Pris ensemble, prendre Model_al2 que les résultats finaux. A cette époque, seuls les chiffres 457 micro-blog, environ 37.000 marqueurs, la valeur Fl atteint 67,23%, par rapport au modèle original et de promouvoir 4,54%.

3 Conclusion

Dans cet article, la méthode de reconnaissance de l'entité nommée pour microblogging chinois, tout d'abord d'introduire les caractéristiques externes du modèle CRF de formation, puis en utilisant l'algorithme d'apprentissage actif des résultats de formation intensive. Le travail réel que le mot chinois inefficaces affectent le travail de suivi, l'introduction de l'apprentissage actif est toujours la deuxième marque, ne favorise pas les tâches de reconnaissance à grande échelle. Ceux-ci ont besoin d'être amélioré dans les travaux futurs.

références

NADEAU D, enquête SEKINE S.Un de reconnaissance et de classification des entités nommées .Lingvisticae Investigationes, 2007,30 (1): 3-26.

RITTER A, S CLARK, Etzioni la reconnaissance d'entités O.Named dans tweets: une étude expérimentale .Proceedings de la Conférence sur les méthodes empiriques en langage naturel Processing.Association de linguistique informatique, 2011: 1524-1534.

turienne J, L Ratinov, les représentations Bengio Y.Word: une méthode simple et générale pour l'apprentissage semi-supervisé .Proceedings de la 48e réunion annuelle de l'association pour linguistics.Association de calcul pour la linguistique informatique, 2010: 384-394.

Liu Xiaohua, Zhang Shaodian, Wei Furu, et al.Recognizing entités nommées dans les tweets .Proceedings de la 49e assemblée annuelle de l'Association de linguistique informatique: technologies du langage humain-Volume 1. Association de linguistique informatique, 2011: 359-367.

tjong E F KIM SANG, DE Meulder F.Introduction à la tâche commune CoNLL-2003: reconnaissance Langue indépendante entité nommée .Proceedings de la septième conférence sur l'apprentissage du langage naturel à HLT-NAACL 2003-Vol-ume 4.Association de linguistique informatique, 2003: 142-147.

LAFFERTY J D, MCCALLUM A, F PEREIRA C N.Conditional champs aléatoires: des modèles probabilistes pour segmenter et l'étiquetage des données de séquence .Eighteenth Conférence internationale sur la machine Learning.Morgan Kaufmann Publishers Inc., 2001: 282-289.

BLEI D M, A NG Y, M JORDAN I.Latent allocation de Dirichlet .Journal de recherche Machine Learning, 20033: 993-1022.

HINTON G e.learning distribués représentations de concepts .Proceedings de la huitième Conférence annuelle de la Société des sciences cognitives, 1986,1: 12.

MIKOLOV T, SUTSKEVER I, CHEN K, et al.Distributed représentations des mots et des phrases et leur compositionalité .Advances à Neural Information Processing Systems, 2013: 3111-3119.

WU Y, KOZINTSEV I, J stratégies BOUGUET Y, ET al.Sampling pour l'apprentissage actif dans la récupération de photos personnelles .Multimedia et Expo 2006 IEEE Conférence internationale on.IEEE, 2006: 529-532.

SF a gagné première logistique de vol de drone Chine droit; MIIT: À partir des téléphones aujourd'hui l'application pré-installée doit être désinstallée | Matin Lei Feng
Précédent
Haute vallée allemande Xiao Feng: carte de conduite automatique de haute précision est la seule façon | voitures futurs Auditorium
Prochain
« Homard Interpol » incarnation Yuan Shanshan de la chaleur pour le premier partenaire de temps grâce Wang épicé partenaire d'interprétation
La recherche et de l'outillage pour la méthode de test de niveau du conseil d'administration PLC Qt
Académicien des six ensembles Qigao Wen et d'autres AI 2.0 colloques, Daniel universitaire qui a dit quoi? | 2017 Conférence mondiale Intelligence
romance fille ordinaire, elle est la réponse standard
Ma magasins de détail sans pilote tourné! Vous devez savoir ces
Feng a gagné American Film Award Lifetime Achievement, et traite parler de "jeunes"
9.2, film dieu Cameron et transe
Sur la base de la découverte du schéma de connexion à petites cellules double
optimisation de la couche physique de sécurité multiple système RFID d'antenne
Je suis dans Wangjing, « sont très bons »
Pékin usine de Hyundai à Chongqing propagandistes est entré dans l'amont Nouvelles
Ne pas essayer de cacher la vérité, le film coréen vraiment oser