Nomm� texte orient� entit� de reconnaissance Twitter

Li Gang, Huang Yongfeng

(NGN �lectronique Engineering Laboratory, l'Universit� de Tsinghua, P�kin 100084, Chine)

NER est une technologie de base dans le domaine du traitement du langage naturel. Ces derni�res ann�es, de micro-blogging et d'autres plate-forme de r�seaux sociaux pour le d�veloppement rapide de sa forme unique de la technologie de reconnaissance des entit�s traditionnelles nomm�e pr�sente de nouveaux d�fis. Il sugg�re �galement une m�thode am�lior�e bas�e sur le mod�le conditionnel de champ al�atoire pour microblogging court texte, les ambigu�t�s s�mantiques et d'autres caract�ristiques, caract�ristiques et introduit les vecteurs de caract�ristiques de mots � th�me extraites � un mod�le de formation de source de donn�es externe, les donn�es microblog � grande �chelle, les co�ts de main-d'uvre standardis�s les caract�ristiques de grande, en prenant l'algorithme d'apprentissage actif bas� sur la confiance minimum, plus le co�t du mod�le des effets de formation intensive de la main-d'uvre. Des exp�riences ont prouv� ensemble de donn�es Weibo, ce qui augmente la valeur de 4,54% par rapport aux conditions classiques F m�thode al�atoire.

reconnaissance d'entit�s nomm�es, microblogging, vecteur, CRFs mot, apprentissage actif

CLC: TP391

Code de document: A

DOI: 10,16157 / j.issn.0258-7998.179024

format de citation chinois: Gang, Huang Yongfeng Proc�d� de reconnaissance d'entit�s nomm�es, le texte Twitter Technologie �lectronique, 2018,44 (1): 118-120,124.

Anglais format de citation: Li Gang, Huang Yongfeng. Une approche de la reconnaissance de l'entit� appel�e � micro-blog . Application de la technique �lectronique, 2018,44 (1): 118-120,124.

0 introduction

NER (reconnaissance d'entit�s nomm�es) fait r�f�rence aux diff�rentes entit�s du texte reconnu, comme les noms, les noms, les noms ou tout autre moyen d'identification unique , un traitement du langage naturel (Natural Language Processing, la PNL) est un tr�s important la technologie de base. Ces derni�res ann�es, Twitter, Sina Weibo et d'autres nouvelle plate-forme de r�seau social se d�veloppe rapidement devenir la nouvelle direction de NER. RITTER A et al., Un syst�me T-NER est appliqu� sur un Twitter, reconstruit nomm� processus de reconnaissance de l'entit�. Turienne J et al. pour le syst�me de reconnaissance des entit�s nomm�es en utilisant un semi-supervis�, ce qui r�duit consid�rablement le co�t de la reconnaissance. Liu Xiaohua et al dans le cadre d'un semi-supervis� et un K combiner les CRF pour identifier les entit�s nomm�es Twitter, a obtenu de bons r�sultats.

D'apr�s les travaux ci-dessus est Twitter, ne pas consid�rer chinoise profonde s�mantique, et plus l'utilisation des ensembles de donn�es d'auto-construction limit�e, n'a pas tenu compte du co�t et le manque de marqueurs artificiels, et doit donc �tre am�lior�e. Dans cet article, la reconnaissance de l'entit� nomm�e pour microblogging chinois, il reconna�tra comme un probl�me d'�tiquetage de s�quence par algorithme am�lior� d'optimisation bas�e sur l'effet de la reconnaissance du mod�le probabiliste. texte Weibo pour faire court, moins d'informations et de style informel, des caract�ristiques ambigu�s, l'introduction de sources de donn�es externes pour extraire les caract�ristiques profondes s�mantiques, pour les grands ensembles de donn�es microblogging probl�me manuel co�ts de traitement, la mise en place d'algorithmes d'apprentissage actif au manuel plus petit Prise en compte promu effet de reconnaissance.

1 Twitter pour la m�thode de reconnaissance des entit�s nomm�es

CoNLL2003 la norme de r�f�rence, �tant donn� un micro-blog, qui ont besoin d'identifier les noms, lieux, organisations et autres entit�s ont �t� nomm�s classe d'entit� 4 .

L'�tude du mod�le de base � l'aide du mod�le CRF .

1.1 S�lection entit�

Caract�ristiques de base de l'utilisation actuelle du mot mots de fonction de la parole et le type et l'emplacement avant et apr�s le mot, qui est le mod�le le plus CRF caract�ristique sera adopt�e. g�n�rant ainsi le mod�le de base pour le mod�le, ce qui correspond aux r�sultats exp�rimentaux en tant que ligne de base.

1.1.1 Caract�ristiques du th�me

mod�le (Latent Dirichlet Allocation, LDA) est un mod�le probabiliste sujet non supervis�. Sous chaque th�me sont distribu�s dans une forte probabilit� mots apparaissent, ces mots ont une forte corr�lation avec ce th�me, l'utilisation de r�soudre li�es � la performance de cette polys�mie, synonymes et d'autres questions dans une certaine mesure. Mod�le de formation utilise une source de donn�es externe, vous pouvez sp�cifier � l'avance le nombre de sujets k.

Apr�s avoir obtenu le mod�le LDA, pour un th�me k donn�e par p (w | t), chaque sujet sera trait� comme une caract�ristique, chaque mot sera consid�r� comme un ensemble de formation de repr�sentation vectorielle K dimensions de caract�ristique k, chaque mot peut �tre exprim� sous la forme d'un vecteur k dimensions, � savoir:

O�, vi pour i-i�me vecteur de mot, �k repr�sente le mot sur le poids du k-i�me sujet, N �tant la taille du vocabulaire.

1.1.2 mot vecteur caract�ristique

Les mots d�riv�s du vecteur de repr�sentation distribu�e HINTON G E propos�. Un outil de formation de mot populaire vecteur est word2vec, propos� par MIKOLOV T en 2013. mot word2vec peut �tre mis en correspondance avec la dimension d espace vectoriel, d�sign� par la similitude d'espace vectoriel de similarit� du texte sur la s�mantique, l'aide de micro-blogging s�mantique r�soudre le probl�me d'ambigu�t�.

Mot dimension vecteur g�n�ralement de 200 � 500, si le mot caract�ristique vecteur est introduit en tant que mod�le de CRF directement, le calcul excessif. Voici la n�cessit� d'utiliser leur similitude, et peut donc �tre simplifi�e par la m�thode clustering. Des exp�riences pour s�lectionner les mots repr�sent�s comme vecteurs terme 200 � 500 dimensions, et puis utiliser k-means, les classes d'entit�s en entr�e au mod�le. On notera en particulier que, par rapport � un seul r�sultat de regroupement, une meilleure approche est un regroupement multi-couches (groupe multi-couches).

1.2 Mod�le renforcer

Le traitement manuel co�teux corpus de micro-blogging traitement manuel afin d'obtenir une performance maximale du syst�me avec des co�ts de main-d'uvre minimaux augmentent, l'�tude a utilis� des algorithmes d'apprentissage actif. algorithme d'apprentissage actif se compose de deux parties, l'une est class�e, et l'autre est une strat�gie d'�chantillonnage . classificateur CRF en utilisant un mod�le modifi� d�crit pr�c�demment. m�thode de la strat�gie d'�chantillonnage peut �tre utilis�e.

L'�chantillonnage incertitude est une mesure commune du contenu de l'information des �chantillons, dans le mod�le de marquage de s�quence, l'incertitude d'�chantillonnage peut �tre d�termin�e en se basant sur la confiance minimale (moins de confiance) LC (x).

Dans laquelle X repr�sente un �chantillon, y * est la plus grande probabilit� correspondant � la marque. Pour une bonne formation mod�le CRF, la probabilit� correspondante peut �tre �mis alors que chaque marquage micro-blog P. donne maintenant le cadre de l'algorithme.

Algorithme 1: algorithmes d'apprentissage actif fond� sur la confiance

Entr�e: corpus DL marqu�, DU corpus sans �tiquette

Sortie: classificateur C

classificateur DL est form� avec C (classificateur CRF)

r�p�ter l'op�ration:

exp�rience 2

L'exp�rience utilise trois ensembles de donn�es, � savoir l'ensemble de la formation, l'ensemble jeu et test �tendu. Dans lequel la marque barre 3000 comme le corpus de jeu de formation, corpus marque bar 2000 comme l'ensemble de test. 2 suppl�mentaires comme une extension pour d�finir 000 l'apprentissage actif, aucune �tiquette. 5 millions par micro-blogging En plus de l'annulation de bruit lourd comme une source externe, respectivement, pour la formation du mod�le de LDA et de formation de mod�le vectoriel mot pour l'extraction de caract�ristiques usage externe.

2.1 Crit�res d'�valuation

Les crit�res d'�valuation utilis�s ici comprennent la pr�cision de P (Precision), le taux de rappel R (retrait) et la valeur F1 (F1-mesure) 3 indicateurs. F1 est la moyenne harmonique des taux de pr�cision et de rappel, il est un index complet.

2.2 Les donn�es exp�rimentales et analyse

(1) comporte au moyen d'un ensemble d'apprentissage base de l'extracteur, la base de la mod�lisation, �valu�e sur l'ensemble de test. Les r�sultats sont pr�sent�s dans le tableau 1. Ce r�sultat sera utilis� comme une comparaison de r�f�rence avec des exp�riences ult�rieures.

(2) l'introduction de caract�ristiques externes de la pluralit� d'ensembles d'exp�riences. . La figure 1 est un c�t� gauche pour renforcer l'effet de l'introduction de la fonction de sujet, bien qu'efficace, mais pas �vident. La figure 1 est un effet secondaire de droite comme pr�sent� dans le mod�le apr�s le mot longs vecteurs 400 sont dimension cluster. valeur F1 � 400 le nombre de grappes est atteint 63,96%, nettement am�lior�e par rapport � l'�tat initial. La raison en est principalement les composantes du vecteur du mot implicite une syntaxe riche et s�mantique des informations de contexte, le mod�le interne LDA utilise un sac de mod�le de mots prend en compte que la relation entre la co-occurrence du mot sans tenir compte du contexte, ce mod�le simplifi� mais entra�nent in�vitablement une perte d'information.

les r�sultats exp�rimentaux de HIBERARCHY repr�sent�s sur la figure 2, le pilier avant de la Fig. 4 repr�sente l'effet de chaque regroupement de dimension unique (200, 300, respectivement, sont regroup�s en classes grappes), repr�sente la derni�re utiliser les quatre premiers effet de regroupement en tant que regroupement multicouche, apparemment mieux que seul cluster.

L'ajout de toutes les caract�ristiques externes � l'exp�rience du mod�le de base, afin d'am�liorer la valeur F165,41%.

(3) l'utilisation de m�thodes d'apprentissage actifs afin de renforcer davantage le mod�le. Renforcer l'effet comme indiqu� sur la figure. Donn�es d�taill�es dans le tableau 2. La courbe Model_ba ne repr�sente que les caract�ristiques externes du mod�le sans l'effet de l'apprentissage actif. Model_la graphique repr�sente l'ensemble du corpus d'apprentissage jetable comprenant un ensemble de DL et DU, y compris les dispositifs d'extension sont �tiquet�s (�tiquette tout) et utilis� pour la formation du mod�le. Model_al1, Model_al2 et model_al3 est d'utiliser des strat�gies d'apprentissage actif, mais diff�rents mod�les de seuil. Dans l'ensemble, quel que soit le seuil � prendre, ne pas prendre l'initiative d'apprendre par rapport � l'apprentissage actif peut am�liorer la valeur de la F1, et une convergence rapide.

Le tableau 2 illustre plus en d�tail les avantages de l'apprentissage actif. Model_la besoin de marquer de micro-blogging bandes 2080, environ 90.000 mots, le prix est trop artificiel. En revanche, les trois mod�les d'apprentissage actif peut r�duire consid�rablement la quantit� de marque artificielle. F1 valeur Model_al2 qui est sup�rieure � Model_al30,25%, la quantit� de marqueur am�lior�e seulement 12,9%, tandis que Model_al1 par rapport � Model_al2, F1 accro�tre seulement la valeur de 0,1%, mais le prix est d'augmenter la quantit� de 17%, et plus de deux it�rations fois. Pris ensemble, prendre Model_al2 que les r�sultats finaux. A cette �poque, seuls les chiffres 457 micro-blog, environ 37.000 marqueurs, la valeur Fl atteint 67,23%, par rapport au mod�le original et de promouvoir 4,54%.

3 Conclusion

Dans cet article, la m�thode de reconnaissance de l'entit� nomm�e pour microblogging chinois, tout d'abord d'introduire les caract�ristiques externes du mod�le CRF de formation, puis en utilisant l'algorithme d'apprentissage actif des r�sultats de formation intensive. Le travail r�el que le mot chinois inefficaces affectent le travail de suivi, l'introduction de l'apprentissage actif est toujours la deuxi�me marque, ne favorise pas les t�ches de reconnaissance � grande �chelle. Ceux-ci ont besoin d'�tre am�lior� dans les travaux futurs.

r�f�rences

NADEAU D, enqu�te SEKINE S.Un de reconnaissance et de classification des entit�s nomm�es .Lingvisticae Investigationes, 2007,30 (1): 3-26.

RITTER A, S CLARK, Etzioni la reconnaissance d'entit�s O.Named dans tweets: une �tude exp�rimentale .Proceedings de la Conf�rence sur les m�thodes empiriques en langage naturel Processing.Association de linguistique informatique, 2011: 1524-1534.

turienne J, L Ratinov, les repr�sentations Bengio Y.Word: une m�thode simple et g�n�rale pour l'apprentissage semi-supervis� .Proceedings de la 48e r�union annuelle de l'association pour linguistics.Association de calcul pour la linguistique informatique, 2010: 384-394.

Liu Xiaohua, Zhang Shaodian, Wei Furu, et al.Recognizing entit�s nomm�es dans les tweets .Proceedings de la 49e assembl�e annuelle de l'Association de linguistique informatique: technologies du langage humain-Volume 1. Association de linguistique informatique, 2011: 359-367.

tjong E F KIM SANG, DE Meulder F.Introduction � la t�che commune CoNLL-2003: reconnaissance Langue ind�pendante entit� nomm�e .Proceedings de la septi�me conf�rence sur l'apprentissage du langage naturel � HLT-NAACL 2003-Vol-ume 4.Association de linguistique informatique, 2003: 142-147.

LAFFERTY J D, MCCALLUM A, F PEREIRA C N.Conditional champs al�atoires: des mod�les probabilistes pour segmenter et l'�tiquetage des donn�es de s�quence .Eighteenth Conf�rence internationale sur la machine Learning.Morgan Kaufmann Publishers Inc., 2001: 282-289.

BLEI D M, A NG Y, M JORDAN I.Latent allocation de Dirichlet .Journal de recherche Machine Learning, 20033: 993-1022.

HINTON G e.learning distribu�s repr�sentations de concepts .Proceedings de la huiti�me Conf�rence annuelle de la Soci�t� des sciences cognitives, 1986,1: 12.

MIKOLOV T, SUTSKEVER I, CHEN K, et al.Distributed repr�sentations des mots et des phrases et leur compositionalit� .Advances � Neural Information Processing Systems, 2013: 3111-3119.

WU Y, KOZINTSEV I, J strat�gies BOUGUET Y, ET al.Sampling pour l'apprentissage actif dans la r�cup�ration de photos personnelles .Multimedia et Expo 2006 IEEE Conf�rence internationale on.IEEE, 2006: 529-532.

Route de la soie

Apprenez � conna�tre la Chine

Nomm� texte orient� entit� de reconnaissance Twitter