Auteur : Ajit Rajasekharan

Traduit par : Chen Zhiyan

Relecture : Wang Yutong

Cet article est � propos de 8700 mots, Lecture recommand�e 10 minutes et plus.

Cet article pr�sente une m�thode de reconnaissance d'entit�s nomm�es (NER) non supervis�e.

Figure 1. Exemples de phrases montrant le marquage NER non supervis� d'un BERT non ajust� (bert-large-cased).

L'image ci-dessus ne s�lectionne que quelques types d'entit�s �tiquet�s avec cette approche (BERT). L'�tiquetage de 500 phrases donne environ 1000 types d'entit�s uniques, dont certains correspondent � des �tiquettes synth�tiques, comme indiqu� ci-dessus.

Le mod�le BERT ne peut pas faire la distinction entre GENE et PROTEIN car les descripteurs de ces entit�s se situent dans la m�me r�gion de queue que la distribution pr�dite des termes masqu�s (ils ne peuvent donc pas �tre distingu�s des mots du vocabulaire de base). La distinction de ces entit�s �troitement li�es peut n�cessiter un ajustement MLM sur un corpus sp�cifique � un domaine, ou une pr�-formation avec un vocabulaire personnalis� dans scratch (expliqu� plus loin).

TL;DR

Dans le traitement du langage naturel, afin d'identifier les entit�s d'int�r�t (NER) dans les phrases, telles que les personnes, les lieux, les organisations, etc., nous devons tokeniser les phrases. o� nous pouvons �tiqueter chaque phrase manuellement, ou par une m�thode automatique (g�n�ralement en utilisant une heuristique pour cr�er un ensemble de donn�es bruyant/faiblement �tiquet�). Ces phrases �tiquet�es sont ensuite utilis�es pour former un mod�le de reconnaissance d'entit�s, qui peut �tre consid�r� comme une t�che d'apprentissage supervis�.

Cet article d�crit une m�thode de NER non supervis�e. Le NER est effectu� sans supervision sans phrases �tiquet�es � l'aide du mod�le BERT, et le mod�le BERT n'est non supervis� que sur un corpus qui masque la cible du mod�le de mot.

Le mod�le a obtenu un score F1 de 97�% sur un petit ensemble de donn�es de 25 types d'entit�s (corpus Wikitext) et un score F1 de 86�% sur le corpus CoNLL-2003 pour les personnes et les lieux. Pour la personne, le lieu et l'organisation du corpus CoNLL-2003, le score F1 est faible � seulement 76�%, principalement en raison de l'ambigu�t� des entit�s dans les phrases (expliqu�e dans la section d'�valuation ci-dessous). Les deux tests ont �t� effectu�s sans aucun pr�-entra�nement/ajustement du mod�le sur les donn�es test�es (contrairement au pr�-entra�nement/ajustement du mod�le sur des donn�es sp�cifiques � un domaine ou � l'aide de donn�es �tiquet�es dans un entra�nement supervis�).

Comment �a marche?

Si nous devions demander quel �tait le type d'entit� d'un terme (terme faisant r�f�rence � des mots et des phrases dans un article), m�me si nous n'avions jamais vu le terme auparavant, nous pourrions � peu pr�s deviner la prononciation ou la structure de la phrase du terme. est:

La structure des sous-mots d'un terme fournit des indices sur son type d'entit�. Nonenbury est _____.

C'est un nom de ville apocryphe, mais le suffixe "bury" sugg�re qu'il pourrait s'agir d'un lieu. M�me sans aucun contexte � ce stade, le suffixe du terme donne un indice du type d'entit�.

La structure de la phrase fournit des indices sur le type d'entit� d'un terme. Il a vol� de _____ � Chester.

Le contexte de la phrase ici donne un indice du type d'entit�, et le terme inconnu est un lieu. M�me si vous ne l'avez jamais vu auparavant, vous pouvez deviner qu'un espace vide dans une phrase est un lieu (ex : Nonenbury).

Le frontal MLM de BERT (Masked Language Model head) (MLM - Figure 7) peut faire des pr�dictions sur les candidats masqu�s ci-dessus, comme mentionn� pr�c�demment : son objectif de formation est d'apprendre en pr�disant des mots vides dans des phrases. Cette sortie apprise est ensuite utilis�e lors de l'inf�rence pour faire des pr�dictions sur des termes masqu�s bas�s sur des distributions de probabilit� sur le vocabulaire fixe de BERT. Cette distribution de sortie a une queue significativement courte (environ moins de 0,1�% du total) qui inclut des candidats pour le terme type d'entit� contextuelle, et cette courte queue est l'identit� du terme contextuel repr�sent� par le vocabulaire BERT. Par exemple, les marqueurs contextuels pour les positions masqu�es dans une phrase sont les suivants�:

Nonenbury est _____.

Pr�dictions de sensibilit� au contexte�: village (Village), ville (hameau, Hameau), village paroissial, ferme, ville (Town, town).

Le vocabulaire fixe BERT (28996 mots pour bert-large-cased) est un ensemble de descripteurs communs (ex : noms propres, noms communs, pronoms, etc.). Un sous-ensemble (�ventuellement superpos�) de cet ensemble de descripteurs est obtenu par le processus de regroupement suivant, caract�ris� par un type d'entit� ind�pendant des termes de contexte de phrase. Ces sous-ensembles sont des identificateurs de termes ind�pendants du contexte. Le processus d'obtention de types d'entit�s proches des identifiants contextuels dans le vocabulaire de BERT est le suivant�:

Impl�menter la fonction de correspondance la plus proche (bas�e sur la similarit� cosinus des int�grations de mots) dans l'espace d'int�gration du vocabulaire BERT, la fonction de correspondance entre les jetons/clusters contextuels et les jetons/clusters ind�pendants du contexte produit un jeton repr�sentant l'�tiquette NER du terme Un sous-ensemble d'identificateurs ind�pendants du contexte.

Plus pr�cis�ment, m ensembles de termes {B1, B2, C3, . , ... {Cn1, Cn, Cn, ... Ckn} constituent des identifiants ind�pendants du contexte, et g�n�rent un sous-ensemble d'identifiants ind�pendants du contexte avec des balises NER (voir Figure 2 ci-dessous).

Figure 2. Marquage NER des phrases

Apr�s un pr�traitement minimal, les phrases avec des mots masqu�s sont introduites dans le mod�le.

Obtenez les 10 premiers termes pr�dits des 28996 mots du vocabulaire BERT.

Les 10 termes sont r�organis�s par une fonction dans l'espace d'int�gration de mots de BERT.

Les k premiers termes apr�s r�organisation et 6000 clusters (calcul hors ligne) sont entr�s dans une fonction de correspondance de cluster qui g�n�re des clusters correspondants.

Les libell�s de ces clusters (qui peuvent �tre des libell�s manuels uniques ou utilis�s dans certains cas d'utilisation) sont ensuite agr�g�s pour g�n�rer des libell�s NER. Les fonctions qui ex�cutent 3, 4 et 5 dans la figure utilisent toutes la similarit� cosinus entre les vecteurs de mots dans l'espace d'int�gration BERT, et la g�n�ration d'environ 6000 clusters hors ligne en m�me temps se fait �galement en calculant la similarit� cosinus de l'espace d'int�gration de mots BERT. . La taille impliqu�e par le mod�le de base BERT dans la figure est de 768. L'exemple de grande casse BERT dans le texte a une taille implicite de 1024.

Compte tenu du nombre de jetons ind�pendants du contexte, des milliers de jetons (6000 pour bert-large-case) peuvent �tre automatiquement obtenus � partir du vocabulaire de BERT. Avec cette approche, l'identification non supervis�e d'un grand nombre de types d'entit�s � un niveau fin peut �tre r�alis�e sans �tiqueter les donn�es.

Les m�thodes NER non supervis�es ci-dessus sont largement utilis�es�:

Avec d'autres mots dans le vocabulaire BERT, les int�grations de mots originales de BERT peuvent capturer des informations utiles et s�parables de BERT (distingu�es par moins de 0,1�% des queues d'histogramme de taille de vocabulaire), avec lesquelles plus de 6000 clusters peuvent �tre g�n�r�s.
La sortie du mod�le BERT avec la t�te MLM est transform�e et utilis�e pour faire des pr�dictions sur des mots masqu�s. Ces pr�dictions ont �galement une queue distincte qui peut �tre utilis�e pour s�lectionner des �tiquettes contextuelles pour les termes.

�tapes pour effectuer un NER non supervis�

1. Traitement hors ligne unique

Un processus hors ligne unique cr�e une carte pour l'ensemble d'identit�s ind�pendant du contexte obtenu � partir du vocabulaire de BERT, en les mappant � un seul descripteur/�tiquette.

�tape 1�: filtrer les termes d'identification contextuels du vocabulaire du BERT

Le vocabulaire BERT est un m�lange de noms communs, de noms propres, de sous-mots et de symboles, et le filtrage minimal de cet ensemble consiste � supprimer la ponctuation, les caract�res uniques et les jetons sp�ciaux de BERT. � son tour, un ensemble de 21418 termes - un m�lange de noms communs et de noms propres - a �t� g�n�r� en tant que descripteurs d�crivant les types d'entit�s.

�tape 2�: g�n�rer des jetons ind�pendants du contexte � partir du vocabulaire de BERT

Si vous cr�ez simplement une identit� ind�pendante du contexte pour chaque terme du vocabulaire BERT � partir de sa queue, m�me si vous choisissez un seuil de similarit� cosinus �lev� (pour le mod�le bert-large, environ 1�% des termes se situent dans le seuil cosinus moyen plus de 0,5 queue), obtiennent �galement un assez grand nombre de clusters (environ 20000). M�me avec un si grand nombre de clusters, la similitude entre ces identit�s ne peut pas �tre captur�e. Nous voulons donc :

It�re sur tous les termes du vocabulaire BERT (les sous-mots et la plupart des caract�res simples seront ignor�s) et s�lectionne des identit�s ind�pendantes du contexte avec un seuil de cosinus sup�rieur � 0,5 pour chaque terme. Traiter les termes � la fin du mot comme un graphique complet, o� les valeurs d'ar�te sont des valeurs de similarit� cosinus�;
S�lectionnez le nud avec la plus grande force de connexion � tous les autres nuds du graphique�;
Consid�rez le nud comme le pivot de l'identit� ind�pendante du contexte des nuds qui sont les voisins les plus proches de tous les autres nuds de ce graphe.

Figure 3. Recherche du nud pivot dans le graphe complet

Dans le graphique complet ci-dessus, le nud "en douceur" a la plus grande force de connexion moyenne avec ses voisins. Donc "en douceur" est le nud pivot de ce graphe - le voisin le plus proche de tous les autres nuds de ce graphe.

Une fois qu'un terme est s�lectionn� dans le cadre de l'identit�, il ne sera pas un pivot d'�valuation candidat (cependant, il peut devenir un pivot indirect si le nud pivot d'un autre terme est calcul�). Essentiellement, un terme peut �tre un �l�ment de plusieurs ensembles, pivotant ou pivotant indirectement.

a�roport 0,60,1 a�roport a�roport a�roports terrain d'aviation a�rodromecaresser 0,590,07 caresser caresser frotter frotter caresser

Dans l'exemple de logo ci-dessus, les deux valeurs sont la moyenne et l'�cart type des ar�tes du sous-graphe, et la premi�re colonne de termes est appel�e terme pivot du logo. Ces termes agissent comme des proxys d'�tiquette d'entit� et peuvent �tre mapp�s manuellement (op�ration unique) dans des �tiquettes d�finies par l'utilisateur.

Les figures 4a et 4b montrent des exemples de mappage de ces groupes d'entit�s, en mappant simplement les ensembles qui repr�sentent des types d'entit�s pertinents pour notre application particuli�re. Le reste de la collection peut �tre automatiquement mapp� sur l'�tiquette synth�tique "other/misc". La section de r�f�rence de la figure d�crit une m�thode pour le mapper manuellement � des �tiquettes d�finies par l'utilisateur en utilisant le mod�le lui-m�me pour amorcer/acc�l�rer les descripteurs.

�tant donn� qu'environ 30�% du vocabulaire BERT est compos� de noms propres (noms de personnes, lieux, etc.), nous n'�tiquetons �galement qu'un petit ensemble de termes (comme le montrent les figures 4 et 4b�: il faut environ 5�heures de travail pour �tiqueter manuellement 2�000 ou alors clusters ) sans tokeniser un grand nombre de phrases, ce qui ressemble un peu � de la triche. Le principal avantage de convertir le probl�me de la tokenisation des phrases en tokenisation des descripteurs contextuels est qu'il s'agit d'un processus unique.

Par rapport aux m�thodes de formation supervis�es, cela cr�e in�vitablement plus de donn�es �tiquet�es, non seulement pour former le mod�le, mais aussi pour recycler les phrases g�n�r�es une fois la formation termin�e (g�n�ralement en d�ploiement). Dans ce cas, cependant, le pire sc�nario est que le mod�le BERT doit �tre recycl�/affin� pour une formation non supervis�e sur ces nouvelles phrases - sans avoir besoin de faire plus de marquage.

L'identification insensible au contexte ci-dessus g�n�rera environ 6000 ensembles avec une cardinalit� moyenne d'environ 4/7 nuds. Ces 6000 ensembles ont une moyenne de force de cluster de 0,59 et un biais de 0,007 - ces clusters sont des clusters assez serr�s, avec une moyenne de cluster bien sup�rieure au seuil obtenu � partir de la distribution (Fig. 4c). Il y a environ 5000 termes (17% du vocabulaire) qui sont des collections singleton et seront ignor�s. Si vous modifiez le seuil, ces chiffres changeront �galement. Par exemple, si le seuil est choisi � 0,4, la masse totale de la queue augmentera � 0,2�% et la moyenne du cluster augmentera en cons�quence (mais si les types d'entit�s sont m�lang�s, les clusters commencent � devenir bruyants).

Figure 4. Ensemble de donn�es d'identit� ind�pendant du contexte BERT (bert-large-cased)

La base moyenne est d'environ 4 et l'�cart-type est de 7. La moyenne de la force des grappes pour ces 6110 ensembles de donn�es est de 0,59 et le biais est de 0,007 - puisque la moyenne est bien au-dessus du seuil choisi � partir de la distribution, ces grappes sont des grappes tr�s serr�es. On peut voir que les termes sensibles au contexte ont tendance � �tre des clusters relativement faibles, avec environ 17% des mots BERT �tant des ensembles singleton. Les sous-mots, les jetons sp�ciaux et la plupart des jetons � un seul caract�re ne seront pas consid�r�s comme des clusters.

Figure 4a. Distribution des entit�s pour les clusters de vocabulaire BERT (bert-large-case)

La plupart des entit�s sont des personnes, des lieux et des organisations (ORG). AMB fait r�f�rence � des clusters avec une terminologie ambigu� dans les clusters, par exemple, comme le montre la figure 4b ci-dessous, il y a 7 clusters avec une ambigu�t� entre les personnes et les lieux, et d'autres clusters avec une ambigu�t� dans les personnes, les choses, les sports/biographies, etc. L'utilisation d'un vocabulaire personnalis� est n�cessaire lorsque vous essayez de d�couvrir quels types d'entit�s se trouvent dans un domaine sp�cifique. Ces types personnalis�s peuvent d�sambigu�ser Personne (PERSON), Emplacement (LOCATION) et Organisation (ORG).

Figure 4b. R�partition des sous-classes d'entit�s pour le vocabulaire BERT (bert-large-case)

Ce sont des sous-types d'entit�s � grain fin des types principaux de la figure 4a.

Exemple de clusters ind�pendants du contexte tir� du vocabulaire BERT�:

Figure 4c. Exemples de clusters obtenus � partir du vocabulaire de BERT (bert-large-cased)

Les clusters contextuels sont des clusters flous, �tiquet�s AMB. Consid�rez �galement le regroupement de sous-mots lors du regroupement de sous-mots (bien que les r�sultats de reconnaissance d'entit� dans cet article aient filtr� les r�sultats similaires).

2. Pr�dire les entit�s pour chaque phrase d'entr�e

Effectuez les �tapes ci-dessous pour baliser les phrases saisies avec des termes.

�tape�3�: Minimiser le pr�traitement des phrases d'entr�e

Avant d'�tiqueter les entit�s pour une phrase d'entr�e, une petite quantit� de pr�traitement est n�cessaire sur l'entr�e. L'un d'eux est la normalisation de la casse - toutes les phrases en majuscules (g�n�ralement les titres de documents) sont converties en minuscules et la premi�re lettre de chaque mot reste dans son �tat d'origine. Cela permet d'am�liorer la pr�cision de la d�tection des dur�es de phrase � l'�tape suivante.

Il a vol� de New York � SFO

Changer en:

Il a vol� de New York � Sfo

�tape 4�: Identifiez les �tendues de phrases dans les phrases

Marquez la phrase d'entr�e avec une balise POS (id�alement, la formation traitera �galement toutes les phrases de mots en minuscules), ces balises sont utilis�es pour identifier les phrases et capitaliser les noms.

Il a vol� de New York � Sfo

Les termes marqu�s comme des noms ci-dessus sont indiqu�s en gras. La pr�diction de mots masqu�s de BERT est tr�s sensible aux majuscules, de sorte qu'une balise POS est utilis�e pour baliser de mani�re fiable les noms, m�me si seules les minuscules sont la cl� des performances de balisage. Par exemple, pour pr�dire le mot masqu� de la phrase suivante, la signification de l'entit� peut �tre modifi�e en changeant la casse d'une lettre dans la phrase.

Elon Musk est un ____CS Pr�dictions�: politicien musicien �crivain fils �tudiant homme d'affaires biologiste avocat peintre membre

Pr�diction CS�: Homme politique, musicien, �crivain, fils, �tudiant, homme d'affaires, biologiste, avocat, peintre, membre.

Elon musc est un ____ (Note : musc signifie musc) CS Pr�dictions : marque Bi�re japonaise Allemand commun Turc populaire Fran�ais Russe Br�silien

Pr�diction CS�: Marque, Japonaise, Bi�re, Allemande, G�n�rique, Turque, Pop, Fran�aise, Russe, Br�silienne.

De plus, la pr�diction de mots masqu�s de BERT ne peut d�tecter de mani�re fiable que les types d'entit�s (les personnes dans le premier exemple ci-dessus) et ne peut pas faire de pr�dictions pr�cises sur des faits, bien que BERT puisse parfois faire des pr�dictions pr�cises sur des faits.

�tape 5�: Utilisez la t�te MLM de BERT pour pr�dire la position de chaque mot masqu�

Pour chaque terme nominal de la phrase, g�n�rez une phrase avec un masque pour ce terme. Tirez parti de la t�te MLM de BERT pour pr�dire les marqueurs contextuels pour les emplacements de mots masqu�s.

Il a vol� de __ � SfoCS Pr�dictions : Rome l� Ath�nes Paris Londres Italie Le Caire ici Naples Egypte

Pr�diction CS�: Rome, Ath�nes, Paris, Londres, Italie, Le Caire, Naples, Egypte

Il a vol� de New York � ___CS Pr�dictions : Londres Paris Singapour Moscou Japon Tokyo Chicago Boston France Houston

Pr�diction CS�: Londres, Paris, Singapour, Moscou, Japon, Tokyo, Chicago, Boston, France, Houston

Trouvez la force entre chaque nud de l'ensemble et les autres nuds de la m�me mani�re que vous l'avez fait pour le nud pivot de la figure 2. Triez ensuite par taille de force pour obtenir une liste r�organis�e des pr�dictions CS dans l'espace d'int�gration de mots. Apr�s la r�organisation, les termes ayant des significations d'entit� similaires sont regroup�s, en plus de la n�cessit� de r�organiser les mots ind�pendants du contexte dans l'espace d'int�gration.

Par exemple, dans le premier exemple ci-dessous, apr�s r�organisation, les termes "l�" et "ici" (pr�dictions contextuelles efficaces pour les espaces vides) sont pouss�s � la fin. Dans l'�tape suivante, les k premiers nuds (k 1) de ces nuds r�ordonn�s seront s�lectionn�s.

Il a vol� de __ � SfoCS Pr�dictions : Rome l� Ath�nes Paris Londres Italie Le Caire ici Naples Egypte

Pr�diction CS�: Rome, Ath�nes, Paris, Londres, Italie, Le Caire, Naples, ici, Egypte

Ordre spatial CI des pr�dictions CS�: Rome Paris Ath�nes Naples Italie Le Caire �gypte Londres ici ici

Ordre spatial CI pour la pr�diction CS�: Rome, Paris, Ath�nes, Naples, Italie, Le Caire, Egypte, Londres, l�-bas, ici

Il a vol� de New York � __CS Pr�dictions : Londres Paris Singapour Moscou Japon Tokyo Chicago Boston France Houston

Pr�diction CS�: Londres, Paris, Singapour, Moscou, Japon, Tokyo, Chicago, Boston, France, Houston

Classement spatial CI des pr�dictions CS : Paris Londres Tokyo Chicago Moscou Japon Boston France Houston Singapour

Ordre spatial CI pour la pr�diction CS�: Paris, Londres, Tokyo, Chicago, Moscou, Japon, Boston, France, Houston, Singapour

�tape 6 : Trouver une correspondance �troite entre les marqueurs contextuels et ind�pendants du contexte

Des r�sultats raisonnables peuvent �tre g�n�r�s � l'aide d'une simple fonction de correspondance �troite qui s�lectionne un nud pivot pour un identifiant contextuel du terme pr�c�dent, en fait un produit scalaire avec tous les 6000 pivots dans l'ensemble d'identifiants ind�pendants du contexte, puis les trie pour obtenir des jetons d'entit� candidats. Essentiellement, la fonction de correspondance �troite est la cl� pour trouver le pivot de cluster insensible au contexte le plus proche du pivot de cluster sensible au contexte. Pour am�liorer la confiance des �tiquettes/pr�dictions (Fig. 5), nous choisissons les k pivots du haut au lieu de celui du haut.

Figure 5. Correspondances �troites entre les jetons contextuels et ind�pendants du contexte dans l'espace d'incorporation de mots

Le moyen le plus efficace et le plus simple d'obtenir une correspondance �troite est le produit scalaire entre le nud pivot de l'�tiquette contextuelle et le pivot de l'ensemble dans l'�tiquette ind�pendante du contexte. � ce stade, la fonction de correspondance �troite trouve essentiellement le pivot de cluster insensible au contexte le plus proche du pivot de cluster sensible au contexte.

Une autre meilleure impl�mentation est�: en fonction de la moyenne et de l'�cart type des nuds dans l'identification contextuelle, d�cidez de s�lectionner le nud pivot, puis s�lectionnez le nombre de pivots � prendre en compte dans le graphe bipartite pour trouver le nombre de pivots. Le cluster pivot contextuel est le plus proche du cluster pivot contextuel.

La situation illustr�e � la figure b est�: lorsque le nombre de mots contextuels est de 3 et qu'il n'y a qu'un seul nud de terme ind�pendant du contexte (afin de rompre la relation entre les deux, il peut �tre relativement pr�f�rable de choisir un nombre impair ici ; de m�me, il n'est pas n�cessaire de s�lectionner trois nuds dans l'ensemble contextuel, car ce sont des clusters serr�s, comme mentionn� pr�c�demment, avec un �cart moyen de 0,007).

Il est peu probable que l'utilisation de nuds dans tous les identificateurs contextuels dans les calculs donne de bons r�sultats, car l'�cart type moyen des nuds contextuels est beaucoup plus �lev�. �tant donn� que les identit�s contextuelles sont �valu�es dans l'espace d'int�gration, elles s'adaptent � une zone plus grande, m�me lors de la capture d'un seul type d'entit�.

La pr�diction de jeton pour le pivot sup�rieur dans le jeton contextuel est illustr�e ci-dessous. Les balises et les �tiquettes d'utilisateur sont les suivantes�:

Il a vol� de __ � l'espace SfoCI ordre des pr�dictions CS�: Rome Paris Ath�nes Naples Italie Le Caire �gypte Londres ici ici

Ordre spatial CI pour la pr�diction CS�: Rome, Paris, Ath�nes, Naples, Italie, Le Caire, Egypte, Londres, ici, l�-bas

Tags: Italie Venise Ath�nes Bologne Madrid Carthage Rome Sicile Turin Vatican

marque: Italie, Venise, Ath�nes, Bologne, Madrid, Carthage, Rome, Sicile, Turin, Vatican

Libell� de l'utilisateur - emplacement emplacement emplacement emplacement emplacement emplacement emplacement emplacement

Onglet utilisateur - Emplacement Emplacement Emplacement Emplacement Emplacement Emplacement Emplacement Emplacement Emplacement Emplacement Emplacement

Il s'est envol� de New York vers l'espace __CI Ordre des pr�dictions CS : Paris Londres Tokyo Chicago Moscou Japon Boston France Houston Singapour

Ordre spatial CI pour la pr�diction CS�: Paris, Londres, Tokyo, Chicago, Moscou, Japon, Boston, France, Houston, Singapour

Mots cl�s : Londres Madrid Gen�ve Vienne Bordeaux Chicago Metz Ath�nes Cologne Istanbul

marque: Londres, Madrid, Gen�ve, Vienne, Bordeaux, Chicago, Metz, Ath�nes, Cologne, Istanbul

Libell� de l'utilisateur - emplacement emplacement emplacement emplacement emplacement emplacement emplacement emplacement

Onglet utilisateur - Emplacement Emplacement Emplacement Emplacement Emplacement Emplacement Emplacement Emplacement Emplacement Emplacement Emplacement

R�sultats de l'�valuation

Le mod�le a �t� �valu� sur deux jeux de donn�es�:

Ensemble de donn�es standard CoNLL-2003 avec trois types d'entit�s (personne, lieu, organisation)�;
Jeu de donn�es de texte Wiki avec environ 25 types d'entit�s.

Dans l'ensemble CoNLL-2003, le score F1 moyen pour les trois types de donn�es (PER-81,5�%�; LOC-73�%�; ORG - 66�%�; MISC-83,87�%) n'�tait que de 76�%. Cela est d� � deux raisons :

Une grande partie de la structure du texte CoNLL dans les donn�es de test n'est pas constitu�e de phrases compl�tes, mais de rapports concis des scores de cricket, qui n'ont pas de structure de phrase r�guli�re. �tant donn� que le mod�le n'est pas pr�-form� ou affin� sur les phrases, il est difficile de pr�dire les mots masqu�s dans les phrases de ces distributions. En fait, cette situation peut �tre am�lior�e en pr�formant ou en affinant le mod�le sur de nouvelles structures de phrases.
Les donn�es de test ont signal� de nombreuses �quipes d'une r�gion sp�cifique comme une seule place. Le mod�le les �tiquette toujours comme un emplacement, pas comme un nom d'�quipe (org). Ce probl�me ne peut pas �tre facilement r�solu en utilisant cette m�thode NER non supervis�e. Il s�lectionne toujours le descripteur d'entit� qui correspond le mieux � la position masqu�e pour �tiqueter les termes, plut�t que les termes �tiquet�s manuellement. Bien que ce soit un inconv�nient dans un sens, c'est aussi un avantage cl� du mod�le - les descripteurs qu'il utilise pour �tiqueter les emplacements masqu�s sont naturellement d�riv�s du corpus sur lequel il a �t� form�, et non d'humains �tiquet�s de l'ext�rieur. Mapper ces descripteurs sur des �tiquettes d�finies par l'utilisateur peut �tre une solution, mais ce n'est peut-�tre pas une solution parfaite (comme dans le cas ci-dessus o� les descripteurs d'emplacement sont trait�s comme des �tiquettes ambigu�s pour l'organisation et l'emplacement).

Figure 5a. R�sultats CoNLL-2003

L'�valuation du mod�le est bas�e sur une petite quantit� de donn�es de test, mais avec l'ensemble complet de phrases naturelles et environ 25 types d'�tiquettes, le score F1 moyen est d'environ 97 %.

Figure 5b. R�sultats des donn�es Wiki pour 25 types d'entit�s

Figure 5c. R�partition des entit�s du jeu de donn�es Wiki

Sur cet ensemble de donn�es, le score F1 moyen est de 97 %. La principale diff�rence dans cette approche est que non seulement le mod�le n'est pas form� sur des donn�es �tiquet�es, mais le mod�le n'est m�me pas pr�-form� (le mod�le est test�)

Limites et d�fis de la m�thode

1. Biais Corpus

Bien que les pr�dictions � entit� unique d�montrent la capacit� des mod�les � interpr�ter les types d'entit�s avec des informations de sous-mots, en pratique, elles ne peuvent �tre utilis�es qu'avec des phrases avec plusieurs types d'entit�s. Les phrases � entit� unique sans beaucoup de contexte sont tr�s sensibles au biais de corpus, comme pr�vu pour Google et Facebook�:

Facebook est un __CS Pr�dictions�: blague monstre tueur ami histoire personne �chec de l'entreprise d�faut du site Web

Pr�diction CS�: blague, monstre, tueur, ami, r�cit, personnage, compagnie, �chec, site internet, p�pin

Microsoft est un __CS Predictions�: entreprise site Web concurrent personnes ami joueur Gagnant gagnant personne marque

Pr�diction CS�: entreprise, site Internet, concurrent, ami, joueur, gagnant, personne, marque

Google est un __CS Predictions�: ami site Web entreprise monstre tueur personne homme histoire chien gagnant

Pr�diction CS�: ami, site internet, monstre, compagnie, tueur, personnage, homme, r�cit, chien, gagnant

2. L'ambigu�t� de la pr�diction d'entit�

Cette approche cr�e deux ambigu�t�s :

Des ambigu�t�s existent dans les types d'entit� caract�ris�s par des descripteurs insensibles au contexte (exemple de la Fig. 4c). Un cluster contenant "banques, banque, Banques, banque" peut repr�senter une organisation ou un emplacement. Cependant, cette ambigu�t� peut souvent �tre r�solue, lorsque des identit�s sensibles au contexte sont �troitement associ�es � des identit�s insensibles au contexte par vote majoritaire des types d'entit�s, m�me certaines identit�s insensibles au contexte correspondantes sont ambigu�s.
La deuxi�me ambigu�t� d�crite ci-dessous est difficile � r�soudre.

Il existe des phrases qui permettent de remplir un terme masqu� avec diff�rents types d'entit�s. Par exemple, lors de la pr�diction du type d'entit� New�York dans la phrase suivante�:

Il a estim� que New York avait une chance de gagner le concours de cette ann�e

La pr�diction d'entit� du mot masqu� peut �tre un mot qui sugg�re un caract�re, et la phrase est �galement lisse, comme suit�:

Il a estim� qu'__il____ avait une chance de gagner le concours de cette ann�e

L'ambigu�t� est caus�e par des mots masqu�s, et la plupart des cas peuvent �tre r�solus en d�terminant le type d'entit� du terme masqu� lui-m�me - New York.

New York est un _____CS Pr�dictions�: ville ville place Ville capitale r�alit� carr� pays star de r�ve

Pr�diction CS�: ville, ville, ville, capitale, r�alit�, carr�, village, r�ve, �toile

Cependant, dans certains cas, m�me les termes masqu�s sont ambigus, ce qui rend difficile la d�termination de l'entit�. Par exemple, si la phrase originale est :

Il a estim� que les Dolphins avaient une chance de gagner la comp�tition de cette ann�e.

Les dauphins peuvent �tre un groupe musical ou une �quipe sportive.

Ces d�fis peuvent �tre am�lior�s de plusieurs fa�ons :

Le r�glage fin du mod�le sur un corpus de termes propri�taires peut aider � r�duire l'ambigu�t� dans les types d'entit�s sp�cifiques � un domaine. Par exemple, BRA F (qui est un g�ne) dans la pr�formation BERT n'a aucune signification g�n�tique dans ses caract�ristiques, ce qui est pr�sent dans un mod�le affin� sur un corpus biom�dical.

BRAF est une pr�diction _____CS�: la nouvelle norme allemande britannique la version du nom de la variante World world

Pr�diction CS�: Anglais, allemand, nouvelle norme, nom de variante, �dition, monde

Apr�s mise au point sur un mod�le de corpus biom�dical :

BRAF est une pr�diction _____CS�: prot�ine g�ne kinase r�action structurelle non familiale mol�cule r�ceptrice fonctionnelle

Pr�diction CS�: g�ne de la prot�ine, structure de la kinase, r�ponse non familiale, fonction, r�cepteur, mol�cule

La pr�-formation du mod�le commence par un vocabulaire d�fini par l'utilisateur (lien�: https://towardsdatascience.com/pre-training-bert-from-scratch-with-cloud-tpu-6e2f71028379), qui peut aider � r�soudre les entit�s Le probl�me de ambigu�t�, et plus important encore�: cela peut �galement am�liorer les performances de balisage des entit�s.

Bien que le vocabulaire par d�faut du BERT soit tr�s riche, avec des mots complets et des sous-mots pour d�tecter des types d'entit�s tels que des personnes, des lieux, des organisations, etc. (Fig. 4a et b), il ne parvient pas � capturer tout ou partie des termes du domaine biom�dical. Par exemple, les �tiquettes de m�dicaments tels que l'imatinib, le nilotinib, le dasatinib, etc. ne tiennent pas compte du sous-mot commun "tinib". L'imatinib est �tiquet� comme i##mat##ini#b et le dasatinib est �tiquet� comme das##at i##ni##b. Si vous utilisez les mod�les de phrases du corpus biom�dical pour cr�er un vocabulaire personnalis�, vous obtiendrez im##a##tinib et d ##as ##a ##tinib, puis le suffixe couramment utilis�.

De plus, le vocabulaire personnalis� contient des mots complets du domaine biom�dical, qui peuvent mieux saisir les caract�ristiques du domaine biom�dical, telles que cong�nitale, cancer, canc�rog�ne, cardiologue et autre vocabulaire sp�cialis� dans le domaine m�dical, qui sont pr�-form�s dans le BERT par d�faut n'existe pas dans le mod�le. La capture des personnes et des lieux dans le vocabulaire BERT par d�faut sera remplac�e par la capture des noms propres et des sous-mots comme les m�dicaments et les maladies dans les corpus biom�dicaux.

De plus, le vocabulaire personnalis� extrait du corpus biom�dical contient environ 45�% de nouveaux mots entiers, dont seulement 25�% des mots entiers chevauchent le mod�le pr�-entra�n� BERT accessible au public. Lors du r�glage fin du mod�le BERT pour ajouter 100 vocabulaires personnalis�s, il existe une option pour cela, mais il n'y en a pas beaucoup, et comme mentionn� pr�c�demment, le vocabulaire BERT par d�faut sera g�n�r� pour les types d'entit�s tels que les personnes, les lieux, les organisations, etc. Ambigu�t� s�v�re, comme le montre la figure 4a.

Jeton�: imatinib dasatinibBERT (par d�faut)�: i ##mat ##ni ##b das ##ati ##nibCustom�: im ##a ##tinib d ##as ##a ##tinib

Quelques r�flexions apr�s l'article

NER est la t�che de mappage d'une phrase d'entr�e � un ensemble d'�tiquettes correspondant aux termes de la phrase. Les approches traditionnelles effectuent cette cartographie en formant/affinant le mod�le, en utilisant une t�che supervis�e sur des donn�es �tiquet�es. Contrairement aux mod�les pr�-entra�n�s comme BERT, ce mod�le effectue un apprentissage non supervis� sur un corpus.

Cet article d�crit une m�thode pour effectuer un NER non supervis� sur des cibles linguistiques masqu�es sans modifier le mod�le BERT pr�-entra�n�/affin�. Ceci est r�alis� en op�rant de bout en bout sur la repr�sentation distribu�e apprise (vecteur), et l'�tape finale du traitement vectoriel utilise des algorithmes traditionnels (clustering et voisins les plus proches) pour d�terminer les �tiquettes NER. De plus, contrairement � la plupart des cas o� les vecteurs de niveau sup�rieur sont utilis�s pour des t�ches en aval, la sortie de BERT pour les phrases masqu�es n'est utilis�e que comme information de symbole de d�part, et l'incorporation de mots est impl�ment�e � sa propre couche la plus basse pour obtenir l'�tiquette NER de la phrase.

Figure 6. Comparaison du NER supervis� traditionnel (panneau de gauche) et du NER non supervis� d�crit dans cet article (panneau de droite).

Le NER supervis� traditionnel est une t�che de cartographie d'�tiquettes supervis�e, qui est effectu�e en entra�nant/affinant le mod�le (panneau de gauche). Au contraire, le NER non supervis� utilise un mod�le de pr�-formation/r�glage fin pour former la cible du mod�le de mot masqu� non supervis�, et utilise la sortie du mod�le comme information de d�part pour effectuer des op�rations algorithmiques sur la couche inf�rieure du mod�le BERT - incorporation de mots , afin d'obtenir la balise NER de la phrase.

En bref, toutes les informations n�cessaires pour effectuer le NER sont une t�che d'apprentissage supervis� au sens traditionnel.Il existe �galement dans le mod�le BERT non supervis�, et la partie cl� de la couche inf�rieure est le mot incorporation.

Travaux/R�f�rences associ�s

Cet article publi� en 2018 (https://homes.cs.washington.edu/~eunsol/open_entity.html) utilise la supervision � distance pour la reconnaissance des entit�s. Les �tiquettes � grain fin sont externalis�es pour les mod�les de formation.

Cet article (https://www.aclweb.org/anthology/N19-1084.pdf) s'appuie sur un mod�le de classification supervis� multi-�tiquettes pour le typage d'entit�s � grain fin pour plus de 10000 types d'entit�s.

La reconnaissance d'entit�s nomm�es a �t� un probl�me largement �tudi�, avec environ 400 articles connexes sur arXiv � ce jour et environ 62000 r�sultats de recherche sur Google Scholar depuis 2016.

V�rifiez l'int�gration d'origine de BERT�:

https://towardsdatascience.com/examining-berts-raw-embeddings-fd905cb22df7

Instructions suppl�mentaires

1. T�te de Berts MLM - une br�ve revue

La t�te BERT MLM est essentiellement une couche de conversion unique au-dessus de BERT. La figure ci-dessous montre une phrase avec 9 jetons produits par BERT (apr�s tokenisation), qui est une matrice 9x768 (la dimension du mod�le de base BERT est 768). Il est ensuite transmis � la couche dense de la t�te MLM pour effectuer un produit scalaire sur tous les 28996 vecteurs de mots sur la sortie 9x768 afin de d�terminer quelle position dans la phrase la sortie vectorielle pr�sente la plus grande similitude avec les vecteurs de 28996 mots. Pour le mot masqu� � cette position, g�n�rez une �tiquette pr�dite. En mode apprentissage/r�glage fin, les erreurs de pr�diction des mots masqu�s sont r�tropropag�es dans le mod�le, jusqu'aux mots int�gr�s (poids du d�codeur et poids de la couche d'int�gration li�s/�quivalents). En mode inf�rence, le texte tokenis� est repr�sent� par des incorporations et des journaux de sortie au-dessus de l'en-t�te.

Figure 7. T�te MLM de BERT - montre une entr�e de logo � 9 caract�res traversant le mod�le et sa t�te MLM

Le d�codeur utilise le m�me vecteur de la couche d'int�gration (les poids sont li�s dans le code - mais r�sident s�par�ment dans le fichier pytorch.bin).

2. Performances de la m�thode

Pour les phrases suivantes :

Dans une approche supervis�e typique avec BERT, en introduisant enti�rement la phrase enti�re dans un mod�le BERT affin�, nous pouvons obtenir les �tiquettes de sortie NER (B_PER, I_PER, O...) comme indiqu� ci-dessous.

La m�thode NER non supervis�e d�crite dans cet article n�cessite que la phrase ci-dessus soit transmise quatre fois � la t�te d'un MLM pour identifier quatre entit�s - John Doe, New York, RioDe Janiro et Miami (comme d�crit pr�c�demment, les emplacements de ces quatre entit�s sont identifi�s par une balise POS en conjonction avec un chunker).

Plus pr�cis�ment, les 4 versions tokenis�es suivantes de la phrase seront transmises au mod�le MLM�:

Les caract�ristiques contextuelles pour chaque position de mot masqu� sont extraites puis mises en correspondance avec des caract�ristiques non contextuelles pour g�n�rer des pr�dictions d'entit� pour chaque position, comme illustr� ci-dessous.

Alors qu'en principe, il est possible de r�cup�rer l'identit� contextuelle MLM pour chaque jeton dans la phrase d'entr�e en une seule fois, en pratique, les phrases avec des mots masqu�s doivent �tre envoy�es au mod�le MLM individuellement pour d�terminer le type d'entit�, car il n'est pas clair si la phrase peut �tre Ou des pr�dictions contextuelles de sous-mots sont combin�es pour faire des pr�dictions (si la phrase originale n'a qu'une seule entit� de mot, et que des versions symboliques de ces mots existent �galement dans le vocabulaire de BERT, l'identit� sensible peut �tre d�duite en un seul passer).

Par exemple : des phrases comme New York et des sous-mots comme Imatinib I ##mat ##ini ##b, apparaissent dans le vocabulaire du BERT. Le probl�me est aggrav� si un sous-mot a plusieurs significations par d�faut, telles que�: I dans Imatinib - I ##mat ##ini ##b, ce qui entra�ne une signature sensible au contexte � variance �lev�e. Une recherche par faisceau de sous-mots peut g�n�rer de nouveaux jetons uniques plausibles, mais il peut ne pas faire partie du vocabulaire sous-jacent, ce qui entra�ne de grands biais dans les jetons contextuels. SpanBERT peut �tre consid�r� comme une option pour augmenter la dur�e de pr�diction, mais il ne pr�dit �galement que les jetons individuels des phrases masqu�es et ne donne pas de pr�dictions pour les phrases masqu�es.

La pr�diction de phrases avec plusieurs mots masqu�s peut �tre r�solue en pr�disant toutes les versions masqu�es de la phrase en parall�le. Dans l'exemple ci-dessus, les termes masqu�s repr�sentaient 50�% du nombre total de termes dans la phrase, mais dans les projets r�els, ils ont tendance � �tre inf�rieurs � cette moyenne. Si une phrase distincte est utilis�e pour confirmer la pr�diction d'entit� de chaque terme de la phrase, telle qu'une phrase telle que "Le terme est un ___", (une phrase telle que "Nonenbury est un ___"), envoyez-la au mod�le MLM pour Le nombre pr�vu de phrases sera le double du nombre de termes masqu�s dans la phrase.

3. Cartographie des descripteurs d'�tiquettes pour les guides d'�tiquettes d�finis par l'utilisateur

Si vous �tes int�ress� par un ensemble sp�cifique d'entit�s de votre application, vous pouvez �galement tirer parti de tout corpus non �tiquet�, o� ces entit�s sont principalement obtenues par�:

Alimentez ces phrases dans le mod�le et laissez le mod�le produire leurs descripteurs d'�tiquettes�;
Triez les occurrences de ces descripteurs pour obtenir les descripteurs les plus int�ressants ;
Analysez manuellement ces descripteurs et associez-les aux �tiquettes d'entit� s�lectionn�es�;
Si le corpus non �tiquet� utilis� pour obtenir ces �tiquettes repr�sente des types d'entit�s r�els, alors il couvrira la grande majorit� des types d'entit�s.

Cette approche non supervis�e�:

Le probl�me de l'�tiquetage des phrases avec des entit�s d'int�r�t dans un cas d'utilisation sp�cifique est transform� en descripteurs contextuels qui sont �tiquet�s pour repr�senter des �tiquettes d'int�r�t. Comme mentionn� pr�c�demment, cela r�duit la quantit� de recyclage du mod�le avec des donn�es plus �tiquet�es.
De plus, une �tiquette POS est utilis�e, avec laquelle toutes les phrases pour la formation supervis�e sont �tiquet�es. Cependant, la partie essentielle de l'identification des identit�s et des descripteurs candidats est effectu�e par le BERT, qui est form�/affin� sans supervision.

4. Statistiques de clustering ind�pendantes du contexte sans filtrage des sous-mots

Les sous-mots ne sont pas pris en compte pour cr�er des clusters ind�pendants du contexte en raison de la difficult� de trouver des �tiquettes pour les sous-mots. Mais les clusters qui les prennent en compte peuvent capturer des informations potentiellement pr�cieuses pour certaines applications. Le vocabulaire mod�le de BERT compte 6477 sous-mots, dont 1399 constituent des pivots. Le reste est divis� en 59 pivots sans sous-mots (2872 sont des singletons).

Groupes de sous-mots ind�pendants du contexte en tant que pivots et autres pivots non li�s � des sous-mots qui incluent des sous-mots. La g�n�ration de clusters insensibles au contexte ne contient pas de sous-mots, qui sont pr�sent�s ici uniquement pour souligner que certains clusters capturent des informations interpr�tables int�ressantes (d'autres points qui ne constituent pas des �tiquettes d'entit�).

Autres applications de cette m�thode

�tant donn� que la d�termination du type d'entit� est purement bas�e sur un ensemble de termes, la m�thode peut �tre appliqu�e � une vari�t� d'applications

Trouve si deux termes ou plus ont le m�me type d'entit�. Saisissez les phrases contenant ces termes s�par�ment, recherchez des identifiants contextuels et v�rifiez si les �tiquettes g�n�r�es par le mod�le sont identiques/similaires.
Obtenez plus de termes pour un type d'entit� sp�cifique.
Lorsqu'elle n'est pas limit�e � l'�tiquetage des phrases nominales, la sortie de cette m�thode peut �tre utilis�e (�ventuellement�: avec les balises POS et l'analyseur de d�pendance) pour g�n�rer des donn�es �tiquet�es pour les t�ches supervis�es en aval telles que la classification, l'extraction de relations, etc. Dans certains cas, m�me sans remplacer la t�che supervis�e elle-m�me, au moins une ligne de base peut �tre cr��e.

Titre original:

NER non supervis� utilisant BERT

Lien d'origine�:

https://towardsdatascience.com/unsupervised-ner-using-bert-2d7af5f90b8a

Editeur : Huang Jiyan

Relecture : Lin Yilin

Profil du traducteur

Chen Zhiyan, Dipl�m� de l'Universit� Jiaotong de P�kin avec une sp�cialisation en ing�nierie de la communication et du contr�le et a obtenu une ma�trise en ing�nierie, il a �t� ing�nieur chez Great Wall Computer Software and Systems Company, ing�nieur chez Datang Microelectronics Company, et est actuellement un support technique de Beijing Wuyi Chaoqun Technology Co., Ltd. Actuellement engag� dans l'exploitation et la maintenance d'un syst�me intelligent d'enseignement de la traduction, il a accumul� une certaine exp�rience dans l'apprentissage profond de l'intelligence artificielle et le traitement du langage naturel (TAL). Dans ses temps libres, il aime traduire et cr�er. Ses travaux de traduction incluent principalement�: IEC-ISO 7816, Iraqi Petroleum Engineering Project, Declaration of New Fiscalism, etc. Parmi eux, l'ouvrage chinois-anglais "Declaration of New Fiscalism" a �t� officiellement publi� dans GLOBAL TIMES. Je peux utiliser mon temps libre pour rejoindre le groupe de b�n�voles traducteurs de la plateforme THU Data School, j'esp�re pouvoir communiquer et partager avec vous et progresser ensemble.

-Finir-

Suivez la plate-forme publique officielle WeChat de Tsinghua-Qingdao Data Science Research Institute" Tarte aux donn�es IA "et soeurs" Data Pie JEU "Obtenez plus d'avantages pour les conf�rences et un contenu premium.

Route de la soie

Apprenez � conna�tre la Chine

NER non supervis� avec BERT (avec code)