recherche de mots chinois et la pratique 58

Texte, l'enregistrement de la langue et la diffusion de l'information comme un important transporteur, il a �t� une bonne compr�hension du probl�me et une attention efficace. Depuis l'apparition de l'ordinateur moderne, l'ordinateur a fait mieux que les gens sur beaucoup de choses, a rencontr� le traitement du langage informatique est apparu le traitement du langage naturel technologie (langage de processus naturel, PNL). PNL compr�hension populaire est l'utilisation de l'analyse de texte informatique et de traitement.

traitement de la langue chinoise est une technologie de traitement de la langue chinoise, la technologie sous-jacente comprend g�n�ralement les niveaux suivants: analyse lexicale (segmentation, marquage de points de vente, la reconnaissance de l'entit�), l'analyse syntaxique, analyse s�mantique et analyse pragmatique. La segmentation du mot chinois est l'un des plus techniques analytiques de base et les plus utilis�s, comme la recherche d'information sup�rieure, classification texte, la traduction automatique, syst�mes quiz, r�sum� automatique, etc. seront utilis�s les mots chinois, on peut dire mot est � la base de la technologie de traitement de la langue chinoise.

Pourquoi mot chinois

Croit g�n�ralement que le mot est le plus petit des activit�s ind�pendantes des composantes linguistiques significatives (caract�re n'a pas de sens, oui, il est un seul mot). Diff�rents chinois et en anglais, la cha�ne de mot anglais est situ� sur un petit personnage, un d�limiteurs naturel (espaces) entre les mots dans le texte. Et la grande cha�ne de caract�res en chinois, il n'y a pas delimiter �vident entre les mots. segmentation du mot chinois est de couper un texte continu en langue chinoise en une s�rie de vocabulaire de base significative ind�pendante du processus. Ci-dessous, nous cherchons une sc�ne, par exemple, l'importance de l'exposition des mots chinois, d'autres sc�narios similaires devraient �galement �tre pris en compte.

Nous savons qu'un moteur de recherche de structure importante est utilis�e dans l'index invers�, organis� par l'identifiant et la cl� d'index contient tous les documents cl�s des cha�nes invers�es. Le processus de recherche est la cha�ne invers�e pour faire processus d'op�rations bool�ennes (g�n�ralement intersection). S'il n'y a pas de mot chinois, comme le mot est g�n�ralement que pour cr�er une cl� d'index invers�. Si un document intitul� � les jours de Hebei location �, le � ciel �, � La rivi�re �, � Nord �, � Location �, � maison � chaque index, l'identifiant du document appara�t dans la cha�ne invers�e de cinq cl�s dans. Le premier probl�me avec cette approche est la faible pr�cision de la recherche peut rappeler des documents non pertinents, tels que la recherche � louer Hebei �, le document sera �galement rappel�. Un autre probl�me plus grave est la hausse de la quantit� de calcul. Tels que la recherche ma�tre 58 actuelle est d'un milliard de documents, selon le document intitul� 10 longueur de mot (en consid�rant plus le corps du texte, du texte et d'autres cat�gories) ainsi que couramment utilis� les caract�res chinois pour 3000 � compter, chaque cl� d'index est en baisse moyenne longueur de cha�ne de ligne de 300 millions ou plus. Si la longueur de chaque terme de la requ�te 4, le calcul d'une requ�te 300w + 4 est invers� tandis que l'intersection de la cha�ne. Le visage de milliards de requ�tes par jour, de cette fa�on si l'indice est une catastrophe. Pour r�soudre la pr�cision de la recherche et de l'efficacit� de la recherche et le mot pr�cis est essentiel.

Le probl�me de base dans le mot chinois

Avant d'introduire la m�thode sp�cifique, nous comprenons d'abord quelques probl�mes fondamentaux auxquels sont confront�s les points de mot chinois. Par d�finition peut savoir, a marqu� le s�parateur entre le mot chinois est en fait d'identifier les limites des mots, qui est, entre les mots dans le texte est g�n�ralement continu avec un espace ou une barre oblique � /. � Ce probl�me semble simple, mais aussi d'apprendre des g�n�rations de personnes soupir� avec regret. Dans l'exemple suivant: � mari� et c�libataire �, � l'adh�sion � l'autorit� num�ro un � et � Pont du Yangts� Nanjing �, � Chi abusant de quatre cent mille dans Zhao Chang Ping. � Ces points permettent � la machine de couper le texte est un peu � machine � fort difficile.

En fait r�sumer, les principales difficult�s points de mot chinois de trois aspects: lignes directrices de segmentation, la segmentation de l'ambigu�t� et la reconnaissance des mots inconnus. directives de segmentation en question est � ce que le mot � (d�finition abstraite du mot) et � Quel est le mot � (mot sp�cifiquement d�fini, y compris la d�limitation des caract�res, des mots et des phrases), peut-�tre le probl�me un peu erratique de peu, a �chou� la formation d'une autorit� reconnue dans le vocabulaire ici temporairement de ce refrain. Mais le probl�me dans le processus de segmentation, mais il ne peut pas �tre �vit� et des maux de t�te. Tels que la mise en place du vocabulaire, l'�tiquetage et d'autres sous-mots de mat�riaux.

probl�me homonymie

Homonymie se r�f�rer � comme phrase, il peut y avoir deux ou plusieurs m�thodes de segmentation, qui sont omnipr�sentes dans le texte chinois. L'ambigu�t� actuelle en g�n�ral peut �tre simplement divis� en deux types: l'ambigu�t� de segmentation Croisement segment Ambigu�t� et la combinaison. Si la cha�ne chinoise AJB rencontre AJ et JB en m�me temps que le mot (A, J, B sont pour la cha�ne chinoise), a appel� � l'intersection AJB segment Ambigu�t�. Par exemple, � combin�s en �, � �tudiants �, � en effet raisonnable �. Si la cha�ne chinoise AB, AB rencontre, A, B en m�me temps que le mot, appel� AB est une combinaison du segment Ambigu�t�. Tels que � la main-d'uvre �, � futur �, � �tudiant �. Un tel dictionnaire de correspondance de probl�me de traitement de segmentation d'ambigu�t� seule ne peut pas obtenir de bons r�sultats, ont g�n�ralement besoin d'analyser complexes r�solus par le contexte.

Probl�me inconnu mot

D�sign� soi-disant des mots ou des mots inconnus (mot inconnu), on se r�f�re au mot de vocabulaire existant ne sont pas compris, ou fait r�f�rence au corpus de formation existant n'existait pas avant les mots. Dans ce dernier cas, le mot inconnu aussi du jeu de mot ext�rieur Chen Wei (hors du vocabulaire, MHV), � savoir en dehors du jeu � long terme des donn�es de formation.

la situation des mots inconnus est plus complexe, peuvent �tre grossi�rement divis�es dans les situations suivantes: 1 mots �mergents), notamment en termes de r�seau, mots � la mode tels que � Auto �, � Cheval de Dieu �, � inconnu Li Jue � et ainsi de suite. 2) les noms propres, y compris les noms, les lieux, le nom de l'organisation et la date, l'heure, les pourcentages, etc., tels que � King pour deux �, � Tsu City, � � 58 � et ainsi de suite. 3) les zones de noms, tels que � m�lamine �, � grippe aviaire �, � plein de cinq seulement �, � police d'assurance � et ainsi de suite. 4) les noms d'autres noms propres, y compris les produits �mergents, films, livres, etc. Certains chercheurs ont des statistiques, environ quatre-vingt dix pour cent mot inconnu est un nom propre, � savoir la deuxi�me cat�gorie ci-dessus. Dans la grande �chelle du texte r�el, les mots inconnus influencent la pr�cision mot � �tre beaucoup plus que (10-20) Homonymie pour un s�parateur de mots, sinon mettre � jour ou � la formation corpus du vocabulaire, une fois comme les mots apparaissent dans le texte � segmenter, le r�sultat de la segmentation est fondamentalement faux, ce qui affecte l'application sup�rieure. Par cons�quent, l'identification du mot de mot inconnu est divis� plus gros travailleurs de parement de d�fi.

mots chinois

mot chinois apr�s des ann�es de d�veloppement, beaucoup de m�thodes de segmentation ont vu le jour, qui peut �tre divis� en deux cat�gories. L'une est bas�e sur des vocabulaires de mots, aussi appel�s sous-lexical ou une approche de segmentation bas�e sur des r�gles m�caniques. Comprend une correspondance maximale vers l'avant, le RMM, la correspondance � sens unique, la segmentation lexicale est arriv� comme. Une autre m�thode est bas�e sur la m�thode de segmentation des mots de mod�les statistiques, y compris le mod�le de langage n-gramme, HMM, CRF, RNN et d'autres mod�les. Les mots suivants seront r�partis le long de la voie de d�veloppement chinois plusieurs m�thodes de segmentation typique, le mot de recherche 58 est essentiellement en fonction de l'�volution de cette piste.

Vocabulaire Mot Segmentation

Comme son nom l'indique, l'id�e de base de la m�thode est de v�rifier le vocabulaire, le texte de balayage de segmentation de la bande de gauche � droite � nouveau, rencontr� des mots de vocabulaire sur le logo sont sortis, ont rencontr� des mots compos�s (tels que � Universit� Tsinghua �) pour trouver le plus long match cha�nes rencontr�es ne savent pas un seul mot dans, donc un simple mot est termin�e. Les avantages de cette approche sont �vidents, il est assez simple, mais il �tait facile de r�soudre les probl�mes de mot sept ou huit pour cent. Mais ses inconv�nients sont aussi �vidents, qui est trop simple, pour le pr�cit� probl�me d'ambigu�t� de segmentation, il ne peut �tre r�solu efficacement, ne peut pas voir la segmentation � de caract�re �, et pour l'identification des mots inconnus est impuissant. Bien que la m�thode est bas�e sur le vocabulaire ont une strat�gie diff�rente match, mais nous ne pouvons r�soudre une cat�gorie limit�e de probl�me d'ambigu�t� dans une certaine mesure, et afin d'identifier de nouveaux mots doivent continuer � ajouter des mots plus de vocabulaire, ce qui va aggraver le mot ambigu�t�. Afin d'aborder syst�matiquement ces questions, la n�cessit� de nouvelles id�es.

vocabulaire Word et des m�thodes statistiques (mod�le de langage n-gramme) combin�

Homonymie est d�riv� d'une vari�t� de texte avec des m�thodes de segmentation de segmentation, comme � Ceci est en effet raisonnable dit, � Ici � En effet �, � vraiment �, � la r�alit� �, � raisonnable � tout en mots. Alors, comment d�terminer quels mots d�coup� de celui-ci? On pourrait penser � utiliser des informations de fr�quence des mots, ce que les mots apparaissent plus fr�quemment dans le corpus r�el, ou la probabilit� d'occurrence P (w) plus, il doit �tre d�coup� en tranches sur. Par exemple, nous pouvons calculer P (a), P (en effet) pour d�terminer si de d�couper, � le � ou � vrai �, mais de cette fa�on, il s�pare le contexte de contacts. Donc, plus nous pouvons calculer P (a | cette remarque), P (en effet | cette parole), respectivement dans la condition o� la s�quence de mots � en disant que � l'�mergence de l'autre, � le � et � En effet, � la probabilit�, selon cela prend en compte le contexte de la probabilit� de transition pour d�terminer la coupe du mot est clairement de fa�on plus pr�cise. Penser plus loin, envisager la phrase toute la segmentation possible, en fait, nous voulons savoir la peine maximale la probabilit� d'une coupe de possible en mode sous-segmentation. T est suppos� �tre la segmentation du texte peut �tre la segmentation des n types, disons trois types:

Ce qui indic�s A, B, C sont la m�thode de segmentation du mot chinois devrait �tre la meilleure s�quence de mots pour assurer la probabilit� d'occurrence maximale, qui est, si la premi�re mani�re optimale de segmentation, il doit r�pondre

Calculer la probabilit� de la s�quence d'apparition de la segmentation devra utiliser le mod�le de langage de mot bas� sur le g�n�ral, nous avons utilis� un mod�le de langage binaire, formul� comme suit:

Parmi eux, < s > Symbole repr�sente le d�but d'une phrase, < / S > Elle repr�sente un identificateur de phrase, dans lequel la probabilit� conditionnelle peut �tre calcul�e en comptant la fr�quence de co-occurrence de corpus et la fr�quence mot.

L'id�e de base du vocabulaire sous-lexical et mod�le double langage complet exprim� comme suit: Tout d'abord, selon le vocabulaire, la segmentation de la correspondance de texte pour trouver tous les mots possibles (ie pleine segmentation), de sorte que vous ne manquez pas possible bonne m�thode de segmentation. Ils �taient alors tous les mots et en tant que nuds de segmentation presse la construction graphe orient� acyclique repr�sent� sur la figure. La figure repr�sente un noeud mots candidats possibles, la probabilit� de transition entre les deux c�t�s de yuan indique le chemin candidat avant et arri�re, le poids de bord lat�ral repr�sente un mot. Enfin, l'algorithme de recherche pertinent (tel que l'algorithme de Viterbi) pour trouver le plus grand chemin de poids que la segmentation de correspond est la m�thode la plus probable segmentation. Cette m�thode a �t� ajout�e � la connaissance statistique peut mieux r�soudre le probl�me de la segmentation d'ambigu�t�, coupl� avec le module de reconnaissance de mot inconnu ind�pendant, tout le syst�me peut �tre consid�r� comme mot de base parfait.

58 utilisation de la recherche au d�but du mot syst�me est bas� sur cette m�thode, il est surtout de r�soudre deux probl�mes: construire le mod�le de formation linguistique initiale et le module de reconnaissance de mots inconnus. Est-ce un grand sens de mod�le de langage n-gramme lui-m�me, aller en profondeur � faire, sur de nombreux points peuvent renforcer l'effet des efforts (pour r�soudre le probl�me de la segmentation d'ambigu�t�), tels que l'expansion du vocabulaire, algorithme de correspondance du vocabulaire, la reconnaissance nom propre, l'�tiquetage Discours utiliser et ainsi de suite. Mais nous avons not� plus haut mot mot inconnu de reconnaissance est le facteur le plus important affectant la pr�cision des points, donc ne pas d�penser trop d'�nergie sur l'optimisation de mod�le de langage. Nous n'utilise qu'un vocabulaire algorithme de correspondance maximale inverse de la segmentation du corpus original, les statistiques de fr�quence de mot entre alors et obtenir le mot transition mod�le de langage de probabilit�. Inconnu module de reconnaissance des mots est principalement par le biais de nouveaux corpus de mots bas� sur la d�couverte � grande �chelle et un examen manuel des moyens d'exploiter de nouveaux mots et ajouter au vocabulaire. Le nouveau mot o� se trouve en utilisant la fr�quence de mot, la solidification du mot interne (calcul� par l'information mutuelle), et le degr� de gauche de la libert� (� gauche et l'entropie d'information calcul�e � droite) pour l'excavation. La combinaison de ces derniers, la segmentation essentiellement l'effet dans la mesure o� des industriels disponibles.

�tiquetage dans la s�quence de mots de mod�le --CRF

Tout d'abord propos� par la pens�e de la formation des mots en 2002, apr�s la m�thode de segmentation de mot bas� sur ses performances exceptionnelles et sur la reconnaissance mot inconnu est surmont� dans l'�valuation et � la concurrence, alors que mentionn� pr�c�demment inconnu pr�cision de la reconnaissance mot pour mot 10 fois l'impact de la segmentation d'ambigu�t�, de sorte que les gens pr�f�rent cette m�thode de segmentation plus haut taux de rappel des mots inconnus. Proc�d� de formation de la parole par le proc�d� de segmentation de la parole doit �tre consid�r�e comme un mot de classement de s�quence, chaque mot dans la construction d'un mot particulier occupe une formation d�termin�e de position, tel que le premier mot (B), mot (M ), le suffixe (E) et en mots individuels (S), montr� dans l'exemple est la description, les �tiquettes de mots, et il en r�sulte un mot de commande:

original: La d�claration est en effet raisonnable

Marque verbale: �Cette / S mots / S dit / / S fait / solide B / E / B Li / E de S

R�sultats de Segmentation: Ceci est en effet raisonnable de dire des mots

Apr�s cela, les r�sultats de segmentation sont exprim�s sous forme de texte sous forme de probl�me d'�tiquetage de s�quence de mots deviendra un probl�me. Par rapport � la m�thode de dictionnaire, bien que l'angle d'approche et les m�thodes utilis�es ont chang�, mais le but est similaire, le premier est de trouver la s�quence la plus probable de mots (calcul�e par le mod�le de langage), qui est de trouver la plus marque verbale probable s�quence, qui forme math�matique comme suit:

Dans laquelle X repr�sente un texte � segmenter, GEN (X) pour toute la s�quence de marqueur possible, Y repr�sente une �tiquette possible (par exemple BMEBE).

Actuellement en utilisant des m�thodes plus marquage s�quence ont mod�les de Markov cach�s (HMM) et champs conditionnels al�atoires (CRF), par rapport au mod�le HMM CRF est beaucoup plus faible, de sorte que le mod�le de formation et les pr�visions pour �tre beaucoup plus rapide. CRF mod�le relativement plus important, lors de l'�tiquetage plus de consid�ration avant et apr�s l'emplacement actuel de la s�quence d'observation (s�quence de mots) comporte simplement des moyens qu'une meilleure utilisation des informations de contexte, il est donc plus puissant. � l'heure actuelle, recherche de mots en utilisant le syst�me 58, et son noyau est le mod�le de CRF.

Markov conditions de champ al�atoire est donn� sous la moyenne statistique, qui est un mod�le graphique probabiliste (noeuds repr�sentent des variables al�atoires, la probabilit� exprim�e bords d�pendances connect� entre les variables). Peut penser � partir du nom, cet ensemble de noeuds dans le graphe doit �tre divis� en deux variables al�atoires (une condition, et l'autre est al�atoire), tel que X (s�quence de mots peut �tre substitu� dans la segmentation) et Y (correspondant � la s�quence de mots s�quence de marqueur), si une donn�e X, Y satisfont la MRF est appel� le CRF. Alors, comment nous pouvons r�pondre � champ al�atoire de Markov Y il? N�cessit� de satisfaire � deux conditions, l'une est la probabilit� de la propri�t� de Markov, apr�s des valeurs de variables de temps (marquage) la distribution des valeurs associ�es � la seule variable de temps pr�c�dent. Une autre est al�atoire, donnent chacun une position d'une des valeurs d'espace donn� (B, M, E, S) en fonction d'une certaine distribution al�atoire, qui est appel� avec tout l'a�roport. s�quence d'annotation � �tre utilis� dans un sc�nario conditionnel cha�ne lin�aire al�atoire, � savoir, X, Y sont des variables al�atoires repr�sent�s par la s�quence de cha�nes lin�aires, il peut �tre exprim� comme la figure suivante,

Dans laquelle X est une s�quence de mots, �galement appel�e s�quence d'observation d'entr�e, Y est une s�quence de marqueur, aussi appel�e s�quence de marqueur d'�tat de sortie ou s�quences. Figure Probabilit� r�union conjointe cette condition a la forme:

Dans lequel, x, y sont des variables X, Y des valeurs al�atoires, Z (x) est un facteur de normalisation, f est la fonction caract�ristique de la fonction correspondant la valeur de poids. Dans lequel la fonction de valeur est typiquement �gal � 0 ou 1, dans lequel l'apparition de 1 et 0 sinon. Dans � La d�claration ne raisonnable �, par exemple, si la s�quence est marqu�e � SSSSBEBE �, s�lectionnez la fen�tre contextuelle 3, consid�re i = (� savoir la position de mot � OK �) 5:00 caract�ristiques apparaissent:

Caract�ristiques mentionn�es dans la formule ci-dessus 6, dans lequel caract�ristique d�finie avant sur le noeud (s�quence Y), dans lequel l'�tat est appel�. Dans lequel la septi�me caract�ristique de bord est d�finie, appel�e transfert comprend, en fonction de l'emplacement actuel et l'emplacement pr�c�dent. Le CRF est caract�ris� g�n�ralement extrait par la configuration du mod�le de fonction, ces caract�ristiques peuvent �tre vues plus structur�, facile � comprendre. CRF processus de formation de mod�le probabiliste est de r�soudre tous les poids caract�ristiques apparues, avec les poids d'entit�s, chaque noeud peut facilement calculer la valeur de la distribution, � savoir la probabilit� est indiqu�e comme B, M, E, S, et enfin transf�rer le poids du bord consid�r�, tant que nous trouvons la s�quence la plus probable de jetons. Comme cela est repr�sent� ci-dessous, chaque noeud, et le c�t� droit des valeurs s�quence de marquage optimale correspondant � la valeur maximale de poids � l'ensemble du chemin dans le sch�ma de connexion, g�n�ralement au moyen d'un algorithme de Viterbi pour rechercher le chemin d'acc�s optimal.

De la description ci-dessus, on peut voir les mod�les CRF peuvent plus utiliser pleinement les informations de contexte � la segmentation du texte, il peut donc r�soudre les ambigu�t�s points de coupe efficaces et des probl�mes d'identification de mots inconnus, et le taux de pr�cision de mot peut atteindre 95% . Mais elle a aussi ses inconv�nients, comme mot incompatibles. 58 pages suivantes pr�senteront une exp�rience pratique dans la m�thode de recherche de mot de CRF.

58 CRF recherche par mot pratique

Cette section principalement par manque de mod�les CRF ainsi que 58 autres demandes sur la segmentation de la sc�ne de recherche pour discuter des travaux en dehors des quelques mod�les dans notre pratique. � l'heure actuelle le syst�me de segmentation 58 utilis� pour la recherche sur la base du CRF comme indiqu� ci-dessous. La figure en dehors du mod�le du module est principalement destin� � r�soudre le manque de mod�les CRF ainsi que 58 autres demandes sur la sc�ne � la recherche du mot. Ce qui suit discutera.

incoh�rences mot

Segmentation des moyens incoh�rents dans des contextes diff�rents, le m�me segment de texte, mod�le Parsing r�sultats diff�rents. Par exemple, un document intitul� mod�le � la m�re et de r�novation des magasins de v�tements pour hommes magasin d'enfants et la d�coration � pour le mot � d�coration d�coration boutique de magasin de v�tements pour hommes la m�re et de l'enfant �, les termes de la requ�te utilisateur que � la d�coration magasin de v�tements pour hommes, � le mod�le du mot � la d�coration du magasin de v�tements pour hommes. � Dans cette requ�te, le b�ton cible ne peut pas �tre rappel�. Parole incompatible principalement caus�e par deux raisons, est le sous-mot appara�t mat�riel d'�tiquetage incoh�rent. Lorsque l'annotation manuelle, diff�rentes personnes peuvent avoir diff�rentes fa�ons de trancher la m�me phrase, m�me si la m�me personne peut avoir des id�es diff�rentes sur la m�me phrase � des moments diff�rents. Par cons�quent, une des lignes directrices de segmentation relativement claires sont n�cessaires, alors faut aussi dire diviser marqu� des mat�riaux finis ne contr�le de coh�rence, comme � magasin de v�tements pour hommes � dans le compos� du sous-mot l'existence de � magasin de v�tements pour hommes � et � magasin de v�tements pour hommes � en m�me temps les r�sultats du ch�que � la coche du personnel de correction, r�p�tez cette proc�dure pour le mod�le de segmentation des mots soulagent du probl�me d'incoh�rence. Une autre raison de l'incoh�rence est le mod�le de d�faut inh�rent, lorsque le contexte change, le processus de recherche sur l'ensemble du chemin optimal a chang�, le texte de l'�tiquette locale est difficile d'�viter inconsistante. Pour r�soudre ce probl�me, nous pr�sentons le texte reconnu en mots des mots tr�s clairs qui correspondent � la configuration propose par des dictionnaires et des r�gles, telles que la ponctuation, les expressions idiomatiques, vocabulaire sp�cifique champ et url, email, num�ro de t�l�phone, date, etc., dont le texte couper pour obtenir une liste de texte, utilisez le mod�le ont �t� coup�s court texte pour chaque mot. Cela va affaiblir la probabilit� de contexte incompatible dans une certaine mesure, att�nuer le probl�me de la segmentation incoh�rente. Bien s�r, cela affaiblirait l'efficacit� de l'utilisation du processus de segmentation de l'information contextuelle, la pr�cision de la segmentation serait affect�e. Ce processus n�cessite une �valuation stricte et des compromis. Surtout dans la recherche d'une sc�ne, je pense, les exigences relatives � la coh�rence des mots, il n'est pas inf�rieure aux exigences de pr�cision.

questions de taille mot

Taille des mots est g�n�ralement divis�e en grains fins et � gros grains, tels que � 58 ville � Est-ce que vous voulez couper dans � 58 � et � ville �, � la maison Homeland � Est-ce que vous voulez couper dans � la maison � et � maison �, � Nord Jiuxianqiao Road, � Est-ce que vous voulez couper, � Jiuxianqiao � et � du Nord ". Pour un sc�nario d'application sp�cifique, la taille des particules correspondantes peuvent �tre configur�es tokenizer. Le plus souvent un mot est de soutenir simultan�ment segmentation diff�rente de la taille. Dans la sc�ne de la recherche, � gros grains mot, les r�sultats de recherche seront plus pr�cis, plus pertinent, mais peu de r�sultats et aucun r�sultat risquent de se produire. La segmentation grains fins est possible d'assurer un rappel ad�quat et la notation de la pertinence avec une strat�gie efficace pour assurer des r�sultats plus pertinents apparaissent dans une position plus �lev�e. Nous utilisons donc une plus directives de segmentation grains fins, bien s�r, besoin de se joindre � l'extension d'index mod�le de segmentation de texte pour am�liorer encore le rappel, qui est d�crit dans les modules suivants.

Index extension de mot

l'extension de l'index fait r�f�rence au mot en mode mot d'index, vous devez d�couper comme mot beaucoup plus efficace, notre strat�gie int�gre d�sormais l'extension des synonymes, l'extension et contiennent le mot extension de r�gle. expansion Synonyme est mieux comprise, est accomplie par le dictionnaire des synonymes correspondant. Contient un mot est un mot contient un autre mot, comme � salle de gym � contient � fitness �, � salon de coiffure � contient une � coupe de cheveux � et ainsi de suite, ce qui est en creusant le dictionnaire contient le match complet. extensions de r�gles � r�soudre est la situation suivante, comme � N-h�pital � (N num�rique) pour �tendre la � N Hospital �, � D Jiuxianqiao route � (D repr�sente l'est, au sud, � l'ouest, au nord,) pour �tendre la "Jiuxianqiao", "Jiuxianqiao route", "Jiuxianqiao Street" et ainsi de suite. Cette partie de la solution en configurant le mod�le de r�gle.

la collecte et l'annotation Corpus

l'application PNL souvent dit avoir 60% � 70% du temps est consacr� � la collecte et le traitement de corpus de donn�es (y compris le contr�le de la normalisation et de coh�rence ci-dessus et ajuster la taille du mot, etc.), il est un faux , ou encore plus. Il d�crit quelques-unes des techniques dans le cadre du corpus recueilli ici. L'accumulation initiale du corpus se compose de deux parties: l'une est l'open source ont �t� donn�es annot�e, comme corpus corpus Quotidien du Peuple et la recherche des chiens, l'autre est le corpus de texte 58 sc�nes, cette partie de la n�cessit� d'annoter manuellement, accumuler lentement. Eh bien, apr�s nous avons accumul� des donn�es initiales annot�s, que la collecte indiff�renci�e avant que nous ne pouvons pas encore comme pour marquer la ligne du corpus original, l'accent marqu� devrait se concentrer sur le corpus actuel ne sont pas couverts ou en se basant sur le corpus d'apprentissage du mod�le actuel ne peut pas faire une meilleure pr�diction du corpus d'origine.

Voici deux strat�gies que nous utilisons, est une analyse de la ligne, la ligne de mod�le de pr�vision est le processus de r�solution de la plus grande probabilit� de sentiers balis�s, nous pouvons pr�dire quand le corps oppos� (corpus sans �tiquette), et la probabilit� du chemin optimal moins d'une certaine valeur de seuil en tant que candidat recueilli corpus corpus vert. L'autre est l'analyse hors-ligne, la premi�re � grande �chelle collection hors ligne corpus brut, un mot avec le mod�le actuel. Ensuite, la fr�quence des mots statistique de chaque mot dans le corpus du mot entier, les degr�s de solidification interne, de la libert� (nouveau mot d�couverte mentionn� pr�c�demment est l'utilisation de ces indicateurs), d'�valuer en mots chaque score de mot (est un bon mot, ou mauvais mot), alors vous pouvez calculer le score de segmentation de la phrase, de sorte que vous pouvez taper le num�ro du corpus de segmentation du mod�le actuel pauvre, et ajout� � la plate-forme d'�tiquetage pour l'annotation manuelle.

�pilogue

En r�sum�, nous avons introduit le d�veloppement de la m�thode de segmentation selon plusieurs techniques de segmentation repr�sentatifs, y compris mot du dictionnaire, les dictionnaires et la combinaison statistique de la segmentation et la segmentation bas�e sur des mod�les statistiques. Comme on le voit, le chemin de d�veloppement complet du dictionnaire (r�gle) � l'�volution des statistiques, mais les caract�ristiques statistiques de ces m�thodes sont utilis�es principalement par les gens de la connaissance de pr�ciser, comme la fr�quence des mots, les probabilit�s de transition, les mod�les de CRF et d'autres caract�ristiques. La PNL en traits s�mantiques plus riches profond�ment ancr�s ne peuvent souvent pas �tre per�u directement. Depuis lors, il y a eu segmentation des r�seaux de neurones ou � base de mod�les d'apprentissage en profondeur, ils ne peuvent pas compter sur la connaissance humaine aux fonctions d'extraction, et peuvent apprendre du corpus lui-m�me � de riches fonctionnalit�s s�mantiques qui leur permettent d'avoir un plus grand potentiel. Apr�s r�apparue sur une grande m�thodes pr�-formation corpus � grande �chelle et des t�ches sp�cifiques � affiner le mod�le n'est pas marqu�, il est en mesure de r�aliser un bon effet de segmentation dans le cas d'une petite quantit� de donn�es annot�es. Dans le sens de l'apprentissage en profondeur et le mod�le de langue pr�-formation, nous avons essay�, et nous avons obtenu certains r�sultats, l'espace limit� derri�re la possibilit� de poursuivre l'introduction.

Route de la soie

Apprenez � conna�tre la Chine

recherche de mots chinois et la pratique 58