recherche de mots chinois et la pratique 58

Texte, l'enregistrement de la langue et la diffusion de l'information comme un important transporteur, il a été une bonne compréhension du problème et une attention efficace. Depuis l'apparition de l'ordinateur moderne, l'ordinateur a fait mieux que les gens sur beaucoup de choses, a rencontré le traitement du langage informatique est apparu le traitement du langage naturel technologie (langage de processus naturel, PNL). PNL compréhension populaire est l'utilisation de l'analyse de texte informatique et de traitement.

traitement de la langue chinoise est une technologie de traitement de la langue chinoise, la technologie sous-jacente comprend généralement les niveaux suivants: analyse lexicale (segmentation, marquage de points de vente, la reconnaissance de l'entité), l'analyse syntaxique, analyse sémantique et analyse pragmatique. La segmentation du mot chinois est l'un des plus techniques analytiques de base et les plus utilisés, comme la recherche d'information supérieure, classification texte, la traduction automatique, systèmes quiz, résumé automatique, etc. seront utilisés les mots chinois, on peut dire mot est à la base de la technologie de traitement de la langue chinoise.

Pourquoi mot chinois

Croit généralement que le mot est le plus petit des activités indépendantes des composantes linguistiques significatives (caractère n'a pas de sens, oui, il est un seul mot). Différents chinois et en anglais, la chaîne de mot anglais est situé sur un petit personnage, un délimiteurs naturel (espaces) entre les mots dans le texte. Et la grande chaîne de caractères en chinois, il n'y a pas delimiter évident entre les mots. segmentation du mot chinois est de couper un texte continu en langue chinoise en une série de vocabulaire de base significative indépendante du processus. Ci-dessous, nous cherchons une scène, par exemple, l'importance de l'exposition des mots chinois, d'autres scénarios similaires devraient également être pris en compte.

Nous savons qu'un moteur de recherche de structure importante est utilisée dans l'index inversé, organisé par l'identifiant et la clé d'index contient tous les documents clés des chaînes inversées. Le processus de recherche est la chaîne inversée pour faire processus d'opérations booléennes (généralement intersection). S'il n'y a pas de mot chinois, comme le mot est généralement que pour créer une clé d'index inversé. Si un document intitulé « les jours de Hebei location », le « ciel », « La rivière », « Nord », « Location », « maison » chaque index, l'identifiant du document apparaît dans la chaîne inversée de cinq clés dans. Le premier problème avec cette approche est la faible précision de la recherche peut rappeler des documents non pertinents, tels que la recherche « louer Hebei », le document sera également rappelé. Un autre problème plus grave est la hausse de la quantité de calcul. Tels que la recherche maître 58 actuelle est d'un milliard de documents, selon le document intitulé 10 longueur de mot (en considérant plus le corps du texte, du texte et d'autres catégories) ainsi que couramment utilisé les caractères chinois pour 3000 à compter, chaque clé d'index est en baisse moyenne longueur de chaîne de ligne de 300 millions ou plus. Si la longueur de chaque terme de la requête 4, le calcul d'une requête 300w + 4 est inversé tandis que l'intersection de la chaîne. Le visage de milliards de requêtes par jour, de cette façon si l'indice est une catastrophe. Pour résoudre la précision de la recherche et de l'efficacité de la recherche et le mot précis est essentiel.

Le problème de base dans le mot chinois

Avant d'introduire la méthode spécifique, nous comprenons d'abord quelques problèmes fondamentaux auxquels sont confrontés les points de mot chinois. Par définition peut savoir, a marqué le séparateur entre le mot chinois est en fait d'identifier les limites des mots, qui est, entre les mots dans le texte est généralement continu avec un espace ou une barre oblique « /. » Ce problème semble simple, mais aussi d'apprendre des générations de personnes soupiré avec regret. Dans l'exemple suivant: « marié et célibataire », « l'adhésion à l'autorité numéro un » et « Pont du Yangtsé Nanjing », « Chi abusant de quatre cent mille dans Zhao Chang Ping. » Ces points permettent à la machine de couper le texte est un peu « machine » fort difficile.

En fait résumer, les principales difficultés points de mot chinois de trois aspects: lignes directrices de segmentation, la segmentation de l'ambiguïté et la reconnaissance des mots inconnus. directives de segmentation en question est « ce que le mot » (définition abstraite du mot) et « Quel est le mot » (mot spécifiquement défini, y compris la délimitation des caractères, des mots et des phrases), peut-être le problème un peu erratique de peu, a échoué la formation d'une autorité reconnue dans le vocabulaire ici temporairement de ce refrain. Mais le problème dans le processus de segmentation, mais il ne peut pas être évité et des maux de tête. Tels que la mise en place du vocabulaire, l'étiquetage et d'autres sous-mots de matériaux.

problème homonymie

Homonymie se référer à comme phrase, il peut y avoir deux ou plusieurs méthodes de segmentation, qui sont omniprésentes dans le texte chinois. L'ambiguïté actuelle en général peut être simplement divisé en deux types: l'ambiguïté de segmentation Croisement segment Ambiguïté et la combinaison. Si la chaîne chinoise AJB rencontre AJ et JB en même temps que le mot (A, J, B sont pour la chaîne chinoise), a appelé à l'intersection AJB segment Ambiguïté. Par exemple, « combinés en », « étudiants », « en effet raisonnable ». Si la chaîne chinoise AB, AB rencontre, A, B en même temps que le mot, appelé AB est une combinaison du segment Ambiguïté. Tels que « la main-d'uvre », « futur », « étudiant ». Un tel dictionnaire de correspondance de problème de traitement de segmentation d'ambiguïté seule ne peut pas obtenir de bons résultats, ont généralement besoin d'analyser complexes résolus par le contexte.

Problème inconnu mot

Désigné soi-disant des mots ou des mots inconnus (mot inconnu), on se réfère au mot de vocabulaire existant ne sont pas compris, ou fait référence au corpus de formation existant n'existait pas avant les mots. Dans ce dernier cas, le mot inconnu aussi du jeu de mot extérieur Chen Wei (hors du vocabulaire, MHV), à savoir en dehors du jeu à long terme des données de formation.

la situation des mots inconnus est plus complexe, peuvent être grossièrement divisées dans les situations suivantes: 1 mots émergents), notamment en termes de réseau, mots à la mode tels que « Auto », « Cheval de Dieu », « inconnu Li Jue » et ainsi de suite. 2) les noms propres, y compris les noms, les lieux, le nom de l'organisation et la date, l'heure, les pourcentages, etc., tels que « King pour deux », « Tsu City, » « 58 » et ainsi de suite. 3) les zones de noms, tels que « mélamine », « grippe aviaire », « plein de cinq seulement », « police d'assurance » et ainsi de suite. 4) les noms d'autres noms propres, y compris les produits émergents, films, livres, etc. Certains chercheurs ont des statistiques, environ quatre-vingt dix pour cent mot inconnu est un nom propre, à savoir la deuxième catégorie ci-dessus. Dans la grande échelle du texte réel, les mots inconnus influencent la précision mot à être beaucoup plus que (10-20) Homonymie pour un séparateur de mots, sinon mettre à jour ou à la formation corpus du vocabulaire, une fois comme les mots apparaissent dans le texte à segmenter, le résultat de la segmentation est fondamentalement faux, ce qui affecte l'application supérieure. Par conséquent, l'identification du mot de mot inconnu est divisé plus gros travailleurs de parement de défi.

mots chinois

mot chinois après des années de développement, beaucoup de méthodes de segmentation ont vu le jour, qui peut être divisé en deux catégories. L'une est basée sur des vocabulaires de mots, aussi appelés sous-lexical ou une approche de segmentation basée sur des règles mécaniques. Comprend une correspondance maximale vers l'avant, le RMM, la correspondance à sens unique, la segmentation lexicale est arrivé comme. Une autre méthode est basée sur la méthode de segmentation des mots de modèles statistiques, y compris le modèle de langage n-gramme, HMM, CRF, RNN et d'autres modèles. Les mots suivants seront répartis le long de la voie de développement chinois plusieurs méthodes de segmentation typique, le mot de recherche 58 est essentiellement en fonction de l'évolution de cette piste.

Vocabulaire Mot Segmentation

Comme son nom l'indique, l'idée de base de la méthode est de vérifier le vocabulaire, le texte de balayage de segmentation de la bande de gauche à droite à nouveau, rencontré des mots de vocabulaire sur le logo sont sortis, ont rencontré des mots composés (tels que « Université Tsinghua ») pour trouver le plus long match chaînes rencontrées ne savent pas un seul mot dans, donc un simple mot est terminée. Les avantages de cette approche sont évidents, il est assez simple, mais il était facile de résoudre les problèmes de mot sept ou huit pour cent. Mais ses inconvénients sont aussi évidents, qui est trop simple, pour le précité problème d'ambiguïté de segmentation, il ne peut être résolu efficacement, ne peut pas voir la segmentation « de caractère », et pour l'identification des mots inconnus est impuissant. Bien que la méthode est basée sur le vocabulaire ont une stratégie différente match, mais nous ne pouvons résoudre une catégorie limitée de problème d'ambiguïté dans une certaine mesure, et afin d'identifier de nouveaux mots doivent continuer à ajouter des mots plus de vocabulaire, ce qui va aggraver le mot ambiguïté. Afin d'aborder systématiquement ces questions, la nécessité de nouvelles idées.

vocabulaire Word et des méthodes statistiques (modèle de langage n-gramme) combiné

Homonymie est dérivé d'une variété de texte avec des méthodes de segmentation de segmentation, comme « Ceci est en effet raisonnable dit, » Ici « En effet », « vraiment », « la réalité », « raisonnable » tout en mots. Alors, comment déterminer quels mots découpé de celui-ci? On pourrait penser à utiliser des informations de fréquence des mots, ce que les mots apparaissent plus fréquemment dans le corpus réel, ou la probabilité d'occurrence P (w) plus, il doit être découpé en tranches sur. Par exemple, nous pouvons calculer P (a), P (en effet) pour déterminer si de découper, « le » ou « vrai », mais de cette façon, il sépare le contexte de contacts. Donc, plus nous pouvons calculer P (a | cette remarque), P (en effet | cette parole), respectivement dans la condition où la séquence de mots « en disant que » l'émergence de l'autre, « le » et « En effet, » la probabilité, selon cela prend en compte le contexte de la probabilité de transition pour déterminer la coupe du mot est clairement de façon plus précise. Penser plus loin, envisager la phrase toute la segmentation possible, en fait, nous voulons savoir la peine maximale la probabilité d'une coupe de possible en mode sous-segmentation. T est supposé être la segmentation du texte peut être la segmentation des n types, disons trois types:

Ce qui indicés A, B, C sont la méthode de segmentation du mot chinois devrait être la meilleure séquence de mots pour assurer la probabilité d'occurrence maximale, qui est, si la première manière optimale de segmentation, il doit répondre

et

Calculer la probabilité de la séquence d'apparition de la segmentation devra utiliser le modèle de langage de mot basé sur le général, nous avons utilisé un modèle de langage binaire, formulé comme suit:

Parmi eux, < s > Symbole représente le début d'une phrase, < / S > Elle représente un identificateur de phrase, dans lequel la probabilité conditionnelle peut être calculée en comptant la fréquence de co-occurrence de corpus et la fréquence mot.

L'idée de base du vocabulaire sous-lexical et modèle double langage complet exprimé comme suit: Tout d'abord, selon le vocabulaire, la segmentation de la correspondance de texte pour trouver tous les mots possibles (ie pleine segmentation), de sorte que vous ne manquez pas possible bonne méthode de segmentation. Ils étaient alors tous les mots et en tant que nuds de segmentation presse la construction graphe orienté acyclique représenté sur la figure. La figure représente un noeud mots candidats possibles, la probabilité de transition entre les deux côtés de yuan indique le chemin candidat avant et arrière, le poids de bord latéral représente un mot. Enfin, l'algorithme de recherche pertinent (tel que l'algorithme de Viterbi) pour trouver le plus grand chemin de poids que la segmentation de correspond est la méthode la plus probable segmentation. Cette méthode a été ajoutée à la connaissance statistique peut mieux résoudre le problème de la segmentation d'ambiguïté, couplé avec le module de reconnaissance de mot inconnu indépendant, tout le système peut être considéré comme mot de base parfait.

58 utilisation de la recherche au début du mot système est basé sur cette méthode, il est surtout de résoudre deux problèmes: construire le modèle de formation linguistique initiale et le module de reconnaissance de mots inconnus. Est-ce un grand sens de modèle de langage n-gramme lui-même, aller en profondeur à faire, sur de nombreux points peuvent renforcer l'effet des efforts (pour résoudre le problème de la segmentation d'ambiguïté), tels que l'expansion du vocabulaire, algorithme de correspondance du vocabulaire, la reconnaissance nom propre, l'étiquetage Discours utiliser et ainsi de suite. Mais nous avons noté plus haut mot mot inconnu de reconnaissance est le facteur le plus important affectant la précision des points, donc ne pas dépenser trop d'énergie sur l'optimisation de modèle de langage. Nous n'utilise qu'un vocabulaire algorithme de correspondance maximale inverse de la segmentation du corpus original, les statistiques de fréquence de mot entre alors et obtenir le mot transition modèle de langage de probabilité. Inconnu module de reconnaissance des mots est principalement par le biais de nouveaux corpus de mots basé sur la découverte à grande échelle et un examen manuel des moyens d'exploiter de nouveaux mots et ajouter au vocabulaire. Le nouveau mot où se trouve en utilisant la fréquence de mot, la solidification du mot interne (calculé par l'information mutuelle), et le degré de gauche de la liberté (à gauche et l'entropie d'information calculée à droite) pour l'excavation. La combinaison de ces derniers, la segmentation essentiellement l'effet dans la mesure où des industriels disponibles.

Étiquetage dans la séquence de mots de modèle --CRF

Tout d'abord proposé par la pensée de la formation des mots en 2002, après la méthode de segmentation de mot basé sur ses performances exceptionnelles et sur la reconnaissance mot inconnu est surmonté dans l'évaluation et à la concurrence, alors que mentionné précédemment inconnu précision de la reconnaissance mot pour mot 10 fois l'impact de la segmentation d'ambiguïté, de sorte que les gens préfèrent cette méthode de segmentation plus haut taux de rappel des mots inconnus. Procédé de formation de la parole par le procédé de segmentation de la parole doit être considérée comme un mot de classement de séquence, chaque mot dans la construction d'un mot particulier occupe une formation déterminée de position, tel que le premier mot (B), mot (M ), le suffixe (E) et en mots individuels (S), montré dans l'exemple est la description, les étiquettes de mots, et il en résulte un mot de commande:

original: La déclaration est en effet raisonnable

Marque verbale:  Cette / S mots / S dit / / S fait / solide B / E / B Li / E de S

Résultats de Segmentation: Ceci est en effet raisonnable de dire des mots

Après cela, les résultats de segmentation sont exprimés sous forme de texte sous forme de problème d'étiquetage de séquence de mots deviendra un problème. Par rapport à la méthode de dictionnaire, bien que l'angle d'approche et les méthodes utilisées ont changé, mais le but est similaire, le premier est de trouver la séquence la plus probable de mots (calculée par le modèle de langage), qui est de trouver la plus marque verbale probable séquence, qui forme mathématique comme suit:

Dans laquelle X représente un texte à segmenter, GEN (X) pour toute la séquence de marqueur possible, Y représente une étiquette possible (par exemple BMEBE).

Actuellement en utilisant des méthodes plus marquage séquence ont modèles de Markov cachés (HMM) et champs conditionnels aléatoires (CRF), par rapport au modèle HMM CRF est beaucoup plus faible, de sorte que le modèle de formation et les prévisions pour être beaucoup plus rapide. CRF modèle relativement plus important, lors de l'étiquetage plus de considération avant et après l'emplacement actuel de la séquence d'observation (séquence de mots) comporte simplement des moyens qu'une meilleure utilisation des informations de contexte, il est donc plus puissant. À l'heure actuelle, recherche de mots en utilisant le système 58, et son noyau est le modèle de CRF.

Markov conditions de champ aléatoire est donné sous la moyenne statistique, qui est un modèle graphique probabiliste (noeuds représentent des variables aléatoires, la probabilité exprimée bords dépendances connecté entre les variables). Peut penser à partir du nom, cet ensemble de noeuds dans le graphe doit être divisé en deux variables aléatoires (une condition, et l'autre est aléatoire), tel que X (séquence de mots peut être substitué dans la segmentation) et Y (correspondant à la séquence de mots séquence de marqueur), si une donnée X, Y satisfont la MRF est appelé le CRF. Alors, comment nous pouvons répondre à champ aléatoire de Markov Y il? Nécessité de satisfaire à deux conditions, l'une est la probabilité de la propriété de Markov, après des valeurs de variables de temps (marquage) la distribution des valeurs associées à la seule variable de temps précédent. Une autre est aléatoire, donnent chacun une position d'une des valeurs d'espace donné (B, M, E, S) en fonction d'une certaine distribution aléatoire, qui est appelé avec tout l'aéroport. séquence d'annotation à être utilisé dans un scénario conditionnel chaîne linéaire aléatoire, à savoir, X, Y sont des variables aléatoires représentés par la séquence de chaînes linéaires, il peut être exprimé comme la figure suivante,

Dans laquelle X est une séquence de mots, également appelée séquence d'observation d'entrée, Y est une séquence de marqueur, aussi appelée séquence de marqueur d'état de sortie ou séquences. Figure Probabilité réunion conjointe cette condition a la forme:

Dans lequel, x, y sont des variables X, Y des valeurs aléatoires, Z (x) est un facteur de normalisation, f est la fonction caractéristique de la fonction correspondant la valeur de poids. Dans lequel la fonction de valeur est typiquement égal à 0 ou 1, dans lequel l'apparition de 1 et 0 sinon. Dans « La déclaration ne raisonnable », par exemple, si la séquence est marquée « SSSSBEBE », sélectionnez la fenêtre contextuelle 3, considère i = (à savoir la position de mot « OK ») 5:00 caractéristiques apparaissent:

Caractéristiques mentionnées dans la formule ci-dessus 6, dans lequel caractéristique définie avant sur le noeud (séquence Y), dans lequel l'état est appelé. Dans lequel la septième caractéristique de bord est définie, appelée transfert comprend, en fonction de l'emplacement actuel et l'emplacement précédent. Le CRF est caractérisé généralement extrait par la configuration du modèle de fonction, ces caractéristiques peuvent être vues plus structuré, facile à comprendre. CRF processus de formation de modèle probabiliste est de résoudre tous les poids caractéristiques apparues, avec les poids d'entités, chaque noeud peut facilement calculer la valeur de la distribution, à savoir la probabilité est indiquée comme B, M, E, S, et enfin transférer le poids du bord considéré, tant que nous trouvons la séquence la plus probable de jetons. Comme cela est représenté ci-dessous, chaque noeud, et le côté droit des valeurs séquence de marquage optimale correspondant à la valeur maximale de poids à l'ensemble du chemin dans le schéma de connexion, généralement au moyen d'un algorithme de Viterbi pour rechercher le chemin d'accès optimal.

De la description ci-dessus, on peut voir les modèles CRF peuvent plus utiliser pleinement les informations de contexte à la segmentation du texte, il peut donc résoudre les ambiguïtés points de coupe efficaces et des problèmes d'identification de mots inconnus, et le taux de précision de mot peut atteindre 95% . Mais elle a aussi ses inconvénients, comme mot incompatibles. 58 pages suivantes présenteront une expérience pratique dans la méthode de recherche de mot de CRF.

58 CRF recherche par mot pratique

Cette section principalement par manque de modèles CRF ainsi que 58 autres demandes sur la segmentation de la scène de recherche pour discuter des travaux en dehors des quelques modèles dans notre pratique. À l'heure actuelle le système de segmentation 58 utilisé pour la recherche sur la base du CRF comme indiqué ci-dessous. La figure en dehors du modèle du module est principalement destiné à résoudre le manque de modèles CRF ainsi que 58 autres demandes sur la scène à la recherche du mot. Ce qui suit discutera.

incohérences mot

Segmentation des moyens incohérents dans des contextes différents, le même segment de texte, modèle Parsing résultats différents. Par exemple, un document intitulé modèle « la mère et de rénovation des magasins de vêtements pour hommes magasin d'enfants et la décoration » pour le mot « décoration décoration boutique de magasin de vêtements pour hommes la mère et de l'enfant », les termes de la requête utilisateur que « la décoration magasin de vêtements pour hommes, » le modèle du mot « la décoration du magasin de vêtements pour hommes. » Dans cette requête, le bâton cible ne peut pas être rappelé. Parole incompatible principalement causée par deux raisons, est le sous-mot apparaît matériel d'étiquetage incohérent. Lorsque l'annotation manuelle, différentes personnes peuvent avoir différentes façons de trancher la même phrase, même si la même personne peut avoir des idées différentes sur la même phrase à des moments différents. Par conséquent, une des lignes directrices de segmentation relativement claires sont nécessaires, alors faut aussi dire diviser marqué des matériaux finis ne contrôle de cohérence, comme « magasin de vêtements pour hommes » dans le composé du sous-mot l'existence de « magasin de vêtements pour hommes » et « magasin de vêtements pour hommes » en même temps les résultats du chèque à la coche du personnel de correction, répétez cette procédure pour le modèle de segmentation des mots soulagent du problème d'incohérence. Une autre raison de l'incohérence est le modèle de défaut inhérent, lorsque le contexte change, le processus de recherche sur l'ensemble du chemin optimal a changé, le texte de l'étiquette locale est difficile d'éviter inconsistante. Pour résoudre ce problème, nous présentons le texte reconnu en mots des mots très clairs qui correspondent à la configuration propose par des dictionnaires et des règles, telles que la ponctuation, les expressions idiomatiques, vocabulaire spécifique champ et url, email, numéro de téléphone, date, etc., dont le texte couper pour obtenir une liste de texte, utilisez le modèle ont été coupés court texte pour chaque mot. Cela va affaiblir la probabilité de contexte incompatible dans une certaine mesure, atténuer le problème de la segmentation incohérente. Bien sûr, cela affaiblirait l'efficacité de l'utilisation du processus de segmentation de l'information contextuelle, la précision de la segmentation serait affectée. Ce processus nécessite une évaluation stricte et des compromis. Surtout dans la recherche d'une scène, je pense, les exigences relatives à la cohérence des mots, il n'est pas inférieure aux exigences de précision.

questions de taille mot

Taille des mots est généralement divisée en grains fins et à gros grains, tels que « 58 ville » Est-ce que vous voulez couper dans « 58 » et « ville », « la maison Homeland » Est-ce que vous voulez couper dans « la maison » et « maison », « Nord Jiuxianqiao Road, « Est-ce que vous voulez couper, » Jiuxianqiao « et » du Nord ". Pour un scénario d'application spécifique, la taille des particules correspondantes peuvent être configurées tokenizer. Le plus souvent un mot est de soutenir simultanément segmentation différente de la taille. Dans la scène de la recherche, à gros grains mot, les résultats de recherche seront plus précis, plus pertinent, mais peu de résultats et aucun résultat risquent de se produire. La segmentation grains fins est possible d'assurer un rappel adéquat et la notation de la pertinence avec une stratégie efficace pour assurer des résultats plus pertinents apparaissent dans une position plus élevée. Nous utilisons donc une plus directives de segmentation grains fins, bien sûr, besoin de se joindre à l'extension d'index modèle de segmentation de texte pour améliorer encore le rappel, qui est décrit dans les modules suivants.

Index extension de mot

l'extension de l'index fait référence au mot en mode mot d'index, vous devez découper comme mot beaucoup plus efficace, notre stratégie intègre désormais l'extension des synonymes, l'extension et contiennent le mot extension de règle. expansion Synonyme est mieux comprise, est accomplie par le dictionnaire des synonymes correspondant. Contient un mot est un mot contient un autre mot, comme « salle de gym » contient « fitness », « salon de coiffure » contient une « coupe de cheveux » et ainsi de suite, ce qui est en creusant le dictionnaire contient le match complet. extensions de règles à résoudre est la situation suivante, comme « N-hôpital » (N numérique) pour étendre la « N Hospital », « D Jiuxianqiao route » (D représente l'est, au sud, à l'ouest, au nord,) pour étendre la "Jiuxianqiao", "Jiuxianqiao route", "Jiuxianqiao Street" et ainsi de suite. Cette partie de la solution en configurant le modèle de règle.

la collecte et l'annotation Corpus

l'application PNL souvent dit avoir 60% à 70% du temps est consacré à la collecte et le traitement de corpus de données (y compris le contrôle de la normalisation et de cohérence ci-dessus et ajuster la taille du mot, etc.), il est un faux , ou encore plus. Il décrit quelques-unes des techniques dans le cadre du corpus recueilli ici. L'accumulation initiale du corpus se compose de deux parties: l'une est l'open source ont été données annotée, comme corpus corpus Quotidien du Peuple et la recherche des chiens, l'autre est le corpus de texte 58 scènes, cette partie de la nécessité d'annoter manuellement, accumuler lentement. Eh bien, après nous avons accumulé des données initiales annotés, que la collecte indifférenciée avant que nous ne pouvons pas encore comme pour marquer la ligne du corpus original, l'accent marqué devrait se concentrer sur le corpus actuel ne sont pas couverts ou en se basant sur le corpus d'apprentissage du modèle actuel ne peut pas faire une meilleure prédiction du corpus d'origine.

Voici deux stratégies que nous utilisons, est une analyse de la ligne, la ligne de modèle de prévision est le processus de résolution de la plus grande probabilité de sentiers balisés, nous pouvons prédire quand le corps opposé (corpus sans étiquette), et la probabilité du chemin optimal moins d'une certaine valeur de seuil en tant que candidat recueilli corpus corpus vert. L'autre est l'analyse hors-ligne, la première à grande échelle collection hors ligne corpus brut, un mot avec le modèle actuel. Ensuite, la fréquence des mots statistique de chaque mot dans le corpus du mot entier, les degrés de solidification interne, de la liberté (nouveau mot découverte mentionné précédemment est l'utilisation de ces indicateurs), d'évaluer en mots chaque score de mot (est un bon mot, ou mauvais mot), alors vous pouvez calculer le score de segmentation de la phrase, de sorte que vous pouvez taper le numéro du corpus de segmentation du modèle actuel pauvre, et ajouté à la plate-forme d'étiquetage pour l'annotation manuelle.

épilogue

En résumé, nous avons introduit le développement de la méthode de segmentation selon plusieurs techniques de segmentation représentatifs, y compris mot du dictionnaire, les dictionnaires et la combinaison statistique de la segmentation et la segmentation basée sur des modèles statistiques. Comme on le voit, le chemin de développement complet du dictionnaire (règle) à l'évolution des statistiques, mais les caractéristiques statistiques de ces méthodes sont utilisées principalement par les gens de la connaissance de préciser, comme la fréquence des mots, les probabilités de transition, les modèles de CRF et d'autres caractéristiques. La PNL en traits sémantiques plus riches profondément ancrés ne peuvent souvent pas être perçu directement. Depuis lors, il y a eu segmentation des réseaux de neurones ou à base de modèles d'apprentissage en profondeur, ils ne peuvent pas compter sur la connaissance humaine aux fonctions d'extraction, et peuvent apprendre du corpus lui-même à de riches fonctionnalités sémantiques qui leur permettent d'avoir un plus grand potentiel. Après réapparue sur une grande méthodes pré-formation corpus à grande échelle et des tâches spécifiques à affiner le modèle n'est pas marqué, il est en mesure de réaliser un bon effet de segmentation dans le cas d'une petite quantité de données annotées. Dans le sens de l'apprentissage en profondeur et le modèle de langue pré-formation, nous avons essayé, et nous avons obtenu certains résultats, l'espace limité derrière la possibilité de poursuivre l'introduction.

Association centrale Combattre la pauvreté et le contrôle démocratique du Groupe de travail enquête Xinshao County attaquer à la pauvreté
Précédent
mot chinois des articles d'apprentissage en profondeur
Prochain
Ali Mama: le développement du modèle de fournisseur d'électricité estimée et les défis
Druide précision adroite à la conception et la mise en uvre lourde
compréhension technique du contenu audio clé
Ali Taobao électricité pour le transformateur est recommandé, mieux que DIN et Google BNM
algorithme d'optimisation KNN 1: Distance pondérée
Gardez à l'esprit les exhortations du président Xi gagner la formation des talents pour les troupes
convolution vide (Dilated Convolution): il y a que les avantages, sans la pensée
l'application Gotcha! personnalisé PageRank dans la détection de la fraude
Nourriture pour chien maison, rapide délicieux et nutritifs, donc l'amour Gouzi ne traite pas de la bouche ~
Pony.ai défis d'infrastructure et la pratique
Dry Partager | PB qualité Kubernetes journal Ali pratique de construction de plate-forme
L'été va venir, le coup de chaleur chien, comment faire?