produits purs � sec | algorithme de d�duplication massif courte sc�ne texte

L'approche la plus simple,

Dans la plupart des cas, un grand nombre de texte en double est g�n�ralement pas une bonne chose, comme la copie les uns des autres nouvelles, la majorit� des messages de spam, une copie de la publicit� omnipr�sente, etc., ce qui peut provoquer l'homog�n�it� du contenu Web et d'augmenter la charge de stockage de base de donn�es pire est de r�duire la qualit� du contenu du texte. Par cons�quent, la n�cessit� d'un texte pr�cis et efficace algorithme de d�duplication. La plus simple approche est toute comparaison de paires de texte, simple et facile � comprendre, plus conforme � l'intuition humaine, pour une petite quantit� de texte, il est �galement tr�s facile � r�aliser, mais pour les grandes quantit�s de texte, ce qui est �videmment ne va pas au travail, parce qu'il complexit� du temps est au niveau de 100 millions pour que le texte lourd, du temps que nous pouvons avoir dans les ann�es, ce qui est le cas.

De plus, nous avons parl� de d�saccentuation, implique en fait deux aspects, le premier est de comparer ce moyen est plus efficace, et le second est le temps de comparer les crit�res de poids sont. Ici D�duplication texte standard dans le domaine, il est de savoir comment mesurer la similitude des deux textes, comprennent g�n�ralement la distance d'�dition, la distance Jaccard, la distance cosinus, la distance euclidienne, etc. distance s�mantique, l'utilisation de diff�rents domaines et dans diff�rents sc�narios mesure de similarit�, ce n'est pas l'objet de cet article, donc refrain, ci-dessous se concentrer sur la r�solution du probl�me de rendement relativement �lev�.

L'id�e de base

La cl� pour r�duire la complexit� du temps: > �Le meilleur potentiel similaire � une polym�risation en texte, limitant ainsi consid�rablement la gamme � comparer

simHash algorithme

texte masse � l'int�rieur algorithme de d�duplication, le plus connu est l'algorithme simHash, est Google a propos� un ensemble d'algorithmes et appliqu� au poids r�el de la page Web pour aller. algorithme SimHash est la plus caract�ristique importante: le mappage d'une cha�ne de texte 01 et 01 pour obtenir des similitudes entre la cha�ne de texte sont similaires, que dans quelques positions 0 et 1 ne sont pas les m�mes. Pour caract�riser la similitude de texte peut �tre calcul� entre les deux cha�nes diff�rentes du nombre 01 position, elle la distance de Hamming est utilis� pour caract�riser le degr� de similitude entre les deux textes algorithme de simHash, de mani�re g�n�rale, la texte similaire, la distance Hamming entre la cha�ne 01 correspondant � simHash la carte obtenue plus petite.

Afin de rendre ce processus plus clairement, ici donner un exemple simple.

t1 = � m�re veut que vous veniez d�ner. �

t2 = � ma m�re vous a dit de manger. �

On peut le voir, les deux premi�res cha�nes, bien que seulement un autre mot, mais la valeur de hachage obtenue par un simple algorithme de hachage peut compl�tement diff�rent, et ne peut donc �tre caract�ris� par la similitude du texte original obtenu en utilisant la valeur de hachage. Cependant, apr�s simhash par l'algorithme de mise en correspondance, simHash est une valeur obtenue de la mani�re suivante:

SH1 = "1000010010101101 1111110000010101101000 00111110000100101 001011"

SH2 = "1000010010101101 1111110000010101101000 00111110000100101 001011"

Une observation attentive, que ce qui pr�c�de deux valeurs trois endroits diff�rents simHash (diff�rent de la place avec � � marqu�), de sorte que la distance de Hamming entre le texte original est 3. En g�n�ral, le crit�re de distance de Hamming pour la d�tection du texte similaire est 3, qui est, lorsque la distance de Hamming entre les deux textes correspondants simHash inf�rieur ou �gal � 3, qui est consid�r� comme deux textes similaires, S'il est lourd va, alors vous ne pouvez laisser un d'entre eux.

Pour re-processus de l'algorithme simHash id�e est tr�s simple, tout d'abord, il est un point cl�: > �Si le crit�re de texte similaire est la distance de Hamming 3, d'�tre pr�sent dans un poids deux concentration de corpus de texte similaire, � savoir la valeur maximale de la distance de Hamming entre les deux texte similaire 3 (correspondant � la valeur de hachage d'un maximum de 3 dans des endroits diff�rents), si simHash est de 64, cela peut �tre une valeur de hachage 64 bits de haut en bas, est divis� en quatre cons�cutifs de 16 bits, puis trois positions diff�rentes peuvent remplir l'une des quatre trois intervalles (vous pouvez vous tourner, si ces quatre sections sont remplies, et il est devenu une distance de Hamming de 4). Ce texte similaire deux doit �tre exactement la m�me chose sur un 16 d'entre eux continue.

Apr�s envie de comprendre ce point critique, peut-�tre tout le texte est d'effectuer une simHash (ici en utilisant 64 par exemple) remappage, la cha�ne 01 de haut en bas sont divis�s en sections, comme discut� ci-dessus, deux il y aura un texte similaire � un paragraphe, toujours avec l'exemple ci-dessus, est divis� en quatre sections, comme suit:

t1 = � m�re veut que vous veniez d�ner. �

SH1 = "1000010010101101 1111110000010101101000 00111110000100101 001011"

SH1_1 = # premier paragraphe "1000010010101101"

SH1_2 = " 111111000001010" # deuxi�me segment

SH1_3 = "1101000 00111110" # troisi�me section

SH1_4 = "000100101 001011" # quatri�me segment

t2 = � ma m�re vous a dit de manger. �

SH2 = "1000010010101101 1111110000010101101000 00111110000100101 001011"

SH2_1 = # premier paragraphe "1000010010101101"

SH2_2 = " 111111000001010" # deuxi�me segment

SH2_3 = "1101000 00111110" # troisi�me section

SH2_4 = "000100101 001011" # quatri�me segment

Une fois cette �tape termin�e, l'�tape suivante consiste � construire l'indice. Comme discut� ci-dessus, sont chacun simHash de haut en bas sont divis�s en quatre segments, chaque segment de 16 bits. Dans le proc�d� de construction d'un index invers�, l'interception des 16 fragments de ces cha�nes 01, respectivement, que la valeur de la cl� d'index, et la totalit� du fragment de texte correspondant ayant la position ajout�s aux champs de valeurs d'index. compr�hension intuitive, tout d'abord il y a quatre cuves, 1,2,3,4, respectivement (correspondant � un 64-bit valeur de hachage de la premi�re, deux, trois, quatre), chacun dans une cuve, respectivement, et apr�s un petit tonneau, dont le nombre tonnelet pendant l'indexation de chaque texte correspondant � la valeur obtenue � partir de simHash 0000000000000000 � 1111111111111111., respectivement, pour examiner chaque section (a d�termination des cuves 2, 3 et 4), selon une autre valeur de hachage du segment de 16 bits, le texte sera plac� dans le f�t de la cuve correspondant au nombre correspondant. Une fois l'indexation est bonne, en raison de la similitude dans le seau certain texte sera une valeur de hachage 16 bits, et donc de poids (peut �tre fait en parall�le) pour tous ces segments du canon, ils peuvent tous les textes similaires dans la collection texte supprim�s .

La r�utilisation de processus simHash ci-dessous:

En r�sum�, une �tape � la simHash du poids global principalement trois: 1. simHash �tre mis en correspondance avec un poids pour chaque texte; 2. simHash le segment �tablir la valeur d'index invers�; 3. une valeur de hachage de chaque segment le fonctionnement en parall�le de d�duplication.

De lourds utilisation simHash il y a deux points cruciaux: - Apr�s la cartographie simHash reste la similitude du texte original; - diviser et les pens�es Conquer r�duire consid�rablement le nombre de comparaisons inutiles.

Ainsi, avec ces deux font que pour le long texte algorithme de simHash poids et bonne mesure de distance de Hamming de similitude entre le texte, peut r�duire consid�rablement la complexit� temporelle de l'algorithme, et peut �galement obtenir effet. Toutefois, dans le sc�nario court texte, cet effet devient pauvre m�thode de mesure, habituellement utilis� pour mesurer long texte seuil similaire � distance de Hamming est 3, mais le texte court, la distance de Hamming entre le texte similaire la distance habituellement sup�rieur � 3, et l'algorithme est bas� sur le plus �lev� le seuil de similitude de la distance Hamming, la complexit� temporelle de l'algorithme sera plus �lev�, la distance de Hamming ne peut pas continuer � ce moment comme une mesure de similitude de texte court crit�res appliqu�s � la d�saccentuation dans le court texte.

algorithme de d�duplication en fonction du texte de l'information locale

processus de d�duplication � base de texte informations locales, l'id�e de base et simHash similaire, mais au lieu d'utiliser la valeur de hachage, mais l'utilisation directe d'une cha�ne de sous-texte comme une cl�, puis ceux qui ont cette sous-cha�ne du texte sera mis � l'enfant cha�ne godet correspondant. Cela implique une pr�misse: > �Tous les deux textes similaires peuvent �tre d�termin�es doivent �tre sur un ou plusieurs sous-cha�ne est exactement le m�me.

En outre, les sous-cha�nes de production peuvent �tre produits par des n-grammes similaires (si le mot et le niveau de parole, correspondant � zona) m�thode, une fen�tre glissante est pr�lev�e directement � partir du texte original, qui peut �tre enlev� apr�s que les mots restants sont d�sactiv�s s�quence pris des combinaisons de mots, peut �galement �tre prise apr�s l'original digest pour g�n�rer du texte, tant que le court texte dans la base de lossy texte original ou une plage acceptable, ceux-ci peuvent �tre produits en utilisant comme indice sous-cha�ne id�es similaires.

D�duplication algorithme complet est divis� en cinq grands cadres, chacun comprenant: un pr�-traitement de texte, l'index invers�, la partition parall�lisation, de r�-impl�mentation de l'algorithme, le texte de fusion et similaires.

Texte pr�-traitement

Selon le pr�-texte de la m�thode d'interception sous-cha�ne sp�cifique choisie, elle varie. Si les sous-cha�nes sont form�es par une combinaison de mots, il est n�cessaire de diviser le mot texte, si la n�cessit� de supprimer les mots d'arr�t, ce travail est le pr�-traitement de texte. Pour simplifier le processus d'analyse, cela est principalement pris directement � la sous-cha�ne de texte, par exemple, inf�rieure � la normale et donc relativement peu de travaux de pr�-traitement.

indexation Inverted

Supposons que deux textes similaires potentiel (dont l'une est n�cessaire pour enlev� le poids) sont T1 et T2, la sous-cha�ne de texte identique cons�cutive maximale a k entre eux, ils forment un ensemble, qui est d�fini comme S = {s1, s2, ..., sk}, cha�ne texte sous-longueur est correspondant � un ensemble l = {l1, l2, ..., lk}, pour �tre texte re-deux pour ce moment particulier, s�lectionn� l'interception d'une longueur de cha�ne sous-texte ne peut pas d�passer une certaine valeur de seuil, parce que si la longueur d'interception d�passe ce seuil, les deux textes ne plus la m�me cha�ne de texte sous-index, l'algorithme ne va pas tout le chemin de comparer les deux textes, donc nous ne pouvons pas atteindre l'objectif de d�-duplication. Ce seuil sera d�fini comme la longueur maximale du poids � ces deux textes, sont:

En haut poids de tous les mots de texte global, ce qui correspond a �galement une longueur de d�duplication globale m, qui caract�rise Si vous voulez que cette partie de l'ensemble du texte similaire au texte au poids des mots, pour chacun des besoins de texte pour s�lectionner une longueur d'interception appropri�e. En g�n�ral, la complexit� temporelle de choix avec des taux de d�duplication et de l'algorithme de d�duplication globale li�e � la longueur du choix r�el, est d'envisager un taux de compromis du poids et de la complexit� du temps. Effet Deduplication de d�duplication globale longueur choisie plus petite, plus le texte (rapport poids augmente), mais la complexit� de temps correspondant est plus �lev�. Un poids plus important � la longueur totale du texte s�lectionn� semblable � l'effet de la variation du poids (comparatif des parties similaires ne sera pas le texte), mais r�duira la complexit� du temps. Voici pourquoi: Si la dur�e excessive globale de d�duplication s�lectionn�e, sera sup�rieure � la longueur maximale � beaucoup de texte lourd similaires, de sorte que ces textes similaires ne sera plus d�termin� comme �tant un texte similaire, les taux de d�duplication va donc tomber, mais est aussi parce que la r�duction du nombre de comparaisons, la complexit� du temps sera r�duite. En revanche, avec la diminution de la longueur totale de la masse de texte plus similaire est divis� en le m�me indice, apr�s un calcul de similarit�, la similitude du texte correspondant sera retir�, et donc le rapport pond�ral global � augmenter, Cependant, en raison d'une augmentation du nombre de comparaisons, la complexit� du temps augmentera.

En supposant un �chantillon sur le corpus de texte de texte similaire � C, peut �tre d�termin�e en fonction d'une longueur de d�duplication globale m de cet ensemble �chantillon, la situation r�elle indique, en g�n�ral, lorsque m > = 4 (ce qui correspond g�n�ralement � la longueur de deux mots chinois), des algorithmes de calcul parall�le, la complexit� temporelle a �t� r�duite � une gamme acceptable peut �tre obtenu:

Est suppos� �tre un texte lourd t, dont la longueur est n. Pris dans leur sous-cha�nes d�finissant un ensemble de S, en fonction de la relation de taille m m-grammes et n, il y a les deux situations suivantes: (1) lorsque n > = M, le m peut �tre prise en fonction de la taille de certains sous-ensemble m-gramme de cha�nes de caract�res, la taille de l'ensemble de n-m + 1, comme indiqu� par le symbole S = {s1, s2, ..., sn-m + 1}; (2) lorsque n < Lorsque m, ne peut pas la longueur ordonn�e � l'origine de la cha�ne sous-m, de sorte que tout le texte dans son ensemble est ajout� � la sous-ensemble de cha�nes qui, par cons�quent S = {t}. Chaque �tre texte D�duplication sous-cha�ne m-gramme jeu g�n�ration apr�s, t pour chaque texte, traversant les �l�ments correspondants dans l'ensemble, chaque sous-ensemble de la cha�ne de caract�res comme cl�, le texte original correspondant � la valeur t comme combin�es en une paire de valeurs de cl�. sous-ensemble de l'ensemble de la cha�ne de texte m-gramme apr�s la fin de la travers�e, chaque texte peut obtenir son index invers� n-m + 1 e sous-cha�nes m-gramme. Ensuite, selon les diff�rentes valeurs de la cl� d'index, la polym�risation peut �tre r�alis�e avec tout le texte de l'indice des valeurs cl�s, pour la logique de re � r�aliser.

cadre de l'algorithme parall�le

Apr�s cette trame parall�le reposent principalement sur Spark atteint, l'ensemble du texte original dans HDFS est stock�e sur chaque noeud de la grappe, au moins conform�ment � la m�thode ci-dessus indiqu�e de chaque partie du texte est divis� en l'index correspondant � chaque un index de hachage en tant que cl�, et toutes les valeurs de hachage en fonction du poids � affecter aux noeuds de la machine de textes appropri�s (serveur au dessin), chacun d'un noeud de grappe distribu� est n�cessaire seulement de travailler sous la machine de travail agricole de la pr�sente . cadre Spark � base r�partis comme suit, chaque serveur est un nud de travail, le pilote responsable de la distribution et le d�ploiement de HDFS sera stock� sous la forme d'une collection de texte distribu� � ces noeuds, l'�quivalent du potentiel du texte peut �tre r�p�t� un grain grossier leur agr�gation, pas reproduire le texte a �t� compl�tement s�par�, de sorte que chaque serveur ne doit �tre tenu responsable des travaux lourds sur ce nud, chaque serveur dans le texte final est laiss� apr�s la premi�re d�saccentuation.

la mise en uvre de D�duplication

Apr�s la mise en place du cadre parall�le peut �tre divis�e pour chacun des textes dans un indice de comparaison par paires (comme celui repr�sent� sur la figure., Chacun de la pluralit� d'indices serveur est possible de traiter le texte correspondant), le texte de ce qui conduit � poids. 1 d'apr�s l'analyse, les deux textes similaires peuvent �tre d�termin�es T1 et T2, il doit �tre sur une ou plusieurs sous-cha�ne de texte est exactement le m�me. 3.1.1 Les param�tres de ces sous-cha�ne continue maximale identique constituent un ensemble S = {s1, s2, ..., sk}, pendant t1 et t2 pour diviser les sous-cha�nes de m-grammes, on suppose m-gramme peut �tre obtenue sous-cha�nes sont d�finis comme S1 et S2, S peut supposer qu'il y a une sous-cha�ne de Si, de sa longueur | si | plus grande longueur que la d�duplication m global, alors il doit �tre divis� en la sous-cha�ne si | si | -m + 1 i�me sous-cha�ne m-gramme, et ceux-ci seront pr�sents � la fois dans la sous-cha�ne S1, S2 est �galement pr�sent dans le. En outre, t1 et t2 sont simultan�ment pr�sents pour que | si | -m + 1 �me invers� cl� d'index sous-cha�ne m-gramme.

D�duplication quand, pour chacun de tous peut �tre calcul� le texte de l'indice de similitude entre deux. Approche sp�cifique est dynamiquement maintenu un ensemble de r�sultats dans l'�tat initial s�lectionn� de fa�on al�atoire l'un � partir du texte dans l'index de texte de semence, puis parcourt � �tre dans le texte indice de d�duplication, des tentatives pour traverser de chaque texte ajout� � l'ensemble de r�sultats , au cours de l'addition, le calcul de la traverse vers le texte dans le jeu de r�sultats pour chacun si le texte peut �tre jug�e comme �tant similaire (avec une mesure de seuil de similitude), si le r�sultat mis � une disposition de ces conditions similaires atteint, sortir les r�sultats traversant l'ensemble, le jeu de r�sultats si le d�clencheur pas compl�tement traverse des conditions similaires, il indique que le texte soit lourd et sont connus pour l'ensemble de r�sultats n'a pas de double du texte ajout� � l'ensemble de r�sultats, et commence � �tre sous texte lourd une fois travers�. Lorsque la d�duplication, mesure de similarit� entre les deux textes est critique, affectent directement les r�sultats de d�duplication. Le proc�d� peut �tre utilis� comprennent la distance d'�dition, similitude Jaccard et similaires. En utilisation r�elle, similitude Jaccard calcul�e � comparer n�cessite g�n�ralement le mot de texte, il est suppos� �tre compar� apr�s les deux ensembles de segmentation de mots sont A et B, par d�finition similitude Jaccard peut �tre obtenu � la fois le texte de toute �vidence la similitude, dont le texte deux similarit� de Jaccard compl�tement incompatible est �gal � 0, deux texte identique, en regard de laquelle la similitude Jaccard 1, de sorte que la similitude Jaccard est un nombre compris entre 0 et 1, la d�duplication ils peuvent r�ellement besoin de d�terminer une valeur de seuil appropri�e, est sup�rieur � sera d�termin� comme �tant si semblable que le texte est retir� de la valeur seuil.

Pour r�aliser tout le poids du pseudo-code suivant:

�tat initial:

Texte ensemble T = {t_1, t_2, ..., t_n}

r�sultat D�duplication R = {}

Similarity seuil sim_th

sortie:

R�sultats d�duplication R

processus algorithmiques:

for i in T:

�drapeau = true

�pour j R:

�if (similitude (i, j) < �sim_th)

�drapeau = false

�briser - > �suivant i

�d'autre

�continuer - > �prochaine j

�if (drapeau)

�R.append (i) # i repr�sente le texte de jeu actuel de r�sultat et tout texte ne se r�p�te pas, le jeu de r�sultats sera ajout� � l'i

Texte � re-fusion

Le but principal de cette �tape est une division dans le texte sur les diff�rents noeuds selon la pr�programm� bonne id de machine, un re-hachage pour un poids normal, comme au cours de l'�tape pr�c�dente, les sous-cha�nes peuvent �tre diff�rentes selon godet correspondant repartira avec un texte, apr�s cette �tape de re-hachage, ils ont mis ces id r�p�t�es enlev�. Le r�sultat final est obtenu, l'ensemble du corpus de texte, le texte n'a retenu une r�p�tition, en vue de l'ach�vement de d�-duplication. Pour tout le poids du flux comme indiqu� ci-dessous:

Comparez et simHash

Ici, propos� par le simHash algorithme de d�duplication par rapport �, respectivement, de la complexit� du temps et de la pr�cision de revenir l�-dessus,

Tout d'abord, la complexit� de temps est consid�rablement r�duit - le nombre de points en fonction de la taille des seaux du changement dynamique de la quantit� de texte, est d'environ 2 fois le nombre de texte, un texte ne signifie pas une baignoire unique, la baignoire complexit� de calcul est consid�rablement r�duit, l'algorithme simHash le nombre, la baignoire est fix� 4 * 216 = 260000 - en g�n�ral, le texte ne combinaisons semblables ont des mots similaires, de sorte que sous une combinaisons de mots sp�cifique comme la majorit� du texte, un seul baril � complexit� temporelle s�v�re tend � O (N); dissemblable de simhash respective, � canon unique encore beaucoup de texte, la complexit� de temps a tendance � s�v�re O (N ^ 2)

En second lieu, une mesure plus pr�cise de la similitude: - utiliser un outil de similarit� plus pr�cis m�triques, mais irr�alisables dans lequel un texte court simHash distance de Hamming, le rappel est trop faible, le texte ne satisfait pas beaucoup la distance de Hamming similaire est inf�rieure � 3 conditions

r�sum�

Le pr�sent document �tablies � partir des informations locales telles que l'algorithme de texte du poids, il est dans l'autre sc�nario court texte simHash D�duplication D�duplication algorithme ne peut pas r�pondre aux fins propos�es, en effet, �tre appliqu� �galement aux exigences lourdes sous texte long, th�oriquement la complexit� du temps peut �tre beaucoup plus faible que simHash, l'effet peut et simHash presque le seul inconv�nient est que l'espace de stockage sera plus grande, car l'algorithme requis pour stocker une copie de beaucoup de texte, mais dans les magasins ces copie de texte, ils peuvent utiliser unique au monde id au lieu, de sorte que la pression n'am�liore pas le lot de stockage, par rapport � r�duire consid�rablement la complexit� temporelle de cet espace pour stocker la pression est compl�tement supporter.

sortie d'origine au nombre de micro-cha�ne publique - Tencent QQ gros volumes de donn�es (qq_bigdata)

Route de la soie

Apprenez � conna�tre la Chine

produits purs � sec | algorithme de d�duplication massif courte sc�ne texte