Text Mining cours d'introduction: mod�le sujet permet le traitement des donn�es de texte plus heureux

En abordant la question du traitement du langage naturel, l'extraction de texte a une m�thode appel�e le mod�le de sujet, ce qui est extr�mement utile lors de l'extraction du sujet d'ordre technique, alors quel est le mod�le de sujet? Lorsque vous utilisez un mod�le de sujet? Utilisation latent analyse s�mantique en Python lorsque le mod�le pour aborder le sujet, mais aussi doit pr�ter attention � ce que les questions? Apr�s avoir lu l'article, je pense que vous aurez le plus r�el r�colte!

avant-propos

Avez-vous d�j� �t� de maintenir la biblioth�que assez compl�te? Biblioth�caire ces gens tr�s admirent, les livres sont class�s en fonction de leur nom, le contenu ou le sujet, tout est bien g�r�. Mais si vous jetez eux des milliers de livres, puis les laisser faire selon le type de livres � ranger, ils pourraient jour sans fin, et encore moins � une heure de la.

Toutefois, si ces livres sont un texte �lectronique, puis les travaux de finition est probablement quelques secondes, sans humain. Traitement du langage naturel Hourra!

Regardez d'abord le fragment de texte suivant:

Il y a du texte de r�f�rence d'arri�re-plan, vous pouvez voir un total de trois th�mes (ou un concept) - Th�me 1, Th�me 2 et Th�me 3. Un bon mod�le de sujet peut identifier des expressions similaires et les mettre dans une cat�gorie. Dans l'exemple ci-dessus le plus �vident th�me est le th�me de 2, principalement sur le contenu vid�o faux.

Int�ressant? Bon! Cet article d�crit une m�thode appel�e mod�le de texte � th�me minier. Cet extrait est l'objet d'une technique tr�s utile pour r�pondre � des probl�mes de traitement du langage naturel sont �galement tr�s fr�quents.

Conseil: Il est fortement recommand� de lire cet article � la d�composition de valeurs singuli�res (SVD) et les concepts de UMAP � comprendre (https://www.analyticsvidhya.com/blog/2018/08/dimensionality-reduction-techniques-python/). Cet article est bas� sur ces concepts, donc d'abord apprendre qu'ils aident � consolider notre compr�hension des concepts de base.

annuaire

Quel est le mod�le de sujet?

Lorsque vous utilisez le mod�le de sujet?

Analyse s�mantique latente (Latent Semantic Analysis, LSA)

En Python utilise LSA

�4.1 lecture et l'affichage des donn�es

4.2 Donn�es Pr�traitement

4.3 Texte - Matrice mots

4.4 Mod�le sujet

4.5 Th�me de visualisation

avantages et inconv�nients LSA

D'autres mod�les de sujets techniques

1. Quel est le mod�le de sujet?

mod�le sujet est une technique non surveill�e utilis�e pour d�couvrir une vari�t� de sujets dans un document texte. Ces th�mes sont abstraits dans la nature, qui est li� � l'autre fera l'objet du mot. En m�me temps, un document unique peut avoir plusieurs sujets. Le pr�sent document entend mod�le temporairement sujet bo�te noire, comme indiqu� ci-dessous:

La bo�te noire (qui est, le mod�le de sujet) les expressions connexes divis�s en diff�rents groupes, appel�s th�mes. Ces sujets ont une distribution sp�cifique dans le texte, chaque sujet peut �tre combin� avec des proportions diff�rentes de mots pour d�finir.

2. Lorsque vous utilisez un mod�le de sujet?

Rappelons que la finition du livre avant les t�ches mentionn�es. Maintenant, imaginez que vous devez classer les documents �lectroniques. Bien s�r, si le document est relativement faible, vous pouvez accomplir cette t�che manuellement. Mais si le document est particuli�rement important, alors comment faire?

Cette fois, il devrait utiliser la technologie de traitement du langage naturel. Pour cette t�che, le mod�le sera utilis� pour compl�ter le th�me.

mod�le sujet peut nous aider � explorer de vastes quantit�s de donn�es texte, regroupement des mots, des similitudes entre le trouv� texte et a trouv� un th�me abstrait. Si vous pensez qu'il n'y a pas assez de ces d�fis des t�ches, le mod�le sujet peut �galement trouver des r�sultats correspondant avec le texte de recherche dans les moteurs de recherche. Est-ce pas ce que cela signifie? Continuons � explorer � fond!

3. Analyse s�mantique latente (Latent Semantic Analysis, LSA)

Toutes les langues auront leur propre complexit� et les traits d�licats, ces machines sont difficiles � contenu de capture (aussi parfois difficile de distinguer l'homme lui-m�me). Par exemple, des mots diff�rents peuvent avoir la m�me signification et le m�me mot, ils peuvent avoir des significations diff�rentes.

look Let les deux phrases suivantes:

1. J'aim� son dernier roman �beaucoup.

2. Nous aimerions faire une �roman �campagne de marketing.

La premi�re phrase, � roman � de se r�f�rer � un livre, et il repr�sente la deuxi�me phrase du roman, roman.

On peut en d�duire le sens de ces deux mots � travers le contexte facilement, mais la machine ne sera pas attraper ce concept, car il ne comprend pas le contexte du mot � utiliser. Cette fois-ci nous avons besoin d'utiliser l'analyse s�mantique latente, et il peut se fonder sur le contexte entre l'expression d'essayer de comprendre le sens de c'est que nous parlons du sujet.

Par cons�quent, l'expression simplement mis en correspondance le document ne doit pas n�cessairement l'effet, ce que nous avons besoin est d'apprendre � conna�tre le concept et le th�me derri�re les mots. L'analyse est Latent Semantic la capacit� de trouver un moyen de cacher le sujet, maintenant nous allons explorer davantage le fonctionnement interne de l'analyse s�mantique latente.

�tapes mise en uvre Analyse s�mantique latente

Disons que nous avons des documents m, des documents pour un total de n mots uniques, on extrait les sujets k de tous les documents. O� k est le nombre de sujets, il est d�fini par l'utilisateur.

configuration en forme, tel qu'un m * n le document - matrice de mots, qui comprend un score TF-IDF.

Ensuite, la m�thode d�crite ci-dessus, nous utiliserons la d�composition en valeurs singuli�res de la matrice (SVD) de dimension k r�duite.
d�composition en valeurs singuli�res (SVD) de la matrice en trois matrices. Par exemple, nous voulons utiliser une d�composition de valeurs singuli�res (SVD) pour d�grader la matrice A, alors nous allons obtenir la matrice U, la matrice S et la matrice VT (matrice V transpos�e matrice). Matrice Uk (document - matrice de phrase) de chaque rang�e est une repr�sentation vectorielle du document. La longueur de ces vecteurs est k, qui est, le nombre de sujets que nous avons mis. phrase Vector repr�sente en Vk (mots - Th�me Matrice) R�sultats.

Ainsi, la d�composition de valeurs singuli�res (SVD) pour chaque donn�e de document et une phrase Nous avons effectu� pour quantifier la longueur de chaque vecteur est k. Nous pouvons combiner une m�thode de similarit� cosinus de l'utilisation de ces vecteurs pour trouver des phrases et des documents similaires.

4. En utilisant l'analyse s�mantique latente en Python

nous pr�sentons ici comment utiliser l'analyse s�mantique latente pour r�soudre le mod�le de sujet de probl�me en Python. Apr�s avoir ouvert Python, je peux suivre les �tapes ci-dessous pour commencer l'ex�cution de code.

4.1 lecture et l'affichage des donn�es

Tout d'abord � charger le package suivant:

importer numpy comme np

pandas g�ants importation comme pd

matplotlib.pyplot importation comme plt

Seaborn d'importation comme sns

pd.set_option ( "display.max_colwidth", 200)

Dans cet article, nous utiliserons sklearn des '20 ensembles de donn�es � Newsgroup. Ici vous pouvez t�l�charger l'ensemble de donn�es et ex�cuter le code.

de fetch_20newsgroups � l'importation de sklearn.datasets

ensemble de donn�es = fetch_20newsgroups (lecture al�atoire = True, random_state = 1, supprimer = ( 't�tes', 'pieds de page', 'citations'))

documents = dataset.data

len (documents)

Sortie: 11314

dataset.target_names

< 'Alt.atheism',

�'Comp.graphics',

�'Comp.os.ms-windows.misc',

�'Comp.sys.ibm.pc.hardware',

�'Comp.sys.mac.hardware',

�'Comp.windows.x',

�'Misc.forsale',

�'Rec.autos',

�'Rec.motorcycles',

�'Rec.sport.baseball',

�'Rec.sport.hockey',

�'Sci.crypt',

�'Sci.electronics',

�'Sci.med',

�'Sci.space',

�'Soc.religion.christian',

�'Talk.politics.guns',

�'Talk.politics.mideast',

�'Talk.politics.misc',

�'Talk.religion.misc'>

L'ensemble de donn�es contient 11.314 copies des documents de 20 m�dias diff�rents.

4.2 Donn�es Pr�traitement

D�marrer, nous voulons autant que possible le nettoyage des donn�es texte. Le principe de base est d'utiliser des expressions r�guli�res, utilisez le remplacer ( � �) code pour tous les caract�res sauf les lettres et les espaces supprim�s. Ensuite, nous excluons une court terme, parce que souvent ils ne contiennent pas d'informations utiles. Enfin, nous mettons tout le texte est converti en lettres minuscules, une telle reconnaissance ne sont pas sensibles � la casse.

news_df = pd.DataFrame ({ 'document': documents})

# Retrait tout sauf alphabets`

news_df = news_df . str.replace ( "", "")

# Suppression des mots courts

news_df = news_df appliquer (lambda x :. '' .join ( ))

# Faire tout en minuscules texte

news_df = news_df appliquer. (lambda x: x.lower ())

Arr�ter la suppression de mot est n�cessaire, car ils sont g�n�ralement d�sorganis�s et n'expriment aucune information. Arr�t mot contient le � il �, � ils �, � am �, � �t� �, � � propos �, � parce que �, � tout � et ainsi de suite.

Retirer les mots d'arr�t d'un document, il faut d'abord le document pour marquer la cha�ne, la cha�ne est coup�e en �tiquettes individuelles ou des mots. Apr�s la suppression des mots d'arr�t nous r�tablirons ces connect�s.

de mots vides d'importation nltk.corpus

stop_words = stopwords.words ( 'anglais')

# Tokenisation

tokenized_doc = news_df appliquer. (lambda x: x.split ())

# Supprimer mots stop

tokenized_doc = tokenized_doc.apply (lambda x: )

# De-tokenization

detokenized_doc =

for i in range (len (news_df)):

�t = '' .join (tokenized_doc )

�detokenized_doc.append (t)

news_df = detokenized_doc
4.3 Texte - Matrice mots
Ceci est la premi�re �tape dans la cr�ation de mod�le de th�me. Nous cr�erons le texte contient 1000 mots avec fonction TfidfVectorizer sklearn - la matrice de mots.

de TfidfVectorizer d'importation sklearn.feature_extraction.text

vectorizer = TfidfVectorizer (stop_words = 'anglais',

max_features = 1000, # 1000 keep top termes

max_df = 0,5,

smooth_idf = True)

X = vectorizer.fit_transform (news_df )

X.shape forme # ch�que de la matrice document terme

(11314, 1000)

En fait, on peut utiliser tous les mots pour cr�er une matrice, mais cela perdre beaucoup de temps et de ressources informatiques. Par cons�quent, nous allons limiter le nombre de caract�ristiques de 1000. Si vous avez des ressources informatiques suffisantes, je sugg�re que vous pouvez mettre tous les mots sont couverts � l'int�rieur.
4.4 Mod�le sujet
L'�tape suivante consiste � documenter et chaque mot repr�sent� par un vecteur. Nous utiliserons la fonction TruncatedSVD sklearn des documents - la d�gradation de la matrice de mots pour plusieurs matrices.

�tant donn� que les donn�es de 20 m�dias diff�rents, nous avons mis en 20 th�mes. Il peut �tre r�gl� sur le nombre de sujets avec des param�tres de n_components.

de TruncatedSVD import sklearn.decomposition

# SVD repr�sentent des documents et des termes dans les vecteurs

svd_model = TruncatedSVD (n_components = 20, = algorithme 'randomis�s', n_iter = 100, random_state = 122)

svd_model.fit (X)

len (svd_model.components_)

20

�l�ments Svd_model de (composants) est notre th�me, nous pouvons utiliser svd_model.components pour obtenir ces sujets. Enfin, laissez-nous dans ces 20 sujets, chaque sujet dans la sortie des mots les plus importants, et de voir comment nos r�sultats du mod�le.

termes = vectorizer.get_feature_names ()

pour i, comp en �num�rer (svd_model.components_):

�terms_comp = zip (termes, comp)

�sorted_terms = tri� (terms_comp, key = lambda x: x , inverser = True)

�print ( "Sujet" + str (i) + ":")

�T dans sorted_terms:

�imprimer (t )

�print ( "")

Sujet 0: comme les gens pensent bien des savoir gr�ce temps

Sujet 1: fen�tres gr�ce carte disque advance fichier courrier

Th�me 2: jeux ann�e �quipe jeu saison joueurs bon

Th�me 3: carte disque Les lecteurs de disque dur Probl�me

Sujet 4: Windows fichiers fen�tre de fichiers programme � l'aide probl�me

Th�me 5: puce de chiffrement des donn�es gouvernementales d'information spatiale mail

Sujet 6: comme les sons puce savoir v�lo look regard

Sujet 7: Carte vid�o vente offre moniteur prix jesus

Th�me 8: conna�tre les gens du gouvernement vid�o de carte � puce clipper

Sujet 9: bon travail sais que le temps de probl�me jesus v�lo

Sujet 10: pensez bien � puce gr�ce clipper le chiffrement besoin

Sujet 11: merci probl�me droit bonne fen�tre de temps de v�lo

Sujet 12: bonnes fen�tres gens connaissent des fichiers de vente de fichiers

Sujet 13: espace pensez conna�tre probl�me nasa ann�e isra�l

Sujet 14: les gens de bonne carte de l'espace temps nasa merci

Sujet 15: Les gens veulent jeu de temps de fen�tre probl�me v�lo

Sujet 16: temps besoin de fichiers Windows droit de v�lo vraiment

Sujet 17: fichier probl�me de temps pensez long courrier isra�l

Sujet 18: fichier carte besoin de fichiers probl�me bon droit

Sujet 19: fichier probl�me gr�ce utilis� la vente de puce espace
4.5 Th�me de visualisation
Pour savoir si notre th�me pr�sent� sur la n�cessit� pour la visualisation. Bien s�r, nous ne pouvons visualiser plus de trois dimensions de l'information. Cependant, l'analyse (PCA) en utilisant le composant principal ou t-SNE, nous pouvons mettre des donn�es de grande dimension est r�alis�e dans un affichage visuel de faible dimension. Ici, nous allons utiliser une technologie relativement nouvelle appel�e UMAP (collecteur uniforme Approximation et projection).

importation umap

X_topics = svd_model.fit_transform (X)

encastrement = umap.UMAP (n_neighbors = 150, min_dist = 0,5, random_state = 12) .fit_transform (X_topics)

plt.figure (figsize = (7,5))

plt.scatter (enrobage , plongement ,

c = dataset.target,

s = 10, la taille de #

edgecolor = 'none'

)

plt.show ()

A travers le tableau ci-dessus, nous pouvons voir que le r�sultat est plus beau. Chaque point repr�sente un document et de couleurs diff�rentes repr�sentent 20 m�dias, il semble que notre mod�le de LSA est tr�s efficace. UMAP peut changer les param�tres et de voir ce qui se passe � l'image.

Ce document se trouve dans tout le code sur GitHub.

(Https://github.com/prateekjoshi565/latent_semantic_analysis)

Avantages et inconv�nients 5.LSA
Dans l'exemple ci-dessus, nous pouvons voir la puissance de l'analyse s�mantique latente, mais elle a toujours ses propres limites. Nous devons comprendre les avantages et les inconv�nients de la LSA, afin que nous sachions quand choisir, quand vous devriez essayer d'autres m�thodes.
avantages:

LSA est rapide, facile � mettre en uvre.

L'effet est bon, bien meilleur que le mod�le d'espace vectoriel plat.

inconv�nients:

Il est un mod�le lin�aire, donc concentr�e dans la mauvaise performance de d�pendance non lin�aire des donn�es.

hypoth�se de distribution LSA normale que les mots dans un document, mais pas tous les probl�mes doivent r�pondre � cette hypoth�se.

LDA besoin d'utiliser le SVD, qui est informatiquement op�ration intensive, il est difficile de mettre � jour les nouvelles donn�es sont ajout�es.

6. Autres mod�les de sujets techniques
En plus de la LSA, ainsi que d'autres techniques avanc�es de mod�lisation des sujets efficaces, tels que LDA et lda2Vec. Nous avons �galement �crit un bon article d�crit la LDA, peut fournir une r�f�rence pour tout le monde. Lda2vec est une m�thode de mod�le de sujet beaucoup plus avanc�, qui est bas� mot word2vec int�gr�.

conclusion
Cet article, je partage leurs connaissances. mod�le sujet est une chose tr�s int�ressante, il peut vous aider � composer avec un grand nombre d'ensembles de donn�es de texte. Par cons�quent, je vous sugg�re d'utiliser le code dans cet article pour r�soudre le probl�me des autres ensembles de donn�es. Exploitation mini�re Texte en profiter!

Compile groupe: Huang Tianyuan, Hu Ting Liens connexes: https://www.analyticsvidhya.com/blog/2018/10/stepwise-guide-topic-modeling-latent-semantic-analysis/ Pour r�imprimer, s'il vous pla�t laisser un message dans les coulisses, se conformer aux normes de r�impression

Route de la soie

Apprenez � conna�tre la Chine

Text Mining cours d'introduction: mod�le sujet permet le traitement des donn�es de texte plus heureux