Texte Guide de classification: Python vous voulez vraiment manquer?

Lei Note du r�seau Feng: Cet article est une compilation du blog de la technologie de groupe de Lei Feng, le titre original Un guide complet pour comprendre et mettre en uvre la classification du texte en Python, auteur SHIVAM BANSAL.

Traduction | Mali groupe Zeping � Relisez | Tu finition Shi-wen | MY

introduction

classification de texte comme l'une des t�ches de traitement du langage naturel, sont largement utilis�s dans la r�solution de probl�mes divers secteurs d'activit�. Texte de la classification est de texte / document automatiquement class�s comme une ou plusieurs cat�gories pr�d�finies. applications de classification de texte commun sont les suivantes:

m�dias sociaux les utilisateurs � comprendre les �motions
Identifier le spam et le courrier l�gitime
La requ�te de l'utilisateur d'annotation automatique
Les nouvelles ont �t� class�es par th�me

contenu principal

Dans cet article, je vais vous expliquer la connaissance de l'�tape atteint la classification du texte et la classification de texte par �tape en Python.

classification du texte est une t�che d'apprentissage machine supervis�, parce que l'utilisation d'une t�che de classification texte contient le texte / document et son sujet de classe correspondant a marqu� ensemble de donn�es pour former un classificateur. Fin d'un processus de classification texte comprend trois composantes principales:

Ensemble de donn�es est pr�t: La premi�re �tape est la pr�paration des donn�es, cette �tape comprend le chiffrement des donn�es ainsi que le travail de pr�-traitement de base. jeu de formation et de validation ensemble sera divis� apr�s l'ensemble de donn�es.

Caract�ristiques du projet: La deuxi�me �tape se caract�rise par le projet, � cette �tape, les donn�es brutes sont converties � appliquer � fonction de mod�le d'apprentissage de la machine. Cette �tape comprend �galement le processus de construction des nouvelles fonctionnalit�s � partir des donn�es existantes.

la formation du mod�le: La derni�re �tape consiste � construire le mod�le, dans ce mod�le d'apprentissage stepper il sera marqu� sur l'ensemble dans une des donn�es de formation.

Am�liorer les performances du classificateur texte: Dans cet article, nous allons nous concentrer sur les diff�rentes m�thodes pour am�liorer la performance de la classification texte.

Note: Cet article n'explore pas en profondeur les t�ches de traitement du langage naturel. Si vous voulez passer en revue les bases Houzai lecture de cet article, vous pouvez consulter cet article (lien: https: //www.analyticsvidhya.com/blog/2017/01/ultimate-guide-to-understand-implement-natural-language -traitement-codes-�-python /).

pr�parations

Construisons un cadre de classification de texte en Python par �tape de mani�re par �tape pour atteindre. Tout d'abord, nous devons importer la biblioth�que Python n�cessaire.

Vous avez besoin des outils n�cessaires biblioth�que Python pour ex�cuter le programme, vous pouvez les installer sur le lien officiel de ces tiers biblioth�ques Python.

pandas
Scikit-learn
XGBoost
TextBlob
Keras

# Pour la pr�paration des donn�es, les caract�ristiques techniques, biblioth�que mod�le de formation

1. Ensemble de donn�es pr�t

Selon l'objectif de cet article, je l'examen des Amazon ensembles de donn�es, peuvent �tre t�l�charg�s les ensembles de donn�es via ce lien (https://gist.github.com/kunalj101/ad1d9c58d338e20d09ff26bcc06c4235). L'ensemble de donn�es contient les 3,6 millions de commentaires et l'�tiquette de texte correspondant, nous utilisons seulement une petite partie de celui-ci. Afin de pr�parer les donn�es, les donn�es sont t�l�charg�es sur pandas chargement d'une trame de donn�es, la trame de donn�es comprenant deux - et des �tiquettes de texte.

Ensuite, nous allons mettre l'ensemble de donn�es est divis� en formation et ensemble de validation, afin que nous puissions former et tester un classificateur. Et, nous allons colonne LABEL est cod� afin qu'il puisse �tre utilis� dans les mod�les d'apprentissage de la machine.

2. Caract�ristiques du projet

L'�tape suivante se caract�rise par l'ing�nierie. Dans cette �tape, les donn�es d'origine est converti en un vecteur de caract�ristiques et construira une nouvelle fonctionnalit� � partir des donn�es existantes. Pour extraire les caract�ristiques pertinentes concentr�s sur nos donn�es, nous atteindrons les id�es suivantes.

2.1 vecteurs de caract�ristiques de comptage

2.2 vecteurs TF-IDF caract�ris�

le niveau de vocabulaire
stade N-Gram
Classe de caract�re

2.3 caract�ris� en vecteurs de mots

2.4 dispose d'un texte bas� / Traitement du langage naturel

2,5 mod�le est caract�ris� par th�me

Nous allons en apprendre davantage sur la r�alisation de ces id�es.

2.1 vecteurs de caract�ristiques de comptage

Compter vecteur ensemble de donn�es est une repr�sentation de la matrice, la matrice dans chaque rang�e repr�sente un corpus de documents, un terme et chaque colonne repr�sente un corpus, chaque �l�ment repr�sente un document sp�cifique dans un mot sp�cifique �l�ment de comptage de fr�quence.

2,2 � TF-IDF vecteurs, caract�ris�

scores TF-IDF repr�sentent l'importance relative d'un mot-cl� dans un document avec l'ensemble du corpus. La valeur TF-IDF est compos� de deux parties: la premi�re partie est une fr�quence de terme normalis� (TF), la deuxi�me partie est la fr�quence du document inverse (IDF), l'entr�e de document, le mot correspondant de la fr�quence de document inverse de l'occurrence divis� par le nombre total de documents dans le num�ro de corpus les r�sultats obtenus en prenant le calcul de logarithme.

TF (t) = (le nombre de fois qu'un terme t appara�t dans un document) / (nombre total d'entr�es dans le document Word) IDF (t) = log_e (nombre total de documents / nombre de documents contenant un terme de t)

peut �tre obtenu TF-IDF de diff�rents niveaux d'entr�e (mots, caract�res, N-grammes)

un mot de niveau la matrice de TF-IDF repr�sente chaque terme des valeurs TF-IDF dans diff�rents documents.

b N-gramme niveau TF-IDF :. N-grammes pour les termes combin�s formes N mots. Cette matrice repr�sente des valeurs TF-IDF des N-grammes.

. C TF-IDF caract�re niveau TF-IDF: matrice de valeurs TF-IDF indique le niveau de caract�re de corpus des N-grammes.

mot 2.3 antivectorielle

Parole est une repr�sentation vectorielle � l'aide des formulaires / documents de mots denses vecteur. Position mot dans l'espace vectoriel � apprendre et � obtenir le mot du texte qui appara�t pr�s du mot base d'apprentissage. vecteur mot peut �tre obtenu � partir du corpus d'apprentissage d'entr�e lui-m�me ou peut �tre form� en utilisant un vecteur de pr�-mot g�n�ration, par exemple de gants, FastText et Word2Vec. Chacun d'entre eux peut �tre t�l�charg� et utilis� sous la forme d'apprentissage de transfert. On peut en savoir plus sur le vecteur de mot.

Snippet ci-dessous montre comment utiliser le mot vecteur pr�-form� dans le mod�le. Il y a quatre �tapes essentielles:

formation mot pr�charg� vecteur
Cr�ation marqueur d'objet
Convertir les documents texte pour la s�quence d'entr�e et �tre remplie.
Cr�er une correspondance entre les mots entr�es de vecteur correspondant � celui-ci.

Vous pouvez (https://www.analyticsvidhya.com/blog/2017/06/word-embeddings-count-word2veec/) t�l�charger mot pr�-form� vecteur d'ici.

2.4 dispose d'un texte bas� / Traitement du langage naturel

Vous pouvez �galement cr�er des fonctions � base de texte suppl�mentaires, ces caract�ristiques peuvent contribuer � am�liorer la performance du mod�le de classification texte. Quelques exemples sont les suivants:

Nombre de mots du document - le nombre total de mots dans le document

Nombre de caract�res du document - le nombre total de caract�res dans le document

La densit� moyenne du document de mot - la longueur moyenne des mots dans le document

compte Ponctuation tout au long de l'article - le nombre total de la ponctuation des documents

Tout au long de l'article capitaliser le nombre de mots - le nombre total de documents capitalise la parole

article entier inscription gagnante comte - le nombre total de documents dans un cas appropri� (titre) mot

distribution de fr�quence vocale de l'�tiquette:

noms Count
count verbe
comte adjectif
comte adverbes
comte pronoms

Ces caract�ristiques sont la nature exp�rimentale, ne peut �tre utilis� en fonction des circonstances particuli�res.

caract�ristiques du mod�le � base de th�me 2.5

Le mod�le est un th�me de distinguer le mot appartient au groupe � partir d'un certain nombre de documents qui contiennent les meilleures informations (appel�e sujet) la technologie. J'utilise cach� Dirichlet mod�le (Latent Dirichlet Allocation) g�n�re des caract�ristiques th�matiques. LDA est un mod�le it�ratif, � partir d'un nombre fixe d'it�rations de ce th�me. Chaque th�me est exprim� en une distribution de probabilit� de mots, chaque document est repr�sent� sous la forme d'une distribution de probabilit� d'un th�me. Bien que le terme lui-m�me n'a pas de sens, mais la probabilit� de ces sujets repr�sentent une sorte de sens de la distribution des mots des diff�rents concepts contenus dans le document. Vous pouvez en savoir plus sur le sujet au mod�le (https://www.analyticsvidhya.com/blog/2016/08/beginners-guide-to-topic-modeling-in-python/).

Jetons un coup d'oeil � sa mise en uvre:

3. Mod�lisation

La derni�re �tape dans le cadre de la cat�gorisation de textes pour construire un classificateur form� se caract�rise par l'utilisation de quelques �tapes avant que vous avez cr��. mod�les d'apprentissage de la machine ont beaucoup d'options diff�rentes, ces mod�les peuvent �tre utilis�s pour mod�liser la formation finale. � cette fin, nous atteindrons les suivants plusieurs classifiers diff�rents:

classificateur Naive Bayes

classificateur lin�aire

SVM

mod�le ensachage

mod�le renforcement

Faible profondeur r�seau de neurones

Profondeur r�seau de neurones

r�seau neuronal convolutif (CNN)
La dur�e pendant laquelle le mod�le de m�moire (LSTM)
Unit� � recyclage porte (GRU)
Bidirectionnel r�currentes des r�seaux de neurones
convolution circulaire r�seau neuronal (RCNN)
D'autres variantes de la profondeur du r�seau de neurones

Laissez-nous mettre en uvre ces mod�les et comprendre les d�tails de leur mise en uvre. Le fond de la fonction est une fonction d'utilit� qui peut �tre utilis� pour former le mod�le. Il vecteur caract�ristique classificateur, le vecteur de caract�ristiques des donn�es de formation, les ensembles de formation et des donn�es d'�tiquette de validation en entr�e. Avec ces entr�es, le train de mod�le et de pr�cision de calcul.

3.1 Naive Bayes

mod�le bay�sien Naive mis en uvre � l'aide sklearn en fonction des diff�rentes caract�ristiques de

Naive Bayes est une technique de classification bas�e sur la th�orie bay�sienne, on suppose que les variables pr�dictives sont ind�pendants. cat�gorie Feature hypoth�se na�ve classificateur Bayes ne se rapporte pas � d'autres fonctions.

3,2 classificateur lin�aire

Mettre en uvre un classifieur lin�aire (r�gression logistique)

La r�gression logistique en utilisant la fonction de Logisque / sigmo�de pour estimer la probabilit� et l'utiliser pour estimer la relation entre la variable d�pendante et une ou plusieurs variables ind�pendantes.

3.3 mod�le SVM

machine � vecteurs de support (SVM) est un algorithme d'apprentissage supervis� peut �tre utilis� dans la t�che de classification ou de r�gression. Cette s�paration des deux cat�gories de l'extraction optimale du mod�le hyperplan / ligne.

3.4 ensachage

Mod�le al�atoire For�t r�aliser.

For�t mod�le de hasard est un mod�le int�gr�, plus pr�cis�ment, un mod�le de mise en sac. Il est l'un des mod�les � base d'arbres.

3.5 Dynamiser

Atteindre mod�le xgboost.

mod�le d'amplification est un autre mod�le d'int�gration arborescente. Dope est un �l�ment de l'algorithme d'apprentissage automatique int�gr�, pour r�duire l'�cart et l'apprentissage de la surveillance variance, il peut �tre converti en un classificateur fort faible classificateur. classificateur faible se r�f�re au peu en rapport avec le classificateur de bonne cat�gorie (un peu mieux que de deviner au hasard).

3.6 Shallow r�seau de neurones

Le r�seau de neurones est un syst�me de neurones biologiques et mod�le math�matique similaire est con�u pour �tre utilis� pour identifier les donn�es relationnelles complexes marqu�s. Un r�seau de neurones consistant en trois grandes couches superficielles - la couche d'entr�e, la couche cach�e et la couche de sortie.

DNN 3.7

DNN r�seau de neurones plus complexe, sa couche cach�e effectuer des op�rations plus complexes que RELU ou fonction d'activation sigmo�de. De nombreux types de r�seaux de neurones profonds peuvent �tre appliqu�s � des probl�mes de classification texte.

3.7.1 convolution r�seau de neurones

Dans le r�seau neuronal convolutif, op�ration de convolution agissant sur la couche d'entr�e est utilis�e pour calculer la sortie. r�seau neuronal convolutif utilisant une connexion locale, chaque r�gion de l'entr�e connect�e � la sortie de neurone. Chaque couche utilisant divers filtres et les r�sultats combin�s.

3.7.2 r�currente Neural Networks --LSTM

Feedforward r�seaux de neurones ayant une fonction d'activation que dans une autre direction de propagation du chemin, la sortie de la fonction d'activation du cycle de r�seau de neurones de propagation (de l'entr�e � la sortie, de l'entr�e � la sortie) dans les deux directions. On obtient ainsi une structure de r�seau de la boucle de circulation, servant de neurones � �tat de la m�moire. � Cet �tat de choses rend les neurones de m�moire appris jusqu'� pr�sent.

cellule de m�moire du r�seau de neurones r�currents que les r�seaux de neurones traditionnels ont un avantage, mais la question se pose de gradient dispara�t. Quand beaucoup de couches, le r�seau de neurones est difficile � apprendre et � ajuster les param�tres des couches pr�c�dentes. Pour r�soudre ce probl�me, le nouveau mod�le de RNN appel� LSTM (m�moire � court et � long terme) ont �t� invent�s.

def create_rnn_lstm:

3.7.3 r�currente Neural Networks --GRU

unit� de circulation vannage (GRU) est un autre r�current Neural Networks. Nous avons ajout� un GRU dans la couche r�seau � la place LSTM.

3.7.4 R�seaux de neurones r�currents Bidirectionnelle

couche RNN peut �tre encapsul� dans la couche bi, nous encapsul�es dans la couche GRU bi-couche.

3.7.5 r�seau de neurones � convolution circulaire

Nous avons essay� la structure de base, vous pouvez maintenant essayer leurs variantes convolution circulaire du r�seau de neurones (RCNN). D'autres variantes sont les suivantes:

1. R�seau d'attention de niveau (HAN)

2. S�quence de m�canismes attentionnels - mod�le de la s�rie

3. les deux sens RCNN

Avec plus de couches CNN 4. RNN

Am�liorer la performance du mod�le

Bien que le cadre ci-dessus peut �tre appliqu� dans de nombreux probl�mes de classification texte, mais afin d'obtenir une plus grande pr�cision peut �tre am�lior�e dans la structure globale. Par exemple, voici quelques-uns du mod�le de classification peut am�liorer les performances des conseils de texte:

1. Nettoyage texte: texte de lavage peut aider � r�duire le bruit dans les donn�es de texte, tels que les mots d'arr�t, la ponctuation et le suffixe.

2. diff�rents vecteurs de caract�ristiques sont combin�s: la partie caract�ristique du projet, nous recevons beaucoup de caract�ristiques diff�rentes, les combiner ensemble, peuvent am�liorer la pr�cision de la classification.

3. Mod�le de planification: La planification est une �tape tr�s importante, peut affiner (longueur, nombre de nuds feuilles, les param�tres du r�seau de neurones, etc. arbre) param�tres pour obtenir le meilleur ajustement du mod�le.

4. Mod�le int�gr�: Les diff�rents mod�les sont reli�s entre eux et une combinaison de ceux-ci peut am�liorer les r�sultats de sortie.

conclusion

Dans cet article, nous discutons de la fa�on de pr�parer des ensembles de donn�es de texte, tels que le nettoyage, pour cr�er un ensemble de formation et un ensemble de test. Utilisez tels que la fr�quence des mots, TF-IDF, le vecteur de texte, mod�le sujet et caract�ristiques du texte de base des diff�rents projets de longs m�trages. Ensuite, nous avons form� beaucoup de classificateurs, comme Naive Bayes, r�gression logistique, soutien machines � vecteurs, les r�seaux de neurones, et LSTM GRU. Enfin, nous discutons de diff�rentes fa�ons d'am�liorer la performance de la classification texte.

Avez-vous trouv� cet article utile? S'il vous pla�t partagez vos impressions dans les commentaires.

Vous pouvez �galement lire cet article dans Google Analytics Vidhya dans l'application Android.

Lien original: https://www.analyticsvidhya.com/blog/2018/04/a-comprehensive-guide-to-understand-and-implement-text-classification-in-python/

Lei Feng Lei Feng net net

Route de la soie

Apprenez � conna�tre la Chine

Texte Guide de classification: Python vous voulez vraiment manquer?