Apr�s Google a fait 450.000 fois diff�rents types de classification texte, a r�sum� un commun � algorithme de s�lection de mod�le �

Ji-won nouveau rapport

Source: developers.google.com

Compile: Xiao Qin, dynastie Ming

[New Ji-won EXAMEN Google a lanc� officiellement le tutoriel � cat�gorisation texte �. Afin de maximiser s�lectionnez le mod�le de classification de texte pour simplifier le processus de fabrication exp�rience de cat�gorisation Google texte apr�s environ 450K, a r�sum� un � algorithme de s�lection de mod�le � commun, avec un organigramme complet, tr�s pratique.

Cat�gorisation Texte (classification du texte) Une vari�t� de l'algorithme est au cur des syst�mes logiciels � grande �chelle pour traiter des donn�es de texte. Par exemple, la classification logiciel de courrier �lectronique utilise du texte est d�termin�e par le message est envoy� � votre bo�te de r�ception ou filtr�e dans le dossier spam, forum de discussion en utilisant la classification de texte pour d�terminer si l'utilisateur doit marquer un commentaire comme inappropri�.

Voici deux Classification Sujet Exemples (classification th�matique), la t�che doit �tre class�e comme documents texte ensemble de sujets pr�d�finis. La plupart classement th�matique aux mots-cl�s � base de texte.

Sujet classification est utilis� pour le spam re�u marque, ces messages sont filtr�s dans le dossier spam

Une autre classification de texte commun est Sentiment Analysis (L'analyse des sentiments), dont le but est d'identifier la polarit� de texte (polarit�): il exprime le point de vue type . Ce binaire � comme / aversion � note, ou en utilisant un ensemble plus complexe d'options, telles que d'une � cinq �toiles �toiles. Les exemples incluent l'analyse de l'analyse sentiment apr�s sur Twitter, afin de d�terminer si des gens comme le film Black Panther, ou d�duisent g�n�rale la perception du public de la marque Nike nouvelle des commentaires de Wal-Mart.

Ce guide vous apprendra une partie de la cl� pour r�soudre le probl�me de la machine de cat�gorisation de textes d'apprentissage des meilleures pratiques. Vous apprendrez:

classification du texte en utilisant l'apprentissage de la machine pour r�soudre le probl�me de haut niveau, de bout en bout flux de travail (workflow)
Comment choisir le mod�le appropri� pour probl�me de classification texte
Comment utiliser le mod�le de mise en uvre tensorflow de votre choix

flux de travail de classification du texte

Ce qui suit est un probl�me d'apprentissage de la machine r�solution flux de travail

�tape 1: Collecte des donn�es
�tape 2: Explorez vos donn�es
Etape 2.5: S�lectionnez un mod�le *
�tape 3: Pr�parer les donn�es
�tape 4: Construire, former et �valuer votre mod�le
�tape 5: Tuning hyperparam'etre
�tape 6: Mod�le de d�ploiement

Machine apprendre � r�soudre le probl�me du flux de travail

[Note] � mod�le � ne doit pas une �tape formelle dans le flux de travail de l'apprentissage de la machine traditionnelle, mais vous choisissez le probl�me de mod�le appropri� est une t�che essentielle, il peut �tre clairement et simplifier le travail � l'�tape suivante.

� Cat�gorisation de texte � de blocage de Google dans le guide d'apprentissage machine explique en d�tail chaque �tape, et comment mettre en uvre ces �tapes � l'aide des donn�es textuelles. En raison des contraintes d'espace, le pr�sent article porte sur la base importante des meilleures pratiques et des r�gles empiriques, bas�es sur 2.5 �tapes de mettre en �vidence: Comment choisir le bon mod�le en fonction de la structure statistique des ensembles de donn�es et fournir un organigramme complet .

�tape 1: Collecte des donn�es

collecte des donn�es Il est le plus des mesures importantes pour r�soudre toute surveillance des probl�mes d'apprentissage de la machine. Comme il fait bon se compose d'un ensemble de donn�es, votre classificateur texte il y a plus de bien.

Si vous ne voulez pas r�soudre un probl�me particulier, mais int�ress�s � explorer la classification de texte, puis il y a beaucoup de jeu gratuit de donn�es open source. Le repo GitHub suivant est suffisant pour r�pondre � vos besoins:

https://github.com/google/eng-edu/blob/master/ml/guides/text_classification/load_data.py

D'autre part, si vous avez affaire � un probl�me sp�cifique, vous devez collecter les donn�es n�cessaires. De nombreuses organisations utilisent pour acc�der aux donn�es API publique - Par exemple, l'API Twitter ou NY API Times, vous pouvez utiliser pour trouver les donn�es souhait�es.

Voici quelques choses importantes � garder � l'esprit lors de la collecte des donn�es:

Si vous utilisez une API publique, s'il vous pla�t comprendre les limites de l'API avant l'utilisation. Par exemple, une API pour interroger l'ensemble de limite de vitesse.
par exemple la formation (dans le reste de ce guide est connu comme un exemple), mieux. Cela aidera les mod�les mieux g�n�ralisation.
Assurez-vous que chaque question de classe ou sujet du nombre d'�chantillons ne sont pas des d�s�quilibres excessifs. C'est, chaque classe doit avoir un nombre important d'�chantillons.
Des exemples assurent une couverture ad�quate de l'espace des entr�es possibles, non seulement pour couvrir les situations courantes.

Dans ce guide, nous utiliserons les ensembles de donn�es de critique de film pour illustrer de IMDb le flux de travail. Cet ensemble de donn�es collect�es personnes sur le site Web des critiques de cin�ma IMDb et l'�tiquette correspondante ( � positif � ou � n�gatif �), indiquez si l'examinateur a aim� le film. Ceci est un exemple typique des probl�mes d'analyse de sentiment.

�tape 2: Explorez vos donn�es

ensembles de donn�es de charge
V�rifiez les donn�es
Collectionnez des indicateurs cl�s

La construction et le mod�le de formation est seulement une partie du flux de travail. La connaissance pr�alable des caract�ristiques des donn�es peut vous aider � construire un meilleur mod�le. Cela signifie non seulement une plus grande pr�cision signifie aussi moins de donn�es de formation, ou moins de ressources informatiques.

Etape 2.5: S�lectionnez un mod�le

� ce stade, nous avons recueilli des ensembles de donn�es, et la compr�hension approfondie de la nature critique des donn�es. Ensuite, selon les mesures que nous avons recueillies � l'�tape 2, nous devrions envisager devrait Quels mod�les utilisent la classification . Ce moyen de poser des questions telles que � comment rendre la saisie des donn�es de texte � l'algorithme nombre attendu? � (On appelle les donn�es de pr�-traitement et vectorisation), � Quel type de mod�le que nous devrions utiliser? �, � Qu'est-ce que notre mod�le devrait �tre utilis� les param�tres de configuration? �, et ainsi de suite.

Apr�s des d�cennies de recherche, nous avons �t� en mesure d'acc�der de grandes quantit�s de donn�es pr�-traitement et les options de configuration du mod�le. Cependant, un grand nombre d'options possibles � choisir a consid�rablement augment� la complexit� et l'ampleur du probl�me sp�cifique � port�e de main. Prenant en compte la meilleure option peut ne pas �tre �vidente, il suppose une solution est d'essayer de faire tous les choix possibles, par intuition exclure certaines options. Cependant, ce co�t est tr�s cher.

Dans ce guide, nous essayons de maximiser simplifier le processus de s�lection mod�le de classification texte. Pour un ensemble de donn�es, notre objectif est de trouver le temps de calcul n�cessaire tout en minimisant la formation, d'atteindre l'arithm�tique pr�s de pr�cision maximale. Nous utilisons 12 ensembles de donn�es pour diff�rents types de probl�mes (en particulier le th�me de l'analyse des sentiments et de la classification) Un grand nombre (~ 450K) exp�rience , Diff�rentes techniques et des donn�es diff�rentes pr�traitements l'architecture mod�le sont utilis�s en alternance pour chaque ensemble de donn�es. Cela nous aide � trouver les meilleurs param�tres de jeu de donn�es qui affectent le choix.

Ce qui suit algorithme de s�lection mod�le (Algorithme de s�lection de mod�le) et organigramme Il est un r�sum� de notre grand nombre d'exp�riences.

pr�paration et son algorithme de construction de mod�le de donn�es

1. Calculer le nombre d'�chantillons / num�ro du rapport de chaque mot dans l'�chantillon.

2. Si ce rapport est inf�rieur � 1500, le texte est marqu� comme n-grammes et utilisations classification simple mod�le MLP (la branche gauche de l'organigramme ci-dessous):

. Un �chantillon d�compos� en mots de n-grammes, la conversion du vecteur dans des n-grammes.

B. importance au vecteur de score et 20K selon la s�lection de la branche pr�c�dente.

c. La construction d'un mod�le MLP.

3. Si le rapport est sup�rieur � 1500, le texte est s�quence marqu�e, et en utilisant le mod�le de classification sepCNN (la branche droite de l'organigramme):

. Un �chantillon d�compos� en mots; 20K mot avant de s�lectionner une fr�quence en fonction de.

b. Placer les �chantillons dans la s�quence de mots dans le vecteur.

c. Lorsque le nombre de mots du nombre original d'�chantillons / par �chantillon, ce rapport est inf�rieur � 15K, permet d'affiner le pr�-form� sepCNN mod�le possible d'obtenir des r�sultats optimaux.

4. La performance mesur�e du mod�le, les donn�es de l'ensemble de mod�les pour trouver la meilleure configuration avec diff�rentes valeurs de param�tres plus.

Dans le diagramme ci-dessous, les blocs jaunes repr�sentent les donn�es et la pr�paration du mod�le. gris et bo�te verte indique les options que nous envisageons pour chaque processus. vertes indiquent les options bo�tes recommand�es pour chaque processus.

Vous pouvez utiliser cet organigramme comme point de d�part pour votre premi�re exp�rience, car il vous permet d'obtenir une bonne pr�cision � faible co�t de calcul. Vous pouvez continuer � am�liorer le mod�le initial dans les versions ult�rieures.

organigramme de classification de texte (cliquez pour agrandir)

Ce tableau de flux pour r�pondre � deux questions cl�s:

Quel genre d'algorithmes ou des mod�les d'apprentissage doit-on utiliser?

Comment devons-nous pr�parer des donn�es afin d'�tudier efficacement la relation entre le texte et les �tiquettes?

R�ponse � la deuxi�me question d�pend de la r�ponse � la premi�re question, nous les donn�es de pr�-traitement d�pendra de la fa�on dont nous choisissons de mod�le . Les mod�les peuvent �tre grossi�rement divis�s en deux cat�gories: le mod�le utilise les informations de commande de mots ( Les mod�les de la s�rie ), Et sera trait� comme mod�le texte seul mot de � sacs � (ensembles) ( n-gramme Mod�le ).

mod�les comprennent la s�rie r�seau neuronal convolutif (CNN) , Recurrent Neural Network (RNN) et leurs variantes . mod�le n-gramme comprend La r�gression logistique , MLP simple (MLP ou compl�tement reli�s les r�seaux de neurones), arbre stimulant gradient (Gradient arbres stimul�) et SVM (SVM).

Dans l'exp�rience, nous avons observ� le � num�ro d'�chantillon � (S) et le rapport performance du mod�le � nombre de mots par exemple � (W est) a une corr�lation.

lorsque la La faible valeur du rapport ( < 1500) Lorsque, comme une entr�e � la petite Multilayer Perceptron n-gramme (Option A) de meilleures performances, ou au moins aussi bon mod�le de s�rie. MLP facilement d�fini et compris, mais moins que le mod�le de s�rie chronologique calcul� prend.

lorsque cette Grande valeur du rapport ( > �= 1500) Lorsque nous utilisons le mod�le de s�rie (option B). Dans l'�tape suivante, vous pouvez en fonction de la taille de la valeur de ce rapport, lire directement les sections du mod�le s�lectionn�.

Pour notre ensemble de donn�es revue IMDb, le rapport du nombre de mots, le nombre d'�chantillons / chaque �chantillon � 144 ou moins. Cela signifie que nous allons cr�er un mod�le MLP.

�tape 3: Pr�parer les donn�es

vecteur N-gramme
Sequences vecteur
�tiquette vectorisation

�tape 4: Construire, mod�le de formation et d'�valuation

La construction de la derni�re couche
La construction du mod�le n-gramme
La construction de la s�quence mod�le
entra�neur

�tape 5: Tuning hyperparam�tres

�tape 6: Mod�le de d�ploiement

conclusion

classification du texte est un probl�me fondamental dans l'apprentissage de la machine, il est impliqu� dans une vari�t� d'applications de produits. Dans ce guide, nous texte flux de travail de classification d�compos� en plusieurs �tapes. Pour chaque �tape, nous avons mis en fonction des caract�ristiques des donn�es sp�cifiques, des recommandations de mise en uvre personnalis�e. En particulier, nous sommes le nombre d'�chantillons avec chaque �chantillon dans le rapport du nombre de mots, de sugg�rer ce genre de mod�le que vous utilisez, ce qui peut rendre le mod�le plus rapidement � proximit� des performances optimales. D'autres mesures sont fond�es sur le mod�le s�lectionn� pour l'�tape suivante. Suivez les recommandations contenues dans ce guide, reportez-vous � l'annexe du code et logigramme vous aidera � apprendre et � comprendre, et obtenir rapidement des solutions au probl�me de la classification du texte.

� Cat�gorisation de texte � Guide Adresse:

https://developers.google.com/machine-learning/guides/text-classification/

Nouveau Ji-won AI MONDE 2018 Assembl�e g�n�rale] [D�but des billets d'oiseaux en vente!

New Ji-won aura lieu le 20 Septembre AI Conf�rence mondiale des 2018 � Beijing National Convention Center, a invit� l'apprentissage machine parrain, en mettant l'accent sur le professeur de l'intelligence artificielle � la CMU Tom Mitchell, Maike Mark Si-Tiger, Zhou Zhihua, un grand Cheng Tao, Chen Yiran AI et d'autres dirigeants et le destin de l'humanit�.

Le site officiel de l'Assembl�e g�n�rale:

Maintenant jusqu'au 19 Ao�t, Ji-won nouveau num�ro d'�dition limit�e de billets Early Bird communication �troite avec le leader mondial de l'IA, l'intelligence artificielle, t�moin de l'industrie mondiale � pas de g�ant.

Billets de ligne active lien:
billet de ligne active de code � deux dimensions:

Route de la soie

Apprenez � conna�tre la Chine

Apr�s Google a fait 450.000 fois diff�rents types de classification texte, a r�sum� un commun � algorithme de s�lection de mod�le �