Après Google a fait 450.000 fois différents types de classification texte, a résumé un commun « algorithme de sélection de modèle »

Ji-won nouveau rapport

Source: developers.google.com

Compile: Xiao Qin, dynastie Ming

[New Ji-won EXAMEN Google a lancé officiellement le tutoriel « catégorisation texte ». Afin de maximiser sélectionnez le modèle de classification de texte pour simplifier le processus de fabrication expérience de catégorisation Google texte après environ 450K, a résumé un « algorithme de sélection de modèle » commun, avec un organigramme complet, très pratique.

Catégorisation Texte (classification du texte) Une variété de l'algorithme est au cur des systèmes logiciels à grande échelle pour traiter des données de texte. Par exemple, la classification logiciel de courrier électronique utilise du texte est déterminée par le message est envoyé à votre boîte de réception ou filtrée dans le dossier spam, forum de discussion en utilisant la classification de texte pour déterminer si l'utilisateur doit marquer un commentaire comme inapproprié.

Voici deux Classification Sujet Exemples (classification thématique), la tâche doit être classée comme documents texte ensemble de sujets prédéfinis. La plupart classement thématique aux mots-clés à base de texte.

Sujet classification est utilisé pour le spam reçu marque, ces messages sont filtrés dans le dossier spam

Une autre classification de texte commun est Sentiment Analysis (L'analyse des sentiments), dont le but est d'identifier la polarité de texte (polarité): il exprime le point de vue type . Ce binaire « comme / aversion » note, ou en utilisant un ensemble plus complexe d'options, telles que d'une à cinq étoiles étoiles. Les exemples incluent l'analyse de l'analyse sentiment après sur Twitter, afin de déterminer si des gens comme le film Black Panther, ou déduisent générale la perception du public de la marque Nike nouvelle des commentaires de Wal-Mart.

Ce guide vous apprendra une partie de la clé pour résoudre le problème de la machine de catégorisation de textes d'apprentissage des meilleures pratiques. Vous apprendrez:

  • classification du texte en utilisant l'apprentissage de la machine pour résoudre le problème de haut niveau, de bout en bout flux de travail (workflow)

  • Comment choisir le modèle approprié pour problème de classification texte

  • Comment utiliser le modèle de mise en uvre tensorflow de votre choix

flux de travail de classification du texte

Ce qui suit est un problème d'apprentissage de la machine résolution flux de travail

  • Étape 1: Collecte des données

  • Étape 2: Explorez vos données

  • Etape 2.5: Sélectionnez un modèle *

  • Étape 3: Préparer les données

  • Étape 4: Construire, former et évaluer votre modèle

  • Étape 5: Tuning hyperparam'etre

  • Étape 6: Modèle de déploiement

Machine apprendre à résoudre le problème du flux de travail

[Note] « modèle » ne doit pas une étape formelle dans le flux de travail de l'apprentissage de la machine traditionnelle, mais vous choisissez le problème de modèle approprié est une tâche essentielle, il peut être clairement et simplifier le travail à l'étape suivante.

« Catégorisation de texte » de blocage de Google dans le guide d'apprentissage machine explique en détail chaque étape, et comment mettre en uvre ces étapes à l'aide des données textuelles. En raison des contraintes d'espace, le présent article porte sur la base importante des meilleures pratiques et des règles empiriques, basées sur 2.5 étapes de mettre en évidence: Comment choisir le bon modèle en fonction de la structure statistique des ensembles de données et fournir un organigramme complet .

Étape 1: Collecte des données

collecte des données Il est le plus des mesures importantes pour résoudre toute surveillance des problèmes d'apprentissage de la machine. Comme il fait bon se compose d'un ensemble de données, votre classificateur texte il y a plus de bien.

Si vous ne voulez pas résoudre un problème particulier, mais intéressés à explorer la classification de texte, puis il y a beaucoup de jeu gratuit de données open source. Le repo GitHub suivant est suffisant pour répondre à vos besoins:

https://github.com/google/eng-edu/blob/master/ml/guides/text_classification/load_data.py

D'autre part, si vous avez affaire à un problème spécifique, vous devez collecter les données nécessaires. De nombreuses organisations utilisent pour accéder aux données API publique - Par exemple, l'API Twitter ou NY API Times, vous pouvez utiliser pour trouver les données souhaitées.

Voici quelques choses importantes à garder à l'esprit lors de la collecte des données:

  • Si vous utilisez une API publique, s'il vous plaît comprendre les limites de l'API avant l'utilisation. Par exemple, une API pour interroger l'ensemble de limite de vitesse.

  • par exemple la formation (dans le reste de ce guide est connu comme un exemple), mieux. Cela aidera les modèles mieux généralisation.

  • Assurez-vous que chaque question de classe ou sujet du nombre d'échantillons ne sont pas des déséquilibres excessifs. C'est, chaque classe doit avoir un nombre important d'échantillons.

  • Des exemples assurent une couverture adéquate de l'espace des entrées possibles, non seulement pour couvrir les situations courantes.

Dans ce guide, nous utiliserons les ensembles de données de critique de film pour illustrer de IMDb le flux de travail. Cet ensemble de données collectées personnes sur le site Web des critiques de cinéma IMDb et l'étiquette correspondante ( « positif » ou « négatif »), indiquez si l'examinateur a aimé le film. Ceci est un exemple typique des problèmes d'analyse de sentiment.

Étape 2: Explorez vos données

  • ensembles de données de charge

  • Vérifiez les données

  • Collectionnez des indicateurs clés

La construction et le modèle de formation est seulement une partie du flux de travail. La connaissance préalable des caractéristiques des données peut vous aider à construire un meilleur modèle. Cela signifie non seulement une plus grande précision signifie aussi moins de données de formation, ou moins de ressources informatiques.

Etape 2.5: Sélectionnez un modèle

À ce stade, nous avons recueilli des ensembles de données, et la compréhension approfondie de la nature critique des données. Ensuite, selon les mesures que nous avons recueillies à l'étape 2, nous devrions envisager devrait Quels modèles utilisent la classification . Ce moyen de poser des questions telles que « comment rendre la saisie des données de texte à l'algorithme nombre attendu? » (On appelle les données de pré-traitement et vectorisation), « Quel type de modèle que nous devrions utiliser? », « Qu'est-ce que notre modèle devrait être utilisé les paramètres de configuration? », et ainsi de suite.

Après des décennies de recherche, nous avons été en mesure d'accéder de grandes quantités de données pré-traitement et les options de configuration du modèle. Cependant, un grand nombre d'options possibles à choisir a considérablement augmenté la complexité et l'ampleur du problème spécifique à portée de main. Prenant en compte la meilleure option peut ne pas être évidente, il suppose une solution est d'essayer de faire tous les choix possibles, par intuition exclure certaines options. Cependant, ce coût est très cher.

Dans ce guide, nous essayons de maximiser simplifier le processus de sélection modèle de classification texte. Pour un ensemble de données, notre objectif est de trouver le temps de calcul nécessaire tout en minimisant la formation, d'atteindre l'arithmétique près de précision maximale. Nous utilisons 12 ensembles de données pour différents types de problèmes (en particulier le thème de l'analyse des sentiments et de la classification) Un grand nombre (~ 450K) expérience , Différentes techniques et des données différentes prétraitements l'architecture modèle sont utilisés en alternance pour chaque ensemble de données. Cela nous aide à trouver les meilleurs paramètres de jeu de données qui affectent le choix.

Ce qui suit algorithme de sélection modèle (Algorithme de sélection de modèle) et organigramme Il est un résumé de notre grand nombre d'expériences.

préparation et son algorithme de construction de modèle de données

1. Calculer le nombre d'échantillons / numéro du rapport de chaque mot dans l'échantillon.

2. Si ce rapport est inférieur à 1500, le texte est marqué comme n-grammes et utilisations classification simple modèle MLP (la branche gauche de l'organigramme ci-dessous):

. Un échantillon décomposé en mots de n-grammes, la conversion du vecteur dans des n-grammes.

B. importance au vecteur de score et 20K selon la sélection de la branche précédente.

c. La construction d'un modèle MLP.

3. Si le rapport est supérieur à 1500, le texte est séquence marquée, et en utilisant le modèle de classification sepCNN (la branche droite de l'organigramme):

. Un échantillon décomposé en mots; 20K mot avant de sélectionner une fréquence en fonction de.

b. Placer les échantillons dans la séquence de mots dans le vecteur.

c. Lorsque le nombre de mots du nombre original d'échantillons / par échantillon, ce rapport est inférieur à 15K, permet d'affiner le pré-formé sepCNN modèle possible d'obtenir des résultats optimaux.

4. La performance mesurée du modèle, les données de l'ensemble de modèles pour trouver la meilleure configuration avec différentes valeurs de paramètres plus.

Dans le diagramme ci-dessous, les blocs jaunes représentent les données et la préparation du modèle. gris et boîte verte indique les options que nous envisageons pour chaque processus. vertes indiquent les options boîtes recommandées pour chaque processus.

Vous pouvez utiliser cet organigramme comme point de départ pour votre première expérience, car il vous permet d'obtenir une bonne précision à faible coût de calcul. Vous pouvez continuer à améliorer le modèle initial dans les versions ultérieures.

organigramme de classification de texte (cliquez pour agrandir)

Ce tableau de flux pour répondre à deux questions clés:

  • Quel genre d'algorithmes ou des modèles d'apprentissage doit-on utiliser?

  • Comment devons-nous préparer des données afin d'étudier efficacement la relation entre le texte et les étiquettes?

  • Réponse à la deuxième question dépend de la réponse à la première question, nous les données de pré-traitement dépendra de la façon dont nous choisissons de modèle . Les modèles peuvent être grossièrement divisés en deux catégories: le modèle utilise les informations de commande de mots ( Les modèles de la série ), Et sera traité comme modèle texte seul mot de « sacs » (ensembles) ( n-gramme Modèle ).

    modèles comprennent la série réseau neuronal convolutif (CNN) , Recurrent Neural Network (RNN) et leurs variantes . modèle n-gramme comprend La régression logistique , MLP simple (MLP ou complètement reliés les réseaux de neurones), arbre stimulant gradient (Gradient arbres stimulé) et SVM (SVM).

    Dans l'expérience, nous avons observé le « numéro d'échantillon » (S) et le rapport performance du modèle « nombre de mots par exemple » (W est) a une corrélation.

    lorsque la La faible valeur du rapport ( < 1500) Lorsque, comme une entrée à la petite Multilayer Perceptron n-gramme (Option A) de meilleures performances, ou au moins aussi bon modèle de série. MLP facilement défini et compris, mais moins que le modèle de série chronologique calculé prend.

    lorsque cette Grande valeur du rapport ( >  = 1500) Lorsque nous utilisons le modèle de série (option B). Dans l'étape suivante, vous pouvez en fonction de la taille de la valeur de ce rapport, lire directement les sections du modèle sélectionné.

    Pour notre ensemble de données revue IMDb, le rapport du nombre de mots, le nombre d'échantillons / chaque échantillon à 144 ou moins. Cela signifie que nous allons créer un modèle MLP.

    Étape 3: Préparer les données

    • vecteur N-gramme

    • Sequences vecteur

    • étiquette vectorisation

    Étape 4: Construire, modèle de formation et d'évaluation

    • La construction de la dernière couche

    • La construction du modèle n-gramme

    • La construction de la séquence modèle

    • entraîneur

    Étape 5: Tuning hyperparamètres

    Étape 6: Modèle de déploiement

    conclusion

    classification du texte est un problème fondamental dans l'apprentissage de la machine, il est impliqué dans une variété d'applications de produits. Dans ce guide, nous texte flux de travail de classification décomposé en plusieurs étapes. Pour chaque étape, nous avons mis en fonction des caractéristiques des données spécifiques, des recommandations de mise en uvre personnalisée. En particulier, nous sommes le nombre d'échantillons avec chaque échantillon dans le rapport du nombre de mots, de suggérer ce genre de modèle que vous utilisez, ce qui peut rendre le modèle plus rapidement à proximité des performances optimales. D'autres mesures sont fondées sur le modèle sélectionné pour l'étape suivante. Suivez les recommandations contenues dans ce guide, reportez-vous à l'annexe du code et logigramme vous aidera à apprendre et à comprendre, et obtenir rapidement des solutions au problème de la classification du texte.

    « Catégorisation de texte » Guide Adresse:

    https://developers.google.com/machine-learning/guides/text-classification/

    Nouveau Ji-won AI MONDE 2018 Assemblée générale] [Début des billets d'oiseaux en vente!

    New Ji-won aura lieu le 20 Septembre AI Conférence mondiale des 2018 à Beijing National Convention Center, a invité l'apprentissage machine parrain, en mettant l'accent sur le professeur de l'intelligence artificielle à la CMU Tom Mitchell, Maike Mark Si-Tiger, Zhou Zhihua, un grand Cheng Tao, Chen Yiran AI et d'autres dirigeants et le destin de l'humanité.

    Le site officiel de l'Assemblée générale:

    Maintenant jusqu'au 19 Août, Ji-won nouveau numéro d'édition limitée de billets Early Bird communication étroite avec le leader mondial de l'IA, l'intelligence artificielle, témoin de l'industrie mondiale à pas de géant.

    • Billets de ligne active lien:

    • billet de ligne active de code à deux dimensions:

    cercle de poudre indicibles, les six modèles nouveaux est plus grande que la peur des attentes déçues
    Précédent
    Guangzhou a battu pic Chongqing! Cantonais est le lieu de naissance discret favori Chen Xiaoqing, est la visite vaut pour tout le monde d'un
    Prochain
    Peut conduire grammes de gloire? Geely donné trois conseils à suivre Ming
    Google AutoML vrai, alors Dieu? l'apprentissage en profondeur à « démystifier »
    Du Japon, l'Italie à Pékin, l'étranger est vraiment « vagues »
    L'emploi et l'esprit d'entreprise et les politiques d'assurance-chômage sont mis en uvre la publicité, Hanchuan en action
    Pour rester à l'esprit ne le regrette pas: Commentaire sur l'impérialisme américain n'est pas recommandé pour la plupart des cinq modèles
    Avant la visite à voir absolument! Qingming conseils de voyage, tout sec!
    motos neige plongé dans la glace hors de contrôle, des uniformes de police ont décollé sauter dans une rivière pour sauver les gens ......
    Hanchuan Deuxième déplacement du rapport d'étape (9.5)
    Les nouvelles voitures sont partout, où cinq modèles des plus attendus?
    « Permet aux opérateurs de passer AI » serveur AI est plus approprié pour la formation de haute performance modèle d'apprentissage en profondeur
    la propagation de la peste porcine africaine dans tout le pays, en date du 23 Octobre, foyers impliquant 12 provinces et 31 villes!
    Ne l'appelez pas « Little Maldives », ici nous avons les plus beaux couchers de soleil dans le monde ......