leader Data mining Professeur Han Jiawei: Comment de textes non structurés en connaissances utiles?

Reproduit de: AI Technology Review (ID: aitechtalk)

Auteur: Camel

article mot figure 369516 Lecture recommandée 24 minute .

géant Data mining Professeur Jiawei Han comment partager des données massive dans les données non structurées de la dernière ligne de la recherche des connaissances utiles.

Données non structurées - > Des données structurées - > connaissances utiles

Les quelques derniers jours, de nombreux chercheurs dans le domaine de l'exploration de données, Beijing est un centre d'attention, parce que sans lui, comme les deux premiers exploration de données sera CIKM 2019 ICDM 2019 et ont eu lieu à Beijing, et même lieu ( Centre national de la Convention) n'a pas changé.

Deux réunions les mêmes classes de CCF B, à l'exception que l'ancien DÉTENTEUR ACM, ce dernier est tenu IEEE, la couverture de plus CIKM plus large, y compris une base de données, la recherche d'informations et de données minières trois domaines, et est ICDM de données plus ciblée l'exploitation minière.

Au cours des deux réunions, le domaine des géants de l'exploration de données Professeur Han Jiawei feront leurs recherches ont été deux rapports, le thème de

  • De Unstructured Texte à Textcube: automatique Construction andMultidimensional Exploration (@ CIKM2019)
  • Embedding-Based Text Mining: une frontière dans l'exploration de données (@ ICDM2019)

Le monde réel de gros volumes de données non structurées est en grande partie, dynamique et reliés entre eux, et sous la forme de texte en langage naturel, convertit ces grandes quantités de données non structurées en connaissances utiles à l'ère de Big Data la seule façon. À l'heure actuelle, il est méthode généralement de main-d'uvre des données de marquage à la connaissance de l'extrait, cette méthode est préférable à un point de vue à court terme, mais ne peut pas être étendue, des données de texte, d'autant plus que de nombreuses entreprises sont des domaines très dynamiques et connexes.

Le professeur Han Jiawei qu'un grand nombre de données de texte lui-même implique un grand nombre de modèles cachés, des structures et des connaissances, afin que nous puissions utiliser la base de connaissances domaine indépendant et dépendant du domaine, d'explorer comment convertir des quantités massives de données à partir de données non structurées connaissances utiles.

Comme indiqué ci-dessous, est la ligne principale du professeur Han Jiawei et ses élèves ont étudié dans le passé et l'avenir dix ans:

Jiawei Han croient que pour les données existantes de grandes non structurées en connaissances utiles, la première chose à faire est de données structurées. Il propose deux types de données structurées dans un réseau hétérogène (réseau hétérogène), l'autre est un texte de cube multidimensionnel (Multi-dimensionalText Cube). Ces données structurées générées par la connaissance est avéré être très puissant, mais comment les données d'origine devient des structures de données non structurées (réseau ou Cube texte) est très difficile.

Dans le réseau / Textcube à la question de savoir, et Jiawei Han, qui a fait beaucoup de travaux de recherche, a ainsi remporté de nombreux prix, en données textuelles non structurées au réseau structuré / Texte Cube sur la façon dont ils ont fait de nombreuses tentatives et les résultats, sont toujours en cours. Jiawei Han pense que c'est un très long chemin, ils ne sont plus que de cette façon peut aller de l'avant pour briser quelques-unes des trous, juste une petite route, vous devez devenir un large universitaires route de différents pays à travailler ensemble.

Le professeur Jiawei travail à chaud Han n'a pas été suivi, mais depuis des décennies pour passer de données non structurées pour passer à travers une connaissance structurée de la grande route, de sorte que le contexte est très clair et très cohérent.

Ce qui suit AI Technology Review au début de 2018 de la consolidation du Professeur Jiawei Han présentations article " Qu'est-ce Jiawei Han ouvert exploration de données « chemin » est » Uniquement pour référence. Il y a un an, l'équipe Professeur Han Jiawei sont constamment présent les dernières recherches sur ces progrès dans leur « chemin » qui, par exemple, BERT, texte sphérique Embedding comme ceux-ci s'il vous plaît consulter le professeur Han Jia équipe Wei articles récemment publiés.

Tout d'abord, la trilogie de l'exploration de données

Révolution des lignes directrices devaient être étudiées aussi.

Jiawei Han pense que si vous voulez creuser des connaissances utiles Big Data, nous devons étudier comment devenir un texte non structuré texte structuré, puis appuyez sur la connaissance du texte a une structure.

En réponse à cette idée, ils ont fait trois mots clés:

Structuration: Le texte non structuré en structuré, avec un type d'entité ou relation associée

Mise en réseau: la construction d'un réseau à l'aide d'un grand nombre de relations structurées

Exploitation minière: l'exploitation minière sur les relations et les réseaux

Jiawei Han pense qu'ils font des données minières travaux de recherche peuvent être résumés comme Trilogy:

(1) à partir du texte caché robinet structure de données . Les données textuelles cachées dans beaucoup de la structure, cette étape est d'élaborer ces mines de données.

(2) les données en texte dactylographié réseau / Cube texte . Les données textuelles dans structuré, il existe des types de données (réseau / Text Cube).

(3) Mining Network / Texte Cube générer des connaissances utiles . La dernière étape est l'excavation.

Pourquoi passer par l'étape intermédiaire dans le texte non structuré à convertir en réseau / Texte Cube, plutôt que directement à l'extraction de texte, il? Jiawei Han a ensuite cité deux exemples pour illustrer les avantages de le faire.

Deux, puissant réseau

Si DBLP informations bibliographiques (telles que le papier, l'auteur, publication, etc.) intégrés dans le réseau, il est évident que ce réseau contient une mine d'informations, par exemple, nous pouvons creuser à travers une fonction de classement du réseau qui est le leader de la recherche Web ou creuser grâce à la fonction de recherche de similarité du réseau d'un savant collègue, de creuser à travers la relation entre les partenaires futurs prévus qui seront un savant, disciplines Data mining pour découvrir comment l'évolution se produit sur le réseau et le développement et ainsi de suite.

Il Jiawei Han a raconté une histoire. 2010 ECML-PKDD Han a été invité à faire un discours, rapporte le thème de la "structure est le message: la structure minière Network Information" (Structureis Informative: sur l'exploitation minière Structured Information Networks). Q & A session après la fin du rapport, le Christos Faloutsos suivant assis sur leurs mains et demanda: « Vous faites ce réseau est très puissant, mais vous pouvez prédire ce que l'année prochaine j'écrire l'article? » Han a répondu: « Je n'ai même pas propre moins que prévu, sans parler de vos amis. « donc était inférieur à rire. Jiawei Han va revenir en arrière et dire la plaisanterie était encore dans ses mains Sun Yi Zhou écouter PhD. Sun Yi Zhou très sérieusement que ce n'est pas une blague simple. Après analyse et discussion Sun Yi Zhou a mis en place un nouveau sujet, Christos prédire ce que de nouveaux auteurs quelques années il y aura une coopération à l'avenir.

La question a conduit à Sun Yi Zhou a ensuite proposé le concept de chemin Meta nous maintenant largement utilisé et publié en 2011 un article sur l'influence énorme ASONAM. Dans l'article, Sun Yi Zhou Jian Pei prédit collaborateurs. Selon Pei construit en articles entre les années (comme jeu de fonctionnalités) a prédit avec précision le seul qu'il ne figure pas dans les cinq prédictions Entre ce qui sera collaborateur (jeu de test), le classement dans ensemble de test.

Une autre prédiction est fausse? Non, la construction Pei et Osmar ont également la coopération, le papier, mais ils ont co-publié en 2011, ne compte pas dans le jeu de test uniquement.

Cela montre que si Big Data Network aura structuré après sa capacité prédictive (ou toute autre capacité) sera très forte.

Trois, Cube texte puissant

Nous savons que si les statistiques et analyses sur la base de données (par exemple, les données du cube) est très pratique. Maintenant, analyser le texte non structuré, le texte peut être placé si un cube multidimensionnel similaire, alors il est clair que ce texte d'analyse va jouer un bon rôle.

Texte Cube Une application est le comparatif Summarization. Tels que la vente de nouvelles NY Times pour un cube, nous voulons résumer « 2016 », « économie » « Chine » de l'information est. Les documents relatifs à ces mots-clés ont beaucoup, beaucoup, personne ne veut aller un par un pour voir. Si vous utilisez simplement des méthodes statistiques pour obtenir de l'information, vous trouverez qu'il n'y a pas beaucoup de « l'économie » de l'information, tels que « Hong Kong », « États-Unis » et ainsi de suite. Et si nous avions été mis dans ces textes Cube, est basée sur l'intégrité, la popularité, les normes LA DISTINCTION, par comparaison au voisinage de chaque cellule de dimension, vous pouvez facilement trouver les informations de façon très précise.

En utilisant cette méthode, l'équipe Jiawei Han dirigée par le New York Times en 2016, il est facile de creuser les nouvelles lorsque le débat bipartite des États-Unis à l'ordre du jour principal (par exemple < États-Unis, le contrôle des armes > , < États-Unis, l'immigration > Etc.) Les informations clés du Top 10.

Une histoire très intéressante, Jiawei Han à l'UCLA pour faire un rapport sur l'étude ci-dessus, le professeur de l'UCLA de la médecine a attiré l'intérêt. Dans l'étude de l'UCLA sur les maladies cardiaques à travers les Etats-Unis, il est très avancé.

Le professeur a dit Han Wei a dit, en fait, d'une maladie cardiaque n'est pas une sorte de maladie, mais la maladie six catégories, chaque catégorie de maladie causée principalement par des protéines. Ils veulent Jiawei Han peut les aider à trouver ce type de protéines qui grand nombre de documents de maladies cardiaques sont étroitement liées.

La tâche de ces professeurs de médecine est très difficile, car il y aura plus d'un million journaux biomédicaux publiés chaque année, et chacun a présenté une liste de protéines connexes pour la recherche sera toujours certains types de maladies cardiaques, d'un si grand trouver les informations correspondantes dans certains types de protéines de la maladie cardiaque est extrêmement difficile.

Après discussion, Jiawei Han, qui a attrapé dix ans de données « maladies cardiovasculaires » liées de PubMed (une base de données de la littérature médicale), environ 500000 papier. Ils utilisent ces 500000 papier, 250 protéines étaient six catégories de maladies cardiaques et professeurs de médecine cotées en bourse, selon le New York Times et creuser le même algorithme, bientôt obtenu associé le séquençage des protéines pour chaque type de maladie cardiaque dans le tableau suivant (liste seulement les Top 5).

Après avoir vu les résultats de ces professeur de médecine ravi. Tout d'abord, les résultats de Jiawei Han et d'autres répertoriés dans le classement de leurs protéines et circonstances connues de n ° 1 en pleine conformité, indiquant que cet algorithme est efficace. Mais leur expérience a montré que certains patients (comme les enfants) dans cette cause de protéines au traitement est souvent inefficace, ce qui suggère que ce type de maladie cardiaque chez ces patients n'est pas causée par la protéine. Donc, le classement Jiawei Han, qui figurent n ° 2, n ° 3 et d'autres protéines leur donnent une grande idée qu'ils peuvent se concentrer sur les essais cliniques pour ces protéines, ce qui a grandement facilité leur recherche.

Un tel exemple simple illustre texte Cube est utile, mais a un grand potentiel.

  En quatrième lieu, de la structure minière de texte non structuré

Des recherches sur les deux sens ( « trouver les connaissances du réseau » et « trouver la connaissance du texte Cube ») montre que si vous avez un réseau structuré / Texte Cube, puis creusez la connaissance est assez facile. Mais le monde réel, nous avons la plupart des données sont des textes non structurés, la façon dont ces textes non structurés devient un problème dans un réseau structuré / Texte Cube est toujours en suspens.

Jiawei Han équipe du personnel au cours des dernières années est le principal travail de recherche autour de cette question, à savoir, comment creuser des phrases de texte dans la façon dont l'exploitation minière entités typées, et comment ces expressions / entités typées deviennent réseau à partir du texte / Texte- cube.

1, Mining Phrase

Signification un seul mot souvent pas évident, si l'on peut creuser la phrase (phrase) du texte, puis appuyez sur le texte de la structure aura une signification très importante. Jiawei Han équipe du personnel a proposé trois méthodes, à savoir TopMine sans supervision, surveillance faible et surveillance à distance de SegPhrase AutoPhrase. Ces études ont révélé le code sur GitHub, tout le monde peut télécharger d'utiliser ou de reproduire leur travail.

(1) TopMine: analyse statistique du modèle de fréquence minière +

Ce travail principalement sur le corpus sujet de l'exploitation minière de texte. Cependant, il est différent de la méthode classique en utilisant la méthode Uni-gramme, mais creuser dans le sujet: deux étapes pour diviser le texte par phrase Mining, suivi Phrase contraintes de modèle du sujet.

Le texte est une PhraseMining idée de base, la fréquence des mots plus Phrase se produisent simultanément. , Formule tel est précisément:

Par exemple, pour une thèse intitulée « Sélection des fonctionnalités Couverture de Markov pour Support Vector Machines », différentes méthodes peuvent diviser en différents à l'intérieur du sujet, par exemple, basées uniquement sur « Vector », cet article sera probablement divisé en mathématiques, sujet en physique. Mais apparemment, « Support Vector Machines » dans son ensemble, il appartient à l'ordinateur du sujet. L'itération de la formule ci-dessus, le titre peut être divisé comme suit Phrase.

Quelle est cette approche? Jiawei Han et il a raconté une histoire. David Blei fait très autorité des experts du sujet modèle, UIUC après un certain temps d'aller visiter et voir les résultats très choqué, parce qu'il avait jamais vu un si bon résultat.

Les résultats de bonne raison se résume à ce sujet TopMine modèle sera divisé en deux étapes, d'abord faire Mining Phrase, avant de faire le modèle du sujet. Cette méthode permet d'éviter un gramme de longueur uniforme de mot Phrase séparée.

(2) SegPhrase: faible surveillance, la qualité des mines Phrase

façon Jiawei Han Liu Jia Lu étudiants pensent de TopMine complètement sans supervision, si une petite quantité de données peut améliorer l'étiquette du sujet Les résultats du modèle dans une large mesure. Il a donc soigneusement sélectionné 300 étiquettes de haute qualité (150 cas positifs, contre-exemple 150).

Après l'article publié dans le SIGMOD2015, ils ont rapidement donné Yelp a rendu une sentence « Grandprize 2015 Yelp Set Data Challenge », et cette méthode a également été appliquée dans le sur TripAdvisor et d'autres plates-formes.

(3) AutoPhrase: Mines automatique Phrase

Jiawei Han fournisseur étudiants triés sur le volet 300 Jingbo think haute qualité étiquettes tout à fait des coûts d'énergie, afin de choisir d'utiliser les entrées de Wikipedia comme étiquette, de sorte que vous pouvez obtenir rapidement des centaines de milliers d'étiquettes.

Un problème avec cette approche est qu'il ya une phrase pas dans Wikipedia, ces expressions péjoratifs pas nécessairement l'étiquette. Ils ont résolu le problème par le classement.

Les résultats de cette approche par rapport aux autres méthodes se sont considérablement améliorés.

2, l'identification TypedEntity

Phrase savoir plus tard, le besoin de laisser le sens de la phrase marque, à savoir d'identifier l'entité notée type. Selon les mots de Han Wei:

« L'identification asentity span jeton mentionne dans les documents et l'étiquetage de leurs types - Activation structuredanalysis du corpus de textes non structurés. »

Cela a plusieurs difficultés:

  • restrictions sur le terrain. Entité avec le corpus général obtenu marqué dans des domaines spécifiques, ou des zones de domaine émergent de dynamique pas bien.
  • Nom Ambiguïté. Plusieurs entités peuvent partager la même surface de nom (SurfaceName, comme « Washington », il peut être l'état, ville, nom, nom de l'équipe, etc.)
  • clairsemés Contexte. Il y a beaucoup de représentations possibles de la même relation. (Pensez des résultats de la compétition sportive indiquent la méthode de combien il chinois)

(1) ClusType

Jiawei Han dit qu'ils ont publié un article dans le KDD 2015. Dans cet article, ils ont construit un schéma hétéro-structure dans laquelle c1, c2, c3 Nom de surface au nom de l'entité, p1, p2 ...... texte au nom Nomme Surface Phrase et m1, m2 ...... au nom de l'entité (EntityMention ). Chaque mention entité est sans ambiguïté des objets indépendants.

Le nom de la surface, et l'entité Phrase Mention connectée, dans lequel les deux objets est possible de partager la même étiquette, en les reliant à l'augmentation de poids de bord.

Sur la base d'une telle carte hétérogène, ils seront deux tâches ensemble pour construire un apprentissage semi-supervisé à base de graphes:

  • Evolution du type de la figure. classes d'entité liées par des relations Phrase synonyme de cluster déduisent (par exemple, « Kaboul est un allié de Washington, » si les catégories de Kaboul connues pour être la catégorie « gouvernement », on peut en déduire ici, « Washington » est « gouvernement « ).
  • La relation entre le groupe de mots. À son tour, le type d'entité a été marquée peut être une phrase en cluster bonne fonctionnalité.

Ces deux étapes du cycle sera de bons résultats. Comme on peut le voir à partir des résultats de sa F1-score bien au-delà de l'autre domaine de la recherche en haut de la PNL.

(2) cotype: approfondir

Les catégories ci-dessus ont tendance à être rugueux, par exemple, seule une distinction entre « personne », « nourriture », « travail », « événement », « gouvernement » et ainsi de suite, la taille des particules est relativement importante. Par exemple au Trump, Trump est une grande catégorie de « personne », mais comme une « personne » Trump peut être un homme politique, il peut être un homme d'affaires ou artistes. Comment la classification plus fine de celui-ci? Il est à Embedding.

Jiawei Han a cité les a publiés dans un article sur le WWW 2017. Dans cet article, ils ont inventé une méthode appelée la cotype de l'entité et de phrase tout Embedding dans un espace de faible dimension (plutôt que l'entité Embedding).

Par exemple, dans cet espace Embedding, si vous voulez marquer le « Trump » et « Hillary » similaire, il est clair que devrait donner le « Trump » est marqué comme « politique », si elle est, et liée à des affaires de phrase similaire, il est marqué comme « homme d'affaires ". Phrase par l'entité et de promouvoir les uns des autres pour améliorer le contenu global de la marque.

Des exemples de Le papier est cité « Obama », voici un exemple de rapports Jiawei Han.

3, à la recherche de MetaPattern

Jiawei Han compte tenu du fait plus loin, non seulement de trouver phrase, non seulement pour trouver le type, mais aussi pour trouver du texte modèle, automatiquement et une grande quantité d'informations de structure d'exploration de texte par modèle.

Qu'est-ce modèle de celui-ci? En fait, un peu populaire, il est « routine ». Nous appliquons la langue dont beaucoup sont dans le modèle, tel que « le gouvernement des Etats-Unis », « le gouvernement ofChina », « le Goverment ofBurkina Faso », et ainsi de suite. Vous savez peut-être pas ce que tout d'un coup « Burkina Faso » est, mais un modèle similaire, vous savez c'est vraiment un pays.

Encore une fois, ce n'est pas difficile pour la machine. Tant qu'il y modèle, la machine peut rapidement creuser beaucoup d'informations du même texte Pattern. Jiawei Han Jiang a soulevé leur postdoctoral laboratoire TROMPER publié dans l'article KDD 2017.

Ce travail est également au travail Phrase à faire, mais c'est modèle Meta Meta de phrase.

De ce qui précède, il peut être clairement visible sur la figure leur flux de travail: la segmentation du texte corpus Pattern Meta, modèle Meta, trouver CORR un grand nombre de triplés modèle Meta, modèle Meta, puis encore améliorée par les triplets de données par exemple, pour augmenter la taille des particules ou obtenir synonyme Motif Meta. Il convient de noter que cette approche ne nécessite pas beaucoup de données de marquage, ni besoin des connaissances de domaine approprié, ne avez pas besoin de rechercher des journaux.

Ils appliquent cette approche corpus de nouvelles, tout d'un coup tous les pays et les dirigeants, ainsi que les grandes et les petites entreprises et leur PDG creusé.

La même méthode est utilisée dans la recherche médicale dans le corpus rapidement pour creuser les options de traitement appropriées et les maladies, les bactéries et les anticorps. Ce travail est une idée très simple, mais le résultat est très étonnant.

4, établir la classification hiérarchique

Sur la base des travaux ci-dessus, beaucoup de gens étudient comment établir une classification hiérarchique de l'entité. Après une formation humaine peut facilement être classé à différentes entités, comme l'apprentissage machine, l'informatique est clairement pas le même niveau. la machine peut générer automatiquement la classification de niveau entité en fonction du texte Titre il?

Jiawei Han a dit, créer automatiquement la classification hiérarchique est en fait « assez difficile ». Après de nombreuses tentatives ont mis en avant deux méthodes efficaces: Adaptive Clustering et sphérique LocalEmbedding.

(1) AdaptiveSpherical Clustering

Popularité et la concentration en considérant deux caractéristiques, la conception d'un modèle de classement, chaque groupe élu phrases représentant (représentant) Phrases par le classement modèle. CONTEXTE puis ceux de phrases (phrases d'arrière-plan) un haut ou le bas et une (des distances différentes de l'arrière Embedding) transition. La chose la plus importante est, ne pas forcer chaque phrase doit appartenir à un cluster.

(2) Embedding locale

Le soi-disant LocalEmbedding, utilisez seulement les phrases est associé au cluster étaient Embedding. La raison de cela est parce que quand tout le Phrase placé Embedding (Global Embedding) ainsi que d'autres expressions de cluster produira beaucoup de bruit, ce qui annihilation des choses vraiment utiles. Et si vous pouvez utiliser LocalEmbedding Phrase vraiment utile a révélé.

Cinquièmement, pour construire Textcube multidimensionnelle

Quel est le but de ces études est-il? Jiawei Han a dit, veulent surtout construire un cube de texte multidimensionnel.

Un doute possible, la partie avant 2.2 n'est pas déjà construit dans le texte Cube, pourquoi construire? Nous devons noter que le New York Times Cube texte est données qui sont déjà construits conformément aux normes Texte Sujet (sport, économique, politique, sciences ...) ou Lieu (Chine, Etats-Unis, Japon ...) et d'autres labels cube, et le monde réel est le plus souvent du texte et pas d'étiquette, qui ont besoin de construire notre propre.

Un vrai problème est que si vous donnez un million de documents, et seul un petit nombre d'étiquettes (telles que l'emplacement mentionné ci-dessus, l'étiquette du sujet), vous pouvez générer automatiquement des centaines de milliers d'étiquettes, et le texte mis correctement ces étiquettes sont intégrées dans le Cube texte multidimensionnel en elle?

Tout d'abord, bien sûr, nous faisons Embedding, mais trop peu connue étiquette. Han Wei si ils ont construit un L-T-D (Étiquette durée document) Fig terme qui est extraite à partir du texte.

Nous voyons la distribution de chaque terme dans chacune des étiquettes connues.

Par exemple, « marché boursier », sa distribution de probabilité dans chaque dimension Localisation fondamentalement la même, ce qui indique que « le marché boursier » ce terme ne appartiennent Lieu Cette dimension, et d'autre part, il est une forte différence dans la distribution de dimension du sujet le sexe. Selon une norme appelée Dimension-FocalScore il peut appartenir à l'économie tag discriminé.

Selon la méthode ci-dessus, et la prévalence du terme sous cette étiquette (si plus d'une certaine valeur), vous pouvez déterminer ce terme (comme « marché boursier ») appartient à une étiquette correspondant aux dimensions de l'étiquette. De cette façon, nous pouvons générer automatiquement un grand nombre de balises et le texte en même temps de mettre ces étiquettes construction multidimensionnelle Texte Cube eux.

Après la construction de cette Textcube, l'exploration de données sera beaucoup plus facile.

Sixième, le résumé de la recherche

Jiawei Han a fait un rapport sommaire final, où nous organiserons les paroles de Han suivant, légèrement modifié:

Nous pensons que, si gros volumes de données devient grande connaissance, ce qui est très important est d'avoir une structure. Nous trouvons deux structures, on est réseau, est un cube de texte. Les deux structures d'exportation des connaissances, nous avons déjà un bon exemple, et très puissant. Bien sûr, ces deux structures devraient être combinées d'une certaine façon, et maintenant nous avons des gens dans l'étude de la façon de les combiner.

données réelles aux données structurées, à des connaissances utiles, cela est encore un très long chemin. Tant d'années que nous faisons Data Mining est également le long de cette route pour aller. A partir de 2000, nous avons le premier livre (Note: La troisième édition 2011), suivie par Philippe, Faloutsos et je co-écrit "Mining Link" en 2010, puis à nouveau Sun Yi Zhou a fait "Mining Réseau HeterogeneousInformation"; suivie par Wang Chi à faire "Mining latent EntityStructures", récemment, il était Liu Jia Lu, Jingbo ils Phrase activité minière fait sortir ( "Phrase Mining de Massive texte et son application"). Ceux-ci deviendra plus tard un livre. Ensuite, nous les avons soit Xiang, se baissera. (AI Technology Review Novembre 2019 Note: À l'heure actuelle Ren Xiang a une "structures d'exploration de texte de connaissances factuelles", puis Chao a publié "Multidimensional minière du texte Massive Data")

De cette façon, nous sommes maintenant seulement trouvé quelques trous peut aller de l'avant. Maintenant, ce n'est pas une route, mais une route. Pour devenir une grande route, nous devons travailler ensemble. La route à travers de large, à l'avenir, nous pouvons d'une grande quantité de texte non structuré dans beaucoup de connaissances utiles. Voilà ce que je veux dire attention.

- FIN -

attention Tsinghua - données Académie des sciences de Qingdao plate-forme publique micro-canal officiel " données d'envoi THU « Sisters et n ° » Les données envoyées THU « Pour plus de conférences et de bien-être contenu de qualité.

L'activité nationale est venu à Zhongshan, la science et la forme physique entrera cinq écoles primaires et secondaires, bénéficiant plus d'un million d'étudiants
Précédent
Derrière la chute de 361 degrés: les choses entre les anciens et les nouveaux auditeurs mille actions
Prochain
Mob tuer vieil homme innocent, le peuple de Hong Kong pleurent spontanément: Nous ne devrions pas avoir peur de la violence
Zhao Yuanyuan Désolé: Taobao nous vivons trop larme feu votre coloration de protection de l'article 270
Apprenez à vous d'écrire votre premier réseau de neurones (avec le code et tutoriels) avec moins de 30 lignes de code Keras
2019 la situation de l'industrie AI et la tendance du développement rapport
La sixième Chine Festival International du Cirque de rideau demain, la Princesse Stéphanie de Monaco visitera le Royaume d'événement
En approchant du héros Xiaoba Road, en explorant la petite ville du printemps et de l'automne, deux films classiques rouges ont eu lieu à Xiamen
Les quatre chanteurs jamais la synchronisation labiale, liste de JJ, la quatrième place dans le concert fait forgetten
Tangxia pilote a parole longueur, à long système de rue, mobiliser les masses pour former une base communautaire gouvernance
Regardez étroitement lié à l'éco-noyau « dans le changement Jiangxi »
Wan Chain: trouver le chemin le plus facile dans la pièce du chaos du marché
@Fujian people note : jusqu'au 15 novembre, ce genre de comportement est strictement interdit
Route « Cheval » de rentrer chez plus de cent ans! « Zodiac » est encore cinq disparus