Qu'est-ce Jiawei Han ouvert exploration de données « chemin » est

Lei Feng réseau AI Technology Review: Prof. Récemment, les données géant minier Jiawei Han dans la Fédération de Chine Computer (CCF) a organisé les 87 ateliers disciplines de la frontière CCF (CCF Disciplines avancée Conférences, appelé CCF - ADL) < 2> a fait un excellent rapport, intitulé appelé « analyse multidimensionnelle du corpus à grande échelle » (analyse multi-dimensionnelle de corpus massif de texte). L'auteur de ce rapport, la majorité de la pensée privée pour les enseignants d'exploration de données et les élèves ont une grande importance, Jiawei Han lui a dit, et il a conduit les étudiants dans ce rapport dans le passé et la direction future de la recherche plus d'une décennie la principale ligne, qui est, l'image ci-dessous:

L'article a également rencontré à plusieurs reprises, c'est le contenu de la parole d'une « carte », mais aussi le domaine de l'extraction de données d'une « carte »

Jiawei Han croient que pour existantes non structurées Big Data en connaissances utiles, la première chose à faire est de données structurées. Il propose deux types de données structurées dans un réseau hétérogène (réseau hétérogène), l'autre est un texte de cube multidimensionnel (multi-dimensions Cube texte). Ces données structurées générées par des connaissances est avéré être très puissant, mais comment les données d'origine devient des structures de données non structurées (réseau ou Cube texte) est très difficile.

Dans le réseau / Texte Cube à la question de savoir, et Jiawei Han, qui a fait beaucoup de travail de recherche, il a ainsi remporté de nombreux prix, en données textuelles non structurées à réseau structuré / Texte Cube sur la façon dont ils ont fait beaucoup essayer et réalisations, sont toujours en cours.

Jiawei Han pense que c'est un très long chemin, ils ne sont plus que de cette façon peut aller de l'avant pour briser quelques-unes des trous, juste une petite route, vous devez devenir un large universitaires route de différents pays à travailler ensemble.

Ici, nous prenons un regard sur les détails du rapport professeur Han Jiawei.

Jiawei Han, directeur de l'Université américaine de l'Illinois à Urbana-Champaign professeur (UIUC) Département des sciences informatiques, IEEE et ACM Fellow, un ancien réseau d'information financée par ARL US Centre commun de recherche. Il servait KDD, SDM et ICDM autre président du comité de programme de la conférence de renommée internationale, fondateur et rédacteur en chef du Journal de l'ACM TKDD. Dans l'exploration de données, bases de données et réseaux d'information publié plus de 600. Les données publiées minières monographie « Data Mining: Concepts et techniques », l'exploration de données est devenu un manuel classique à la maison et à l'étranger. CIED 2002 a remporté le prix de la contribution exceptionnelle, SIGKDD 2004 Best of Innovations Award 2009 Award McDowell (le Prix McDowell). Dans H-index de Google Scholar, un rang élevé de l'informatique de plomb du monde des trois premiers.

Lei Feng réseau en tant que partenaire média exclusif, une couverture complète des discours ADL 87 (treize haut-parleurs Introduction Voir « CCF ADL 87 ateliers Revue: Jiawei Han et d'autres 13 gros bétail résoudre les réseaux sociaux et l'exploration de données complète » , vidéo s'il vous plaît déplacer CCF-ADL87: les réseaux sociaux et l'exploration de données).

L'atelier a également invité le domaine de l'exploration de données, un autre géant: Philip S Yu. Le professeur Philip dans le rapport a donné un compte rendu détaillé de ses nombreuses années a préconisé « l'ampleur de l'apprentissage » (apprentissage large) des concepts et méthodes, et avec trois études de cas connexes pour illustrer comment apprendre la profondeur et l'ampleur de l'apprentissage en combinaison.

Présentation générale

Professeur Han rapport Jiawei Ceci est largement divisé en cinq parties, les grandes lignes de sa liste ci-dessous.

Ils sont les suivants:

1, comment la connaissance de gros volumes de données. Ici trilogie Jiawei Han ont présenté leurs recherches;

2, comment le réseau Cube / texte à la connaissance. Jiawei Han ici a simplement donné quelques recherches avant de pouvoir voir le Réseau / Cube texte la puissance, ce qui explique pourquoi la première réflexion de données structurées dans l'extraction de données;

3, comment creuser la structure du texte non structuré. Jiawei Han croit creuser du texte non structuré dans la structure actuelle est la plus importante des données de recherche minière. Il a réalisé une étude approfondie sur leur interprétation dans quatre domaines;

4, comment construire Cube texte. Après l'étape avant la prise de contrôle, creuser la structure, Jiawei Han a expliqué comment construire un cube de texte multidimensionnel;

5, le résumé de la recherche. Enfin, Jiawei Han conclu par Big Data à Actionable La connaissance est encore une petite route, la grande route de l'avenir doit être de travailler ensemble des chercheurs de divers pays.

Tout d'abord, comment passer du Big Data Actionable connaissances

Révolution des lignes directrices devaient être étudiées aussi. Jiawei Han première idée générale de leurs recherches.

1.1 grande variété de commun des données non structurées

Dans notre temps, en raison du développement de l'Internet, ce qui entraîne de grandes quantités de données. Malgré le grand nombre de ces données sont stockées dans la table, mais la majorité (plus de 80%) sont de manière non structurées ou semi-structurées d'autre texte stocké. Donc, grande exploration de données, il faut d'abord examiner comment ces systèmes à exploiter les grandes quantités de données de texte non structuré.

1.2 Comment grande mine système de données

Jiawei Han pense que si vous voulez creuser des connaissances utiles Big Data, nous devons étudier comment devenir un texte non structuré texte structuré, puis appuyez sur la connaissance du texte a une structure.

En réponse à cette idée, ils ont fait trois mots clés:

structuration: Le texte non structuré en structuré, avec un type d'entité ou relation associée

Mise en réseau: Construire un réseau en utilisant un grand nombre de relations structurées

Exploitation minière: Exploitation minière sur les relations et les réseaux

1.3 Trilogy Data Mining

Jiawei Han pense qu'ils font des données minières travaux de recherche peuvent être résumés comme Trilogy:

(1) du robinet caché de la structure de données de texte. Les données textuelles cachées dans beaucoup de la structure, cette étape est d'élaborer ces mines de données.

(2) Les données en texte dactylographié Réseau / Texte Cube. Les données de texte est devenu une structure, le type de données (réseau / Texte Cube)

(3) Mining Network / Texte Cube générer des connaissances utiles. La dernière étape est l'excavation.

Pourquoi passer par l'étape intermédiaire dans le texte non structuré à convertir en réseau / Texte Cube, plutôt que directement à l'extraction de texte, il? Jiawei Han a ensuite cité deux exemples pour illustrer les avantages de le faire.

En second lieu, le Réseau / Texte Cube à la connaissance

 2.1 Réseau puissant

Si DBLP informations bibliographiques (telles que le papier, l'auteur, publication, etc.) intégrés dans le réseau, il est évident que ce réseau contient une mine d'informations, par exemple, nous pouvons creuser à travers une fonction de classement du réseau qui est le leader de la recherche Web ou creuser grâce à la fonction de recherche de similarité du réseau d'un savant collègue, de creuser à travers la relation entre les partenaires futurs prévus qui seront un savant, disciplines Data mining pour découvrir comment l'évolution se produit sur le réseau et le développement et ainsi de suite.

Il Jiawei Han a raconté une histoire. 2010 ECML-PKDD Han a été invité à faire un discours, thème du rapport est "la structure est le message: la structure minière Information Network" (structure informative: Le Mining Structured Information Networks). Q & A session après la fin du rapport, le Christos Faloutsos suivant assis sur leurs mains et demanda: « Vous faites ce réseau est très puissant, mais vous pouvez prédire ce que l'année prochaine j'écrire l'article? » Han a répondu: « Je n'ai même pas propre moins que prévu, sans parler de vos amis. « si le rire était inférieur. Jiawei Han va revenir en arrière et dire la plaisanterie était encore dans ses mains Sun Yi Zhou écouter PhD. Sun Yi Zhou très sérieusement que ce n'est pas une blague simple. Après analyse et discussion Sun Yi Zhou a mis en place un nouveau sujet, Christos prédire ce que de nouveaux auteurs quelques années il y aura une coopération à l'avenir.

La question a conduit à Sun Yi Zhou a ensuite proposé le concept de chemin Meta nous maintenant largement utilisé et publié en 2011 un article sur l'influence énorme ASONAM. Dans le papier, le Sun Yi Zhou Jian Pei prédit collaborateurs. Selon Pei construit en articles entre les années (comme jeu de fonctionnalités) a prédit avec précision le seul qu'il ne figure pas dans les cinq prédictions Entre ce qui sera collaborateur (jeu de test), le classement dans concentration d'essai.

Une autre prédiction est fausse? Non, la construction Pei et Osmar ont également la coopération, le papier, mais ils ont co-publié en 2011, ne compte pas dans le jeu de test uniquement.

Cela montre que s'il y a un réseau Big Data sera structuré après sa capacité prédictive (ou toute autre capacité) sera très forte.

2.2 Texte Cube puissant

Nous savons que si les statistiques et analyses sur la base de données (par exemple, les données du cube) est très pratique. Maintenant, analyser le texte non structuré, le texte peut être placé si un cube multidimensionnel similaire, alors il est clair que ce texte d'analyse va jouer un bon rôle.

Texte Cube Une application est le comparatif Summarization. Tels que la vente de nouvelles NY Times pour un cube, nous voulons résumer « 2016 », « économie » « Chine » de l'information est. Les documents relatifs à ces mots-clés ont beaucoup, beaucoup, l'intention de personne d'aller un par un pour voir. Si vous utilisez simplement des méthodes statistiques pour obtenir de l'information, vous trouverez qu'il n'y a pas beaucoup de « l'économie » de l'information, tels que « Hong Kong », « États-Unis » et ainsi de suite. Si nous avions été mis dans ces textes Cube, est basée sur l'intégrité, la popularité, les normes LA DISTINCTION, par comparaison au voisinage de chaque cellule de dimension, vous pouvez facilement trouver les informations de façon très précise.

En utilisant cette méthode, l'équipe Jiawei Han dirigée par le New York Times en 2016, il est facile de creuser les nouvelles lorsque le débat bipartite des États-Unis à l'ordre du jour principal (par exemple

Une histoire très intéressante, Jiawei Han à l'UCLA pour faire un rapport sur l'étude ci-dessus, le professeur de l'UCLA de la médecine a attiré l'intérêt. Dans l'étude de l'UCLA sur les maladies cardiaques à travers les Etats-Unis, il est très avancé.

Le professeur a dit Han Wei a dit, en fait, d'une maladie cardiaque n'est pas une sorte de maladie, mais la maladie six catégories, chaque catégorie de maladie causée principalement par des protéines. Ils veulent Jiawei Han peut les aider à trouver ce type de protéines qui grand nombre de documents de maladies cardiaques sont étroitement liées.

La tâche de ces professeurs de médecine est très difficile, car il y aura plus d'un million journaux biomédicaux publiés chaque année, et chacun a présenté une liste de protéines connexes pour la recherche sera toujours certains types de maladies cardiaques, d'un si grand trouver les informations correspondantes dans certains types de protéines de la maladie cardiaque est extrêmement difficile.

Après discussion, Jiawei Han, qui a attrapé dix ans de données « maladies cardiovasculaires » liées de PubMed (une base de données de la littérature médicale), environ 500000 papier. Ils utilisent ces 500000 papier, 250 protéines étaient six catégories de maladies cardiaques et professeurs de médecine cotées en bourse, selon le New York Times et creuser le même algorithme, bientôt obtenu associé le séquençage des protéines pour chaque type de maladie cardiaque dans le tableau suivant (liste seulement les Top 5).

Après avoir vu les résultats de ces professeur de médecine ravi. Tout d'abord, les résultats de Jiawei Han et d'autres répertoriés dans le classement de leurs protéines et circonstances connues de n ° 1 en pleine conformité, indiquant que cet algorithme est efficace. Mais leur expérience a montré que certains patients (comme les enfants) dans cette cause de protéines au traitement est souvent inefficace, ce qui suggère que ce type de maladie cardiaque chez ces patients n'est pas causée par la protéine. Donc, le classement Jiawei Han, qui figurent n ° 2, n ° 3 et d'autres protéines leur donnent une grande idée qu'ils peuvent se concentrer sur les essais cliniques pour ces protéines, ce qui a grandement facilité leur recherche.

Un tel exemple simple illustre texte Cube est utile, mais a un grand potentiel.

En troisième lieu, de structure d'exploration de texte non structuré

Des recherches sur les deux sens ( « trouver les connaissances du réseau » et « trouver la connaissance du texte Cube ») montre que si vous avez un réseau structuré / Texte Cube, puis creusez la connaissance est assez facile. Mais le monde réel, nous avons la plupart des données sont des textes non structurés, la façon dont ces textes non structurés devient un problème dans un réseau structuré / Texte Cube est toujours en suspens.

Jiawei Han équipe du personnel au cours des dernières années est le principal travail de recherche autour de cette question, à savoir, comment creuser des phrases de texte dans la façon dont l'exploitation minière entités typées, et comment ces expressions / entités typées deviennent réseau à partir du texte / Texte- cube (section IV).

3.1 Phrase Mining

Signification un seul mot souvent pas évident, si l'on peut creuser la phrase (phrase) du texte, puis appuyez sur le texte de la structure aura une signification très importante. Jiawei Han équipe du personnel a proposé trois méthodes, à savoir TopMine sans supervision, surveillance faible et surveillance à distance de SegPhrase AutoPhrase. Ces études ont révélé le code sur GitHub, tout le monde peut télécharger d'utiliser ou de reproduire leur travail.

(1) TopMine: analyse statistique du modèle de fréquence minière +

Ce travail principalement sur le corpus sujet de l'exploitation minière de texte. Cependant, il est différent de la méthode classique en utilisant la méthode Uni-gramme, mais creuser dans le sujet: deux étapes pour diviser le texte par phrase Mining, suivi Phrase contraintes de modèle du sujet.

Le texte d'une idée de base de l'exploitation minière de phrase est, plus la fréquence du mot Phrase se produisent en même temps. est précisément une telle formule:

Par exemple, pour une thèse intitulée « Markov Blanket Sélection des fonctionnalités pour Support Vector Machines », différentes méthodes peuvent scinder en différents à l'intérieur du sujet, par exemple, en se fondant uniquement sur « Vector », cet article sera probablement divisé en mathématiques , sujet en physique. Mais apparemment, « Support Vector Machines » dans son ensemble, il appartient à l'ordinateur du sujet. L'itération de la formule ci-dessus, le titre peut être divisé comme suit Phrase.

Quelle est cette approche? Jiawei Han et il a raconté une histoire. David Blei fait très autorité des experts du sujet modèle, UIUC après un certain temps d'aller visiter et voir les résultats très choqué, parce qu'il avait jamais vu un si bon résultat.

Les résultats de bonne raison se résume à ce sujet TopMine modèle sera divisé en deux étapes, d'abord faire Mining Phrase, avant de faire le modèle du sujet. Cette méthode évite la longueur convenue d'un gramme de mot Phrase séparé.

(2) SegPhrase: faible surveillance, la qualité des mines Phrase

Jiawei Han Liu Jia Lu étudiants pensent façon TopMine sans aucune supervision, si l'étiquette petite quantité de données peut augmenter les résultats du sujet Modèle dans une large mesure. Il a donc soigneusement sélectionné 300 étiquettes de haute qualité (150 cas positifs, contre-exemple 150).

Le document a été publié en 2015 après la SIGMOD, ils ont rapidement donné Yelp reçu un prix « Grand prix 2015 Yelp Set Data Challenge », et cette méthode a également été appliquée dans le sur TripAdvisor et d'autres plates-formes.

(3) AutoPhrase: Mines automatique Phrase

Jiawei Han fournisseur étudiants triés sur le volet 300 Jingbo think haute qualité étiquettes tout à fait des coûts d'énergie, afin de choisir d'utiliser les entrées de Wikipedia comme étiquette, de sorte que vous pouvez obtenir rapidement des centaines de milliers d'étiquettes.

Un problème avec cette approche est qu'il ya une phrase pas dans Wikipedia, ces expressions péjoratifs pas nécessairement l'étiquette. Ils ont résolu le problème par le classement.

Les résultats de cette méthode par rapport à d'autres méthodes se sont considérablement améliorés.

3.2 dactylographié Entité de reconnaissance

Phrase savoir plus tard, le besoin de laisser le sens de la phrase marque, à savoir d'identifier l'entité notée type. Selon les mots de Han Wei:

L'identification durée jeton comme entité mentionne dans les documents et l'étiquetage de leurs types

--Enabling analyse structurée du corpus de textes non structurés

Il a plusieurs difficultés:

  • restrictions sur le terrain. Entité avec le corpus général obtenu marqué dans des domaines spécifiques, ou des zones de domaine émergent de dynamique pas bien.

  • Nom Ambiguïté. plusieurs entités peuvent partager la même surface de nom (Nom de surface, tels que « Washington », il peut être l'Etat, ville, nom, nom de l'équipe, etc.)

  • clairsemés Contexte. Il peut y avoir plusieurs types de représentation pour la même relation. (Pensez des résultats de la compétition sportive indiquent la méthode de combien il chinois)

(1) ClusType

Jiawei Han dit qu'ils ont publié un article dans le KDD 2015. Dans cet article, ils ont construit un schéma hétéro-structure dans laquelle c1, c2, c3 Nom de surface au nom de l'entité, p1, p2 ...... texte au nom Nomme Surface Phrase et m1, m2 ...... au nom de l'entité (entité mention). Chaque mention entité est sans ambiguïté des objets indépendants.

Le nom de la surface, et l'entité Phrase Mention connectée, dans lequel les deux objets est possible de partager la même étiquette, en les reliant à l'augmentation de poids de bord.

Sur la base d'une telle carte hétérogène, ils seront deux tâches ensemble pour construire un apprentissage semi-supervisé à base de graphes:

  • Evolution du type de la figure. classes d'entité liées par des relations Phrase synonyme de cluster déduisent (par exemple, « Kaboul est un allié de Washington, » si les catégories de Kaboul connues pour être la catégorie « gouvernement », on peut en déduire ici, « Washington » est « gouvernement « ).

  • La relation entre le groupe de mots. À son tour, le type d'entité a été marquée peut être une phrase en cluster bonne fonctionnalité.

Ces deux étapes du cycle sera de bons résultats. Comme on peut le voir à partir des résultats de sa F1-score bien au-delà de l'autre domaine de la recherche en haut de la PNL.

(2) cotype: approfondir

Les catégories ci-dessus ont tendance à être rugueux, par exemple, seule une distinction entre « personne », « nourriture », « travail », « événement », « gouvernement » et ainsi de suite, la taille des particules est relativement importante. Par exemple au Trump, Trump est une grande catégorie de « personne », mais comme une « personne » Trump peut être un homme politique, il peut être un homme d'affaires ou artistes. Comment la classification plus fine de celui-ci? Il est à Embedding.

Jiawei Han a donné l'un d'eux publié dans l'article WWW 2017. Dans cet article, ils ont inventé une méthode appelée la cotype de l'entité et de phrase tout Embedding dans un espace de faible dimension (plutôt que l'entité Embedding).

Par exemple, dans l'espace Embedding, si vous marquez le « Trump » et « Hillary » similaire, il est clair que devrait donner le « Trump » est marqué comme « politique », si elle est, et liée à des affaires de phrase similaire, il est marqué comme « homme d'affaires ". Phrase par l'entité et de promouvoir les uns des autres pour améliorer le contenu global de la marque.

Des exemples de Le papier est cité « Obama », voici un exemple de rapports Jiawei Han.

3.3 Looking Motif Meta

Jiawei Han compte tenu du fait plus loin, non seulement de trouver phrase, non seulement pour trouver le type, mais aussi pour trouver du texte modèle, automatiquement et une grande quantité d'informations de structure d'exploration de texte par modèle.

Qu'est-ce modèle de celui-ci? En fait, un peu populaire, il est « routine ». Nous appliquons la langue dont beaucoup sont dans le modèle, tel que « le gouvernement des Etats-Unis », « le gouvernement de la Chine », « le Goverment du Burkina Faso », et ainsi de suite. Vous savez peut-être pas ce que tout d'un coup « Burkina Faso » est, mais un modèle similaire, vous savez c'est vraiment un pays.

Encore une fois, ce n'est pas difficile pour la machine. Tant qu'il y modèle, la machine peut rapidement creuser une grande quantité d'informations du même modèle du texte. Jiawei Han Jiang a soulevé leur postdoctoral laboratoire TROMPER publié dans l'article KDD 2017.

Ce travail est également au travail Phrase à faire, mais c'est modèle Meta Meta de phrase.

De ce qui précède, il peut être clairement visible sur la figure leur flux de travail: la segmentation du texte corpus Pattern Meta, modèle Meta, trouver CORR un grand nombre de triplés modèle Meta, modèle Meta, puis encore améliorée par les triplets de données par exemple, pour augmenter la taille des particules ou obtenir synonyme Motif Meta. Il convient de noter que cette méthode ne nécessite pas beaucoup de données de marquage, ni besoin des connaissances de domaine approprié, ne avez pas besoin de rechercher des journaux.

Ils appliquent cette approche corpus de nouvelles, tout d'un coup tous les pays et les dirigeants, ainsi que les grandes et les petites entreprises et leur PDG creusé.

La même méthode est utilisée dans la recherche médicale dans le corpus rapidement pour creuser les options de traitement appropriées et les maladies, les bactéries et les anticorps. Le travail est une idée très simple, mais le résultat est très étonnant.

3.4 build classification hiérarchique

Sur la base des travaux ci-dessus, beaucoup de gens étudient comment établir une classification hiérarchique de l'entité. Après une formation humaine peut facilement être classé à différentes entités, comme l'apprentissage machine, l'informatique est clairement pas le même niveau. la machine peut générer automatiquement la classification de niveau entité en fonction du texte Titre il?

Jiawei Han a dit, créer automatiquement la classification hiérarchique est en fait « assez difficile ». Après de nombreuses tentatives ont mis en avant deux méthodes efficaces: Adaptive Clustering et sphérique Embedding locale.

(1) Adaptive Spherical Clustering

Popularité et la concentration en considérant deux caractéristiques, la conception d'un modèle de classement, chaque groupe élu phrases représentant (représentant) Phrases par le classement modèle. CONTEXTE puis ceux de phrases (phrases d'arrière-plan) un haut ou le bas et une (des distances différentes de l'arrière Embedding) transition. La chose la plus importante est, ne pas forcer chaque phrase doit appartenir à un cluster.

(2) Embedding locale

Le soi-disant Embedding locale, utilisez seulement les phrases est associé au cluster étaient Embedding. La raison de cela est parce que quand tout le Phrase placé Embedding (Global Embedding) ainsi que d'autres expressions de cluster produira beaucoup de bruit, ce qui annihilation des choses vraiment utiles. Si vous utilisez Embedding local peut être vraiment utile Phrase révélé.

IV construction multidimensionnelle Cube texte

Quel est le but de ces études est-il? Jiawei Han a dit, veulent surtout construire un cube de texte multidimensionnel.

Un doute possible, la partie avant 2.2 n'est pas déjà construit dans le texte Cube, pourquoi construire? Nous devons noter que le New York Times Cube texte est données qui sont déjà construits conformément aux normes Texte Sujet (sport, économique, politique, sciences ...) ou Lieu (Chine, Etats-Unis, Japon ...) et d'autres labels cube, et le monde réel sont la plupart du temps du texte et pas d'étiquette, qui ont besoin de construire notre propre.

Un vrai problème est que si vous donnez un million de documents, et seul un petit nombre d'étiquettes (telles que l'emplacement mentionné ci-dessus, l'étiquette du sujet), vous pouvez générer automatiquement des centaines de milliers d'étiquettes, et le texte mis correctement ces étiquettes sont intégrées dans le Cube texte multidimensionnel en elle?

Tout d'abord, bien sûr, nous faisons Embedding, mais trop peu connue étiquette. Han Wei si ils ont construit un L-T-D (Étiquette durée document) Fig terme qui est extraite à partir du texte.

Nous voyons la distribution de chaque terme dans chacune des étiquettes connues.

Par exemple, « marché boursier », sa distribution de probabilité dans chaque dimension Localisation fondamentalement la même, ce qui indique que « le marché boursier » ce terme ne appartiennent Lieu Cette dimension, et d'autre part, il est une forte différence dans la distribution de dimension du sujet le sexe. Selon une norme appelée Dimension-Focal Score il peut appartenir à l'économie tag discriminé.

Selon la méthode ci-dessus, et la prévalence du terme sous cette étiquette (si plus d'une certaine valeur), vous pouvez déterminer ce terme (comme « marché boursier ») appartient à une étiquette correspondant aux dimensions de l'étiquette. De cette façon, nous pouvons générer automatiquement un grand nombre de balises et le texte en même temps de mettre ces étiquettes construction multidimensionnelle Texte Cube eux.

Après avoir construit ce texte Cube, l'exploration de données sera beaucoup plus facile.

Cinquièmement, résumé de la recherche

Jiawei Han a fait un rapport sommaire final, où nous organiserons les paroles de Han suivante, légèrement modifié:

Nous pensons que, si gros volumes de données devient grande connaissance, ce qui est très important est d'avoir une structure. Nous trouvons deux structures, on est réseau, est un cube de texte. Avec ces deux structures est dérivé du savoir, nous avons déjà un bon exemple, et très puissant. Bien sûr, ces deux structures devraient être combinées d'une certaine façon, et maintenant nous avons des gens dans l'étude de la façon de les combiner.

données réelles aux données structurées, à des connaissances utiles, cela est encore un très long chemin. Tant d'années que nous faisons Data Mining est également le long de cette route pour aller. A partir de 2000, nous avons le premier livre (Note: La troisième édition 2011), suivie par Philippe, Faloutsos, et en 2010, je co-écrit "Mining Link", puis est à nouveau Sun Yi Zhou a fait "Mining Information Network Heterogeneous" , suivie par Wang Chi à faire "Mining latent entité Structures", récemment, il était Liu Jia Lu, Jingbo ils Phrase activité minière fait sortir ( "Phrase Mining de Massive texte et son application"). Ceux-ci deviendra plus tard un livre. Ensuite, nous avons soit les Xiang, se baissera.

De cette façon, nous sommes maintenant seulement trouvé quelques trous peut aller de l'avant. Maintenant, ce n'est pas une route, mais une route. Pour devenir une grande route, nous devons travailler ensemble. La route à travers de large, à l'avenir, nous pouvons d'une grande quantité de texte non structuré dans beaucoup de connaissances utiles. Voilà ce que je veux dire attention.

Merci Professeur Jiawei Han correction sur cet article horaire chargé.

« Dragon Quest 11 S » sera ajouté à la nouvelle histoire, un grand nombre d'informations de doublage publié
Précédent
03 grammes col et Festa ces deux voitures qui est mieux, comment choisiriez-vous?
Prochain
Analyse diode bidirectionnel TVS tube en tvs
Intelli nouveau projecteur Optoma ère de l'appréciation boîte de I5
Hong Kong 960000 yuans un mètre carré de dossiers de sol roi, QT et les taux d'intérêt sera la fin de celui-ci?
téléphone plein écran n'est pas nouvelle, Huawei a publié son premier ordinateur portable en plein écran | MWC 2018
« Modèles d'explosion de conscience » Comment est né, « Je ne suis pas un dieu de la médecine » derrière Ning Hao et « mauvais singe »
Après avoir lu votre liste, je la moitié du salaire d'un an ont disparu!
Yen jeu de valeur, 4K arme - Panasonic GF10 nouvelle évaluation du produit
Deux ans de fondation articles de fond (bis): Lorsque l'Empire britannique et la chose hégémonie des Etats-Unis du passé | grand champ de vision
Ma petite sur et teint ses cheveux en même temps, comment faire plus et plus durable couleur vive?
ère Bubble, votre « qui a mis en place » valeur de dizaines de millions?
La Fed « liste de coupe » bientôt: comment cela vous affecte dans ma vie?
Passion cent fête, Printemps animé: Ceci est la communauté location publique correcte de l'Open