Qu'est-ce Jiawei Han ouvert exploration de donn�es � chemin � est

Lei Feng r�seau AI Technology Review: Prof. R�cemment, les donn�es g�ant minier Jiawei Han dans la F�d�ration de Chine Computer (CCF) a organis� les 87 ateliers disciplines de la fronti�re CCF (CCF Disciplines avanc�e Conf�rences, appel� CCF - ADL) < 2> a fait un excellent rapport, intitul� appel� � analyse multidimensionnelle du corpus � grande �chelle � (analyse multi-dimensionnelle de corpus massif de texte). L'auteur de ce rapport, la majorit� de la pens�e priv�e pour les enseignants d'exploration de donn�es et les �l�ves ont une grande importance, Jiawei Han lui a dit, et il a conduit les �tudiants dans ce rapport dans le pass� et la direction future de la recherche plus d'une d�cennie la principale ligne, qui est, l'image ci-dessous:

L'article a �galement rencontr� � plusieurs reprises, c'est le contenu de la parole d'une � carte �, mais aussi le domaine de l'extraction de donn�es d'une � carte �

Jiawei Han croient que pour existantes non structur�es Big Data en connaissances utiles, la premi�re chose � faire est de donn�es structur�es. Il propose deux types de donn�es structur�es dans un r�seau h�t�rog�ne (r�seau h�t�rog�ne), l'autre est un texte de cube multidimensionnel (multi-dimensions Cube texte). Ces donn�es structur�es g�n�r�es par des connaissances est av�r� �tre tr�s puissant, mais comment les donn�es d'origine devient des structures de donn�es non structur�es (r�seau ou Cube texte) est tr�s difficile.

Dans le r�seau / Texte Cube � la question de savoir, et Jiawei Han, qui a fait beaucoup de travail de recherche, il a ainsi remport� de nombreux prix, en donn�es textuelles non structur�es � r�seau structur� / Texte Cube sur la fa�on dont ils ont fait beaucoup essayer et r�alisations, sont toujours en cours.

Jiawei Han pense que c'est un tr�s long chemin, ils ne sont plus que de cette fa�on peut aller de l'avant pour briser quelques-unes des trous, juste une petite route, vous devez devenir un large universitaires route de diff�rents pays � travailler ensemble.

Ici, nous prenons un regard sur les d�tails du rapport professeur Han Jiawei.

Jiawei Han, directeur de l'Universit� am�ricaine de l'Illinois � Urbana-Champaign professeur (UIUC) D�partement des sciences informatiques, IEEE et ACM Fellow, un ancien r�seau d'information financ�e par ARL US Centre commun de recherche. Il servait KDD, SDM et ICDM autre pr�sident du comit� de programme de la conf�rence de renomm�e internationale, fondateur et r�dacteur en chef du Journal de l'ACM TKDD. Dans l'exploration de donn�es, bases de donn�es et r�seaux d'information publi� plus de 600. Les donn�es publi�es mini�res monographie � Data Mining: Concepts et techniques �, l'exploration de donn�es est devenu un manuel classique � la maison et � l'�tranger. CIED 2002 a remport� le prix de la contribution exceptionnelle, SIGKDD 2004 Best of Innovations Award 2009 Award McDowell (le Prix McDowell). Dans H-index de Google Scholar, un rang �lev� de l'informatique de plomb du monde des trois premiers.

Lei Feng r�seau en tant que partenaire m�dia exclusif, une couverture compl�te des discours ADL 87 (treize haut-parleurs Introduction Voir � CCF ADL 87 ateliers Revue: Jiawei Han et d'autres 13 gros b�tail r�soudre les r�seaux sociaux et l'exploration de donn�es compl�te � , vid�o s'il vous pla�t d�placer CCF-ADL87: les r�seaux sociaux et l'exploration de donn�es).

L'atelier a �galement invit� le domaine de l'exploration de donn�es, un autre g�ant: Philip S Yu. Le professeur Philip dans le rapport a donn� un compte rendu d�taill� de ses nombreuses ann�es a pr�conis� � l'ampleur de l'apprentissage � (apprentissage large) des concepts et m�thodes, et avec trois �tudes de cas connexes pour illustrer comment apprendre la profondeur et l'ampleur de l'apprentissage en combinaison.

Pr�sentation g�n�rale

Professeur Han rapport Jiawei Ceci est largement divis� en cinq parties, les grandes lignes de sa liste ci-dessous.

Ils sont les suivants:

1, comment la connaissance de gros volumes de donn�es. Ici trilogie Jiawei Han ont pr�sent� leurs recherches;

2, comment le r�seau Cube / texte � la connaissance. Jiawei Han ici a simplement donn� quelques recherches avant de pouvoir voir le R�seau / Cube texte la puissance, ce qui explique pourquoi la premi�re r�flexion de donn�es structur�es dans l'extraction de donn�es;

3, comment creuser la structure du texte non structur�. Jiawei Han croit creuser du texte non structur� dans la structure actuelle est la plus importante des donn�es de recherche mini�re. Il a r�alis� une �tude approfondie sur leur interpr�tation dans quatre domaines;

4, comment construire Cube texte. Apr�s l'�tape avant la prise de contr�le, creuser la structure, Jiawei Han a expliqu� comment construire un cube de texte multidimensionnel;

5, le r�sum� de la recherche. Enfin, Jiawei Han conclu par Big Data � Actionable La connaissance est encore une petite route, la grande route de l'avenir doit �tre de travailler ensemble des chercheurs de divers pays.

Tout d'abord, comment passer du Big Data Actionable connaissances

R�volution des lignes directrices devaient �tre �tudi�es aussi. Jiawei Han premi�re id�e g�n�rale de leurs recherches.

1.1 grande vari�t� de commun des donn�es non structur�es

Dans notre temps, en raison du d�veloppement de l'Internet, ce qui entra�ne de grandes quantit�s de donn�es. Malgr� le grand nombre de ces donn�es sont stock�es dans la table, mais la majorit� (plus de 80%) sont de mani�re non structur�es ou semi-structur�es d'autre texte stock�. Donc, grande exploration de donn�es, il faut d'abord examiner comment ces syst�mes � exploiter les grandes quantit�s de donn�es de texte non structur�.

1.2 Comment grande mine syst�me de donn�es

Jiawei Han pense que si vous voulez creuser des connaissances utiles Big Data, nous devons �tudier comment devenir un texte non structur� texte structur�, puis appuyez sur la connaissance du texte a une structure.

En r�ponse � cette id�e, ils ont fait trois mots cl�s:

structuration: Le texte non structur� en structur�, avec un type d'entit� ou relation associ�e

Mise en r�seau: Construire un r�seau en utilisant un grand nombre de relations structur�es

Exploitation mini�re: Exploitation mini�re sur les relations et les r�seaux

1.3 Trilogy Data Mining

Jiawei Han pense qu'ils font des donn�es mini�res travaux de recherche peuvent �tre r�sum�s comme Trilogy:

(1) du robinet cach� de la structure de donn�es de texte. Les donn�es textuelles cach�es dans beaucoup de la structure, cette �tape est d'�laborer ces mines de donn�es.

(2) Les donn�es en texte dactylographi� R�seau / Texte Cube. Les donn�es de texte est devenu une structure, le type de donn�es (r�seau / Texte Cube)

(3) Mining Network / Texte Cube g�n�rer des connaissances utiles. La derni�re �tape est l'excavation.

Pourquoi passer par l'�tape interm�diaire dans le texte non structur� � convertir en r�seau / Texte Cube, plut�t que directement � l'extraction de texte, il? Jiawei Han a ensuite cit� deux exemples pour illustrer les avantages de le faire.

En second lieu, le R�seau / Texte Cube � la connaissance

�2.1 R�seau puissant

Si DBLP informations bibliographiques (telles que le papier, l'auteur, publication, etc.) int�gr�s dans le r�seau, il est �vident que ce r�seau contient une mine d'informations, par exemple, nous pouvons creuser � travers une fonction de classement du r�seau qui est le leader de la recherche Web ou creuser gr�ce � la fonction de recherche de similarit� du r�seau d'un savant coll�gue, de creuser � travers la relation entre les partenaires futurs pr�vus qui seront un savant, disciplines Data mining pour d�couvrir comment l'�volution se produit sur le r�seau et le d�veloppement et ainsi de suite.

Il Jiawei Han a racont� une histoire. 2010 ECML-PKDD Han a �t� invit� � faire un discours, th�me du rapport est "la structure est le message: la structure mini�re Information Network" (structure informative: Le Mining Structured Information Networks). Q & A session apr�s la fin du rapport, le Christos Faloutsos suivant assis sur leurs mains et demanda: � Vous faites ce r�seau est tr�s puissant, mais vous pouvez pr�dire ce que l'ann�e prochaine j'�crire l'article? � Han a r�pondu: � Je n'ai m�me pas propre moins que pr�vu, sans parler de vos amis. � si le rire �tait inf�rieur. Jiawei Han va revenir en arri�re et dire la plaisanterie �tait encore dans ses mains Sun Yi Zhou �couter PhD. Sun Yi Zhou tr�s s�rieusement que ce n'est pas une blague simple. Apr�s analyse et discussion Sun Yi Zhou a mis en place un nouveau sujet, Christos pr�dire ce que de nouveaux auteurs quelques ann�es il y aura une coop�ration � l'avenir.

La question a conduit � Sun Yi Zhou a ensuite propos� le concept de chemin Meta nous maintenant largement utilis� et publi� en 2011 un article sur l'influence �norme ASONAM. Dans le papier, le Sun Yi Zhou Jian Pei pr�dit collaborateurs. Selon Pei construit en articles entre les ann�es (comme jeu de fonctionnalit�s) a pr�dit avec pr�cision le seul qu'il ne figure pas dans les cinq pr�dictions Entre ce qui sera collaborateur (jeu de test), le classement dans concentration d'essai.

Une autre pr�diction est fausse? Non, la construction Pei et Osmar ont �galement la coop�ration, le papier, mais ils ont co-publi� en 2011, ne compte pas dans le jeu de test uniquement.

Cela montre que s'il y a un r�seau Big Data sera structur� apr�s sa capacit� pr�dictive (ou toute autre capacit�) sera tr�s forte.

2.2 Texte Cube puissant

Nous savons que si les statistiques et analyses sur la base de donn�es (par exemple, les donn�es du cube) est tr�s pratique. Maintenant, analyser le texte non structur�, le texte peut �tre plac� si un cube multidimensionnel similaire, alors il est clair que ce texte d'analyse va jouer un bon r�le.

Texte Cube Une application est le comparatif Summarization. Tels que la vente de nouvelles NY Times pour un cube, nous voulons r�sumer � 2016 �, � �conomie � � Chine � de l'information est. Les documents relatifs � ces mots-cl�s ont beaucoup, beaucoup, l'intention de personne d'aller un par un pour voir. Si vous utilisez simplement des m�thodes statistiques pour obtenir de l'information, vous trouverez qu'il n'y a pas beaucoup de � l'�conomie � de l'information, tels que � Hong Kong �, � �tats-Unis � et ainsi de suite. Si nous avions �t� mis dans ces textes Cube, est bas�e sur l'int�grit�, la popularit�, les normes LA DISTINCTION, par comparaison au voisinage de chaque cellule de dimension, vous pouvez facilement trouver les informations de fa�on tr�s pr�cise.

En utilisant cette m�thode, l'�quipe Jiawei Han dirig�e par le New York Times en 2016, il est facile de creuser les nouvelles lorsque le d�bat bipartite des �tats-Unis � l'ordre du jour principal (par exemple

Une histoire tr�s int�ressante, Jiawei Han � l'UCLA pour faire un rapport sur l'�tude ci-dessus, le professeur de l'UCLA de la m�decine a attir� l'int�r�t. Dans l'�tude de l'UCLA sur les maladies cardiaques � travers les Etats-Unis, il est tr�s avanc�.

Le professeur a dit Han Wei a dit, en fait, d'une maladie cardiaque n'est pas une sorte de maladie, mais la maladie six cat�gories, chaque cat�gorie de maladie caus�e principalement par des prot�ines. Ils veulent Jiawei Han peut les aider � trouver ce type de prot�ines qui grand nombre de documents de maladies cardiaques sont �troitement li�es.

La t�che de ces professeurs de m�decine est tr�s difficile, car il y aura plus d'un million journaux biom�dicaux publi�s chaque ann�e, et chacun a pr�sent� une liste de prot�ines connexes pour la recherche sera toujours certains types de maladies cardiaques, d'un si grand trouver les informations correspondantes dans certains types de prot�ines de la maladie cardiaque est extr�mement difficile.

Apr�s discussion, Jiawei Han, qui a attrap� dix ans de donn�es � maladies cardiovasculaires � li�es de PubMed (une base de donn�es de la litt�rature m�dicale), environ 500000 papier. Ils utilisent ces 500000 papier, 250 prot�ines �taient six cat�gories de maladies cardiaques et professeurs de m�decine cot�es en bourse, selon le New York Times et creuser le m�me algorithme, bient�t obtenu associ� le s�quen�age des prot�ines pour chaque type de maladie cardiaque dans le tableau suivant (liste seulement les Top 5).

Apr�s avoir vu les r�sultats de ces professeur de m�decine ravi. Tout d'abord, les r�sultats de Jiawei Han et d'autres r�pertori�s dans le classement de leurs prot�ines et circonstances connues de n � 1 en pleine conformit�, indiquant que cet algorithme est efficace. Mais leur exp�rience a montr� que certains patients (comme les enfants) dans cette cause de prot�ines au traitement est souvent inefficace, ce qui sugg�re que ce type de maladie cardiaque chez ces patients n'est pas caus�e par la prot�ine. Donc, le classement Jiawei Han, qui figurent n � 2, n � 3 et d'autres prot�ines leur donnent une grande id�e qu'ils peuvent se concentrer sur les essais cliniques pour ces prot�ines, ce qui a grandement facilit� leur recherche.

Un tel exemple simple illustre texte Cube est utile, mais a un grand potentiel.

En troisi�me lieu, de structure d'exploration de texte non structur�

Des recherches sur les deux sens ( � trouver les connaissances du r�seau � et � trouver la connaissance du texte Cube �) montre que si vous avez un r�seau structur� / Texte Cube, puis creusez la connaissance est assez facile. Mais le monde r�el, nous avons la plupart des donn�es sont des textes non structur�s, la fa�on dont ces textes non structur�s devient un probl�me dans un r�seau structur� / Texte Cube est toujours en suspens.

Jiawei Han �quipe du personnel au cours des derni�res ann�es est le principal travail de recherche autour de cette question, � savoir, comment creuser des phrases de texte dans la fa�on dont l'exploitation mini�re entit�s typ�es, et comment ces expressions / entit�s typ�es deviennent r�seau � partir du texte / Texte- cube (section IV).

3.1 Phrase Mining

Signification un seul mot souvent pas �vident, si l'on peut creuser la phrase (phrase) du texte, puis appuyez sur le texte de la structure aura une signification tr�s importante. Jiawei Han �quipe du personnel a propos� trois m�thodes, � savoir TopMine sans supervision, surveillance faible et surveillance � distance de SegPhrase AutoPhrase. Ces �tudes ont r�v�l� le code sur GitHub, tout le monde peut t�l�charger d'utiliser ou de reproduire leur travail.

(1) TopMine: analyse statistique du mod�le de fr�quence mini�re +

Ce travail principalement sur le corpus sujet de l'exploitation mini�re de texte. Cependant, il est diff�rent de la m�thode classique en utilisant la m�thode Uni-gramme, mais creuser dans le sujet: deux �tapes pour diviser le texte par phrase Mining, suivi Phrase contraintes de mod�le du sujet.

Le texte d'une id�e de base de l'exploitation mini�re de phrase est, plus la fr�quence du mot Phrase se produisent en m�me temps. est pr�cis�ment une telle formule:

Par exemple, pour une th�se intitul�e � Markov Blanket S�lection des fonctionnalit�s pour Support Vector Machines �, diff�rentes m�thodes peuvent scinder en diff�rents � l'int�rieur du sujet, par exemple, en se fondant uniquement sur � Vector �, cet article sera probablement divis� en math�matiques , sujet en physique. Mais apparemment, � Support Vector Machines � dans son ensemble, il appartient � l'ordinateur du sujet. L'it�ration de la formule ci-dessus, le titre peut �tre divis� comme suit Phrase.

Quelle est cette approche? Jiawei Han et il a racont� une histoire. David Blei fait tr�s autorit� des experts du sujet mod�le, UIUC apr�s un certain temps d'aller visiter et voir les r�sultats tr�s choqu�, parce qu'il avait jamais vu un si bon r�sultat.

Les r�sultats de bonne raison se r�sume � ce sujet TopMine mod�le sera divis� en deux �tapes, d'abord faire Mining Phrase, avant de faire le mod�le du sujet. Cette m�thode �vite la longueur convenue d'un gramme de mot Phrase s�par�.

(2) SegPhrase: faible surveillance, la qualit� des mines Phrase

Jiawei Han Liu Jia Lu �tudiants pensent fa�on TopMine sans aucune supervision, si l'�tiquette petite quantit� de donn�es peut augmenter les r�sultats du sujet Mod�le dans une large mesure. Il a donc soigneusement s�lectionn� 300 �tiquettes de haute qualit� (150 cas positifs, contre-exemple 150).

Le document a �t� publi� en 2015 apr�s la SIGMOD, ils ont rapidement donn� Yelp re�u un prix � Grand prix 2015 Yelp Set Data Challenge �, et cette m�thode a �galement �t� appliqu�e dans le sur TripAdvisor et d'autres plates-formes.

(3) AutoPhrase: Mines automatique Phrase

Jiawei Han fournisseur �tudiants tri�s sur le volet 300 Jingbo think haute qualit� �tiquettes tout � fait des co�ts d'�nergie, afin de choisir d'utiliser les entr�es de Wikipedia comme �tiquette, de sorte que vous pouvez obtenir rapidement des centaines de milliers d'�tiquettes.

Un probl�me avec cette approche est qu'il ya une phrase pas dans Wikipedia, ces expressions p�joratifs pas n�cessairement l'�tiquette. Ils ont r�solu le probl�me par le classement.

Les r�sultats de cette m�thode par rapport � d'autres m�thodes se sont consid�rablement am�lior�s.

3.2 dactylographi� Entit� de reconnaissance

Phrase savoir plus tard, le besoin de laisser le sens de la phrase marque, � savoir d'identifier l'entit� not�e type. Selon les mots de Han Wei:

L'identification dur�e jeton comme entit� mentionne dans les documents et l'�tiquetage de leurs types

--Enabling analyse structur�e du corpus de textes non structur�s

Il a plusieurs difficult�s:

restrictions sur le terrain. Entit� avec le corpus g�n�ral obtenu marqu� dans des domaines sp�cifiques, ou des zones de domaine �mergent de dynamique pas bien.
Nom Ambigu�t�. plusieurs entit�s peuvent partager la m�me surface de nom (Nom de surface, tels que � Washington �, il peut �tre l'Etat, ville, nom, nom de l'�quipe, etc.)
clairsem�s Contexte. Il peut y avoir plusieurs types de repr�sentation pour la m�me relation. (Pensez des r�sultats de la comp�tition sportive indiquent la m�thode de combien il chinois)

(1) ClusType

Jiawei Han dit qu'ils ont publi� un article dans le KDD 2015. Dans cet article, ils ont construit un sch�ma h�t�ro-structure dans laquelle c1, c2, c3 Nom de surface au nom de l'entit�, p1, p2 ...... texte au nom Nomme Surface Phrase et m1, m2 ...... au nom de l'entit� (entit� mention). Chaque mention entit� est sans ambigu�t� des objets ind�pendants.

Le nom de la surface, et l'entit� Phrase Mention connect�e, dans lequel les deux objets est possible de partager la m�me �tiquette, en les reliant � l'augmentation de poids de bord.

Sur la base d'une telle carte h�t�rog�ne, ils seront deux t�ches ensemble pour construire un apprentissage semi-supervis� � base de graphes:

Evolution du type de la figure. classes d'entit� li�es par des relations Phrase synonyme de cluster d�duisent (par exemple, � Kaboul est un alli� de Washington, � si les cat�gories de Kaboul connues pour �tre la cat�gorie � gouvernement �, on peut en d�duire ici, � Washington � est � gouvernement � ).
La relation entre le groupe de mots. � son tour, le type d'entit� a �t� marqu�e peut �tre une phrase en cluster bonne fonctionnalit�.

Ces deux �tapes du cycle sera de bons r�sultats. Comme on peut le voir � partir des r�sultats de sa F1-score bien au-del� de l'autre domaine de la recherche en haut de la PNL.

(2) cotype: approfondir

Les cat�gories ci-dessus ont tendance � �tre rugueux, par exemple, seule une distinction entre � personne �, � nourriture �, � travail �, � �v�nement �, � gouvernement � et ainsi de suite, la taille des particules est relativement importante. Par exemple au Trump, Trump est une grande cat�gorie de � personne �, mais comme une � personne � Trump peut �tre un homme politique, il peut �tre un homme d'affaires ou artistes. Comment la classification plus fine de celui-ci? Il est � Embedding.

Jiawei Han a donn� l'un d'eux publi� dans l'article WWW 2017. Dans cet article, ils ont invent� une m�thode appel�e la cotype de l'entit� et de phrase tout Embedding dans un espace de faible dimension (plut�t que l'entit� Embedding).

Par exemple, dans l'espace Embedding, si vous marquez le � Trump � et � Hillary � similaire, il est clair que devrait donner le � Trump � est marqu� comme � politique �, si elle est, et li�e � des affaires de phrase similaire, il est marqu� comme � homme d'affaires ". Phrase par l'entit� et de promouvoir les uns des autres pour am�liorer le contenu global de la marque.

Des exemples de Le papier est cit� � Obama �, voici un exemple de rapports Jiawei Han.

3.3 Looking Motif Meta

Jiawei Han compte tenu du fait plus loin, non seulement de trouver phrase, non seulement pour trouver le type, mais aussi pour trouver du texte mod�le, automatiquement et une grande quantit� d'informations de structure d'exploration de texte par mod�le.

Qu'est-ce mod�le de celui-ci? En fait, un peu populaire, il est � routine �. Nous appliquons la langue dont beaucoup sont dans le mod�le, tel que � le gouvernement des Etats-Unis �, � le gouvernement de la Chine �, � le Goverment du Burkina Faso �, et ainsi de suite. Vous savez peut-�tre pas ce que tout d'un coup � Burkina Faso � est, mais un mod�le similaire, vous savez c'est vraiment un pays.

Encore une fois, ce n'est pas difficile pour la machine. Tant qu'il y mod�le, la machine peut rapidement creuser une grande quantit� d'informations du m�me mod�le du texte. Jiawei Han Jiang a soulev� leur postdoctoral laboratoire TROMPER publi� dans l'article KDD 2017.

Ce travail est �galement au travail Phrase � faire, mais c'est mod�le Meta Meta de phrase.

De ce qui pr�c�de, il peut �tre clairement visible sur la figure leur flux de travail: la segmentation du texte corpus Pattern Meta, mod�le Meta, trouver CORR un grand nombre de tripl�s mod�le Meta, mod�le Meta, puis encore am�lior�e par les triplets de donn�es par exemple, pour augmenter la taille des particules ou obtenir synonyme Motif Meta. Il convient de noter que cette m�thode ne n�cessite pas beaucoup de donn�es de marquage, ni besoin des connaissances de domaine appropri�, ne avez pas besoin de rechercher des journaux.

Ils appliquent cette approche corpus de nouvelles, tout d'un coup tous les pays et les dirigeants, ainsi que les grandes et les petites entreprises et leur PDG creus�.

La m�me m�thode est utilis�e dans la recherche m�dicale dans le corpus rapidement pour creuser les options de traitement appropri�es et les maladies, les bact�ries et les anticorps. Le travail est une id�e tr�s simple, mais le r�sultat est tr�s �tonnant.

3.4 build classification hi�rarchique

Sur la base des travaux ci-dessus, beaucoup de gens �tudient comment �tablir une classification hi�rarchique de l'entit�. Apr�s une formation humaine peut facilement �tre class� � diff�rentes entit�s, comme l'apprentissage machine, l'informatique est clairement pas le m�me niveau. la machine peut g�n�rer automatiquement la classification de niveau entit� en fonction du texte Titre il?

Jiawei Han a dit, cr�er automatiquement la classification hi�rarchique est en fait � assez difficile �. Apr�s de nombreuses tentatives ont mis en avant deux m�thodes efficaces: Adaptive Clustering et sph�rique Embedding locale.

(1) Adaptive Spherical Clustering

Popularit� et la concentration en consid�rant deux caract�ristiques, la conception d'un mod�le de classement, chaque groupe �lu phrases repr�sentant (repr�sentant) Phrases par le classement mod�le. CONTEXTE puis ceux de phrases (phrases d'arri�re-plan) un haut ou le bas et une (des distances diff�rentes de l'arri�re Embedding) transition. La chose la plus importante est, ne pas forcer chaque phrase doit appartenir � un cluster.

(2) Embedding locale

Le soi-disant Embedding locale, utilisez seulement les phrases est associ� au cluster �taient Embedding. La raison de cela est parce que quand tout le Phrase plac� Embedding (Global Embedding) ainsi que d'autres expressions de cluster produira beaucoup de bruit, ce qui annihilation des choses vraiment utiles. Si vous utilisez Embedding local peut �tre vraiment utile Phrase r�v�l�.

IV construction multidimensionnelle Cube texte

Quel est le but de ces �tudes est-il? Jiawei Han a dit, veulent surtout construire un cube de texte multidimensionnel.

Un doute possible, la partie avant 2.2 n'est pas d�j� construit dans le texte Cube, pourquoi construire? Nous devons noter que le New York Times Cube texte est donn�es qui sont d�j� construits conform�ment aux normes Texte Sujet (sport, �conomique, politique, sciences ...) ou Lieu (Chine, Etats-Unis, Japon ...) et d'autres labels cube, et le monde r�el sont la plupart du temps du texte et pas d'�tiquette, qui ont besoin de construire notre propre.

Un vrai probl�me est que si vous donnez un million de documents, et seul un petit nombre d'�tiquettes (telles que l'emplacement mentionn� ci-dessus, l'�tiquette du sujet), vous pouvez g�n�rer automatiquement des centaines de milliers d'�tiquettes, et le texte mis correctement ces �tiquettes sont int�gr�es dans le Cube texte multidimensionnel en elle?

Tout d'abord, bien s�r, nous faisons Embedding, mais trop peu connue �tiquette. Han Wei si ils ont construit un L-T-D (�tiquette dur�e document) Fig terme qui est extraite � partir du texte.

Nous voyons la distribution de chaque terme dans chacune des �tiquettes connues.

Par exemple, � march� boursier �, sa distribution de probabilit� dans chaque dimension Localisation fondamentalement la m�me, ce qui indique que � le march� boursier � ce terme ne appartiennent Lieu Cette dimension, et d'autre part, il est une forte diff�rence dans la distribution de dimension du sujet le sexe. Selon une norme appel�e Dimension-Focal Score il peut appartenir � l'�conomie tag discrimin�.

Selon la m�thode ci-dessus, et la pr�valence du terme sous cette �tiquette (si plus d'une certaine valeur), vous pouvez d�terminer ce terme (comme � march� boursier �) appartient � une �tiquette correspondant aux dimensions de l'�tiquette. De cette fa�on, nous pouvons g�n�rer automatiquement un grand nombre de balises et le texte en m�me temps de mettre ces �tiquettes construction multidimensionnelle Texte Cube eux.

Apr�s avoir construit ce texte Cube, l'exploration de donn�es sera beaucoup plus facile.

Cinqui�mement, r�sum� de la recherche

Jiawei Han a fait un rapport sommaire final, o� nous organiserons les paroles de Han suivante, l�g�rement modifi�:

Nous pensons que, si gros volumes de donn�es devient grande connaissance, ce qui est tr�s important est d'avoir une structure. Nous trouvons deux structures, on est r�seau, est un cube de texte. Avec ces deux structures est d�riv� du savoir, nous avons d�j� un bon exemple, et tr�s puissant. Bien s�r, ces deux structures devraient �tre combin�es d'une certaine fa�on, et maintenant nous avons des gens dans l'�tude de la fa�on de les combiner.

donn�es r�elles aux donn�es structur�es, � des connaissances utiles, cela est encore un tr�s long chemin. Tant d'ann�es que nous faisons Data Mining est �galement le long de cette route pour aller. A partir de 2000, nous avons le premier livre (Note: La troisi�me �dition 2011), suivie par Philippe, Faloutsos, et en 2010, je co-�crit "Mining Link", puis est � nouveau Sun Yi Zhou a fait "Mining Information Network Heterogeneous" , suivie par Wang Chi � faire "Mining latent entit� Structures", r�cemment, il �tait Liu Jia Lu, Jingbo ils Phrase activit� mini�re fait sortir ( "Phrase Mining de Massive texte et son application"). Ceux-ci deviendra plus tard un livre. Ensuite, nous avons soit les Xiang, se baissera.

De cette fa�on, nous sommes maintenant seulement trouv� quelques trous peut aller de l'avant. Maintenant, ce n'est pas une route, mais une route. Pour devenir une grande route, nous devons travailler ensemble. La route � travers de large, � l'avenir, nous pouvons d'une grande quantit� de texte non structur� dans beaucoup de connaissances utiles. Voil� ce que je veux dire attention.

Merci Professeur Jiawei Han correction sur cet article horaire charg�.

Route de la soie

Apprenez � conna�tre la Chine