leader Data mining Professeur Han Jiawei: Comment de textes non structur�s en connaissances utiles?

Reproduit de: AI Technology Review (ID: aitechtalk)

Auteur: Camel

article mot figure 369516 Lecture recommand�e 24 minute .

g�ant Data mining Professeur Jiawei Han comment partager des donn�es massive dans les donn�es non structur�es de la derni�re ligne de la recherche des connaissances utiles.

Donn�es non structur�es - > Des donn�es structur�es - > connaissances utiles

Les quelques derniers jours, de nombreux chercheurs dans le domaine de l'exploration de donn�es, Beijing est un centre d'attention, parce que sans lui, comme les deux premiers exploration de donn�es sera CIKM 2019 ICDM 2019 et ont eu lieu � Beijing, et m�me lieu ( Centre national de la Convention) n'a pas chang�.

Deux r�unions les m�mes classes de CCF B, � l'exception que l'ancien D�TENTEUR ACM, ce dernier est tenu IEEE, la couverture de plus CIKM plus large, y compris une base de donn�es, la recherche d'informations et de donn�es mini�res trois domaines, et est ICDM de donn�es plus cibl�e l'exploitation mini�re.

Au cours des deux r�unions, le domaine des g�ants de l'exploration de donn�es Professeur Han Jiawei feront leurs recherches ont �t� deux rapports, le th�me de

De Unstructured Texte � Textcube: automatique Construction andMultidimensional Exploration (@ CIKM2019)
Embedding-Based Text Mining: une fronti�re dans l'exploration de donn�es (@ ICDM2019)

Le monde r�el de gros volumes de donn�es non structur�es est en grande partie, dynamique et reli�s entre eux, et sous la forme de texte en langage naturel, convertit ces grandes quantit�s de donn�es non structur�es en connaissances utiles � l'�re de Big Data la seule fa�on. � l'heure actuelle, il est m�thode g�n�ralement de main-d'uvre des donn�es de marquage � la connaissance de l'extrait, cette m�thode est pr�f�rable � un point de vue � court terme, mais ne peut pas �tre �tendue, des donn�es de texte, d'autant plus que de nombreuses entreprises sont des domaines tr�s dynamiques et connexes.

Le professeur Han Jiawei qu'un grand nombre de donn�es de texte lui-m�me implique un grand nombre de mod�les cach�s, des structures et des connaissances, afin que nous puissions utiliser la base de connaissances domaine ind�pendant et d�pendant du domaine, d'explorer comment convertir des quantit�s massives de donn�es � partir de donn�es non structur�es connaissances utiles.

Comme indiqu� ci-dessous, est la ligne principale du professeur Han Jiawei et ses �l�ves ont �tudi� dans le pass� et l'avenir dix ans:

Jiawei Han croient que pour les donn�es existantes de grandes non structur�es en connaissances utiles, la premi�re chose � faire est de donn�es structur�es. Il propose deux types de donn�es structur�es dans un r�seau h�t�rog�ne (r�seau h�t�rog�ne), l'autre est un texte de cube multidimensionnel (Multi-dimensionalText Cube). Ces donn�es structur�es g�n�r�es par la connaissance est av�r� �tre tr�s puissant, mais comment les donn�es d'origine devient des structures de donn�es non structur�es (r�seau ou Cube texte) est tr�s difficile.

Dans le r�seau / Textcube � la question de savoir, et Jiawei Han, qui a fait beaucoup de travaux de recherche, a ainsi remport� de nombreux prix, en donn�es textuelles non structur�es au r�seau structur� / Texte Cube sur la fa�on dont ils ont fait de nombreuses tentatives et les r�sultats, sont toujours en cours. Jiawei Han pense que c'est un tr�s long chemin, ils ne sont plus que de cette fa�on peut aller de l'avant pour briser quelques-unes des trous, juste une petite route, vous devez devenir un large universitaires route de diff�rents pays � travailler ensemble.

Le professeur Jiawei travail � chaud Han n'a pas �t� suivi, mais depuis des d�cennies pour passer de donn�es non structur�es pour passer � travers une connaissance structur�e de la grande route, de sorte que le contexte est tr�s clair et tr�s coh�rent.

Ce qui suit AI Technology Review au d�but de 2018 de la consolidation du Professeur Jiawei Han pr�sentations article " Qu'est-ce Jiawei Han ouvert exploration de donn�es � chemin � est � Uniquement pour r�f�rence. Il y a un an, l'�quipe Professeur Han Jiawei sont constamment pr�sent les derni�res recherches sur ces progr�s dans leur � chemin � qui, par exemple, BERT, texte sph�rique Embedding comme ceux-ci s'il vous pla�t consulter le professeur Han Jia �quipe Wei articles r�cemment publi�s.

Tout d'abord, la trilogie de l'exploration de donn�es

R�volution des lignes directrices devaient �tre �tudi�es aussi.

Jiawei Han pense que si vous voulez creuser des connaissances utiles Big Data, nous devons �tudier comment devenir un texte non structur� texte structur�, puis appuyez sur la connaissance du texte a une structure.

En r�ponse � cette id�e, ils ont fait trois mots cl�s:

Structuration: Le texte non structur� en structur�, avec un type d'entit� ou relation associ�e

Mise en r�seau: la construction d'un r�seau � l'aide d'un grand nombre de relations structur�es

Exploitation mini�re: l'exploitation mini�re sur les relations et les r�seaux

Jiawei Han pense qu'ils font des donn�es mini�res travaux de recherche peuvent �tre r�sum�s comme Trilogy:

(1) � partir du texte cach� robinet structure de donn�es . Les donn�es textuelles cach�es dans beaucoup de la structure, cette �tape est d'�laborer ces mines de donn�es.

(2) les donn�es en texte dactylographi� r�seau / Cube texte . Les donn�es textuelles dans structur�, il existe des types de donn�es (r�seau / Text Cube).

(3) Mining Network / Texte Cube g�n�rer des connaissances utiles . La derni�re �tape est l'excavation.

Pourquoi passer par l'�tape interm�diaire dans le texte non structur� � convertir en r�seau / Texte Cube, plut�t que directement � l'extraction de texte, il? Jiawei Han a ensuite cit� deux exemples pour illustrer les avantages de le faire.

Deux, puissant r�seau

Si DBLP informations bibliographiques (telles que le papier, l'auteur, publication, etc.) int�gr�s dans le r�seau, il est �vident que ce r�seau contient une mine d'informations, par exemple, nous pouvons creuser � travers une fonction de classement du r�seau qui est le leader de la recherche Web ou creuser gr�ce � la fonction de recherche de similarit� du r�seau d'un savant coll�gue, de creuser � travers la relation entre les partenaires futurs pr�vus qui seront un savant, disciplines Data mining pour d�couvrir comment l'�volution se produit sur le r�seau et le d�veloppement et ainsi de suite.

Il Jiawei Han a racont� une histoire. 2010 ECML-PKDD Han a �t� invit� � faire un discours, rapporte le th�me de la "structure est le message: la structure mini�re Network Information" (Structureis Informative: sur l'exploitation mini�re Structured Information Networks). Q & A session apr�s la fin du rapport, le Christos Faloutsos suivant assis sur leurs mains et demanda: � Vous faites ce r�seau est tr�s puissant, mais vous pouvez pr�dire ce que l'ann�e prochaine j'�crire l'article? � Han a r�pondu: � Je n'ai m�me pas propre moins que pr�vu, sans parler de vos amis. � donc �tait inf�rieur � rire. Jiawei Han va revenir en arri�re et dire la plaisanterie �tait encore dans ses mains Sun Yi Zhou �couter PhD. Sun Yi Zhou tr�s s�rieusement que ce n'est pas une blague simple. Apr�s analyse et discussion Sun Yi Zhou a mis en place un nouveau sujet, Christos pr�dire ce que de nouveaux auteurs quelques ann�es il y aura une coop�ration � l'avenir.

La question a conduit � Sun Yi Zhou a ensuite propos� le concept de chemin Meta nous maintenant largement utilis� et publi� en 2011 un article sur l'influence �norme ASONAM. Dans l'article, Sun Yi Zhou Jian Pei pr�dit collaborateurs. Selon Pei construit en articles entre les ann�es (comme jeu de fonctionnalit�s) a pr�dit avec pr�cision le seul qu'il ne figure pas dans les cinq pr�dictions Entre ce qui sera collaborateur (jeu de test), le classement dans ensemble de test.

Une autre pr�diction est fausse? Non, la construction Pei et Osmar ont �galement la coop�ration, le papier, mais ils ont co-publi� en 2011, ne compte pas dans le jeu de test uniquement.

Cela montre que si Big Data Network aura structur� apr�s sa capacit� pr�dictive (ou toute autre capacit�) sera tr�s forte.

Trois, Cube texte puissant

Nous savons que si les statistiques et analyses sur la base de donn�es (par exemple, les donn�es du cube) est tr�s pratique. Maintenant, analyser le texte non structur�, le texte peut �tre plac� si un cube multidimensionnel similaire, alors il est clair que ce texte d'analyse va jouer un bon r�le.

Texte Cube Une application est le comparatif Summarization. Tels que la vente de nouvelles NY Times pour un cube, nous voulons r�sumer � 2016 �, � �conomie � � Chine � de l'information est. Les documents relatifs � ces mots-cl�s ont beaucoup, beaucoup, personne ne veut aller un par un pour voir. Si vous utilisez simplement des m�thodes statistiques pour obtenir de l'information, vous trouverez qu'il n'y a pas beaucoup de � l'�conomie � de l'information, tels que � Hong Kong �, � �tats-Unis � et ainsi de suite. Et si nous avions �t� mis dans ces textes Cube, est bas�e sur l'int�grit�, la popularit�, les normes LA DISTINCTION, par comparaison au voisinage de chaque cellule de dimension, vous pouvez facilement trouver les informations de fa�on tr�s pr�cise.

En utilisant cette m�thode, l'�quipe Jiawei Han dirig�e par le New York Times en 2016, il est facile de creuser les nouvelles lorsque le d�bat bipartite des �tats-Unis � l'ordre du jour principal (par exemple < �tats-Unis, le contr�le des armes > , < �tats-Unis, l'immigration > Etc.) Les informations cl�s du Top 10.

Une histoire tr�s int�ressante, Jiawei Han � l'UCLA pour faire un rapport sur l'�tude ci-dessus, le professeur de l'UCLA de la m�decine a attir� l'int�r�t. Dans l'�tude de l'UCLA sur les maladies cardiaques � travers les Etats-Unis, il est tr�s avanc�.

Le professeur a dit Han Wei a dit, en fait, d'une maladie cardiaque n'est pas une sorte de maladie, mais la maladie six cat�gories, chaque cat�gorie de maladie caus�e principalement par des prot�ines. Ils veulent Jiawei Han peut les aider � trouver ce type de prot�ines qui grand nombre de documents de maladies cardiaques sont �troitement li�es.

La t�che de ces professeurs de m�decine est tr�s difficile, car il y aura plus d'un million journaux biom�dicaux publi�s chaque ann�e, et chacun a pr�sent� une liste de prot�ines connexes pour la recherche sera toujours certains types de maladies cardiaques, d'un si grand trouver les informations correspondantes dans certains types de prot�ines de la maladie cardiaque est extr�mement difficile.

Apr�s discussion, Jiawei Han, qui a attrap� dix ans de donn�es � maladies cardiovasculaires � li�es de PubMed (une base de donn�es de la litt�rature m�dicale), environ 500000 papier. Ils utilisent ces 500000 papier, 250 prot�ines �taient six cat�gories de maladies cardiaques et professeurs de m�decine cot�es en bourse, selon le New York Times et creuser le m�me algorithme, bient�t obtenu associ� le s�quen�age des prot�ines pour chaque type de maladie cardiaque dans le tableau suivant (liste seulement les Top 5).

Apr�s avoir vu les r�sultats de ces professeur de m�decine ravi. Tout d'abord, les r�sultats de Jiawei Han et d'autres r�pertori�s dans le classement de leurs prot�ines et circonstances connues de n � 1 en pleine conformit�, indiquant que cet algorithme est efficace. Mais leur exp�rience a montr� que certains patients (comme les enfants) dans cette cause de prot�ines au traitement est souvent inefficace, ce qui sugg�re que ce type de maladie cardiaque chez ces patients n'est pas caus�e par la prot�ine. Donc, le classement Jiawei Han, qui figurent n � 2, n � 3 et d'autres prot�ines leur donnent une grande id�e qu'ils peuvent se concentrer sur les essais cliniques pour ces prot�ines, ce qui a grandement facilit� leur recherche.

Un tel exemple simple illustre texte Cube est utile, mais a un grand potentiel.

� En quatri�me lieu, de la structure mini�re de texte non structur�

Des recherches sur les deux sens ( � trouver les connaissances du r�seau � et � trouver la connaissance du texte Cube �) montre que si vous avez un r�seau structur� / Texte Cube, puis creusez la connaissance est assez facile. Mais le monde r�el, nous avons la plupart des donn�es sont des textes non structur�s, la fa�on dont ces textes non structur�s devient un probl�me dans un r�seau structur� / Texte Cube est toujours en suspens.

Jiawei Han �quipe du personnel au cours des derni�res ann�es est le principal travail de recherche autour de cette question, � savoir, comment creuser des phrases de texte dans la fa�on dont l'exploitation mini�re entit�s typ�es, et comment ces expressions / entit�s typ�es deviennent r�seau � partir du texte / Texte- cube.

1, Mining Phrase

Signification un seul mot souvent pas �vident, si l'on peut creuser la phrase (phrase) du texte, puis appuyez sur le texte de la structure aura une signification tr�s importante. Jiawei Han �quipe du personnel a propos� trois m�thodes, � savoir TopMine sans supervision, surveillance faible et surveillance � distance de SegPhrase AutoPhrase. Ces �tudes ont r�v�l� le code sur GitHub, tout le monde peut t�l�charger d'utiliser ou de reproduire leur travail.

(1) TopMine: analyse statistique du mod�le de fr�quence mini�re +

Ce travail principalement sur le corpus sujet de l'exploitation mini�re de texte. Cependant, il est diff�rent de la m�thode classique en utilisant la m�thode Uni-gramme, mais creuser dans le sujet: deux �tapes pour diviser le texte par phrase Mining, suivi Phrase contraintes de mod�le du sujet.

Le texte est une PhraseMining id�e de base, la fr�quence des mots plus Phrase se produisent simultan�ment. , Formule tel est pr�cis�ment:

Par exemple, pour une th�se intitul�e � S�lection des fonctionnalit�s Couverture de Markov pour Support Vector Machines �, diff�rentes m�thodes peuvent diviser en diff�rents � l'int�rieur du sujet, par exemple, bas�es uniquement sur � Vector �, cet article sera probablement divis� en math�matiques, sujet en physique. Mais apparemment, � Support Vector Machines � dans son ensemble, il appartient � l'ordinateur du sujet. L'it�ration de la formule ci-dessus, le titre peut �tre divis� comme suit Phrase.

Quelle est cette approche? Jiawei Han et il a racont� une histoire. David Blei fait tr�s autorit� des experts du sujet mod�le, UIUC apr�s un certain temps d'aller visiter et voir les r�sultats tr�s choqu�, parce qu'il avait jamais vu un si bon r�sultat.

Les r�sultats de bonne raison se r�sume � ce sujet TopMine mod�le sera divis� en deux �tapes, d'abord faire Mining Phrase, avant de faire le mod�le du sujet. Cette m�thode permet d'�viter un gramme de longueur uniforme de mot Phrase s�par�e.

(2) SegPhrase: faible surveillance, la qualit� des mines Phrase

fa�on Jiawei Han Liu Jia Lu �tudiants pensent de TopMine compl�tement sans supervision, si une petite quantit� de donn�es peut am�liorer l'�tiquette du sujet Les r�sultats du mod�le dans une large mesure. Il a donc soigneusement s�lectionn� 300 �tiquettes de haute qualit� (150 cas positifs, contre-exemple 150).

Apr�s l'article publi� dans le SIGMOD2015, ils ont rapidement donn� Yelp a rendu une sentence � Grandprize 2015 Yelp Set Data Challenge �, et cette m�thode a �galement �t� appliqu�e dans le sur TripAdvisor et d'autres plates-formes.

(3) AutoPhrase: Mines automatique Phrase

Jiawei Han fournisseur �tudiants tri�s sur le volet 300 Jingbo think haute qualit� �tiquettes tout � fait des co�ts d'�nergie, afin de choisir d'utiliser les entr�es de Wikipedia comme �tiquette, de sorte que vous pouvez obtenir rapidement des centaines de milliers d'�tiquettes.

Un probl�me avec cette approche est qu'il ya une phrase pas dans Wikipedia, ces expressions p�joratifs pas n�cessairement l'�tiquette. Ils ont r�solu le probl�me par le classement.

Les r�sultats de cette approche par rapport aux autres m�thodes se sont consid�rablement am�lior�s.

2, l'identification TypedEntity

Phrase savoir plus tard, le besoin de laisser le sens de la phrase marque, � savoir d'identifier l'entit� not�e type. Selon les mots de Han Wei:

� L'identification asentity span jeton mentionne dans les documents et l'�tiquetage de leurs types - Activation structuredanalysis du corpus de textes non structur�s. �

Cela a plusieurs difficult�s:

restrictions sur le terrain. Entit� avec le corpus g�n�ral obtenu marqu� dans des domaines sp�cifiques, ou des zones de domaine �mergent de dynamique pas bien.
Nom Ambigu�t�. Plusieurs entit�s peuvent partager la m�me surface de nom (SurfaceName, comme � Washington �, il peut �tre l'�tat, ville, nom, nom de l'�quipe, etc.)
clairsem�s Contexte. Il y a beaucoup de repr�sentations possibles de la m�me relation. (Pensez des r�sultats de la comp�tition sportive indiquent la m�thode de combien il chinois)

(1) ClusType

Jiawei Han dit qu'ils ont publi� un article dans le KDD 2015. Dans cet article, ils ont construit un sch�ma h�t�ro-structure dans laquelle c1, c2, c3 Nom de surface au nom de l'entit�, p1, p2 ...... texte au nom Nomme Surface Phrase et m1, m2 ...... au nom de l'entit� (EntityMention ). Chaque mention entit� est sans ambigu�t� des objets ind�pendants.

Le nom de la surface, et l'entit� Phrase Mention connect�e, dans lequel les deux objets est possible de partager la m�me �tiquette, en les reliant � l'augmentation de poids de bord.

Sur la base d'une telle carte h�t�rog�ne, ils seront deux t�ches ensemble pour construire un apprentissage semi-supervis� � base de graphes:

Evolution du type de la figure. classes d'entit� li�es par des relations Phrase synonyme de cluster d�duisent (par exemple, � Kaboul est un alli� de Washington, � si les cat�gories de Kaboul connues pour �tre la cat�gorie � gouvernement �, on peut en d�duire ici, � Washington � est � gouvernement � ).
La relation entre le groupe de mots. � son tour, le type d'entit� a �t� marqu�e peut �tre une phrase en cluster bonne fonctionnalit�.

Ces deux �tapes du cycle sera de bons r�sultats. Comme on peut le voir � partir des r�sultats de sa F1-score bien au-del� de l'autre domaine de la recherche en haut de la PNL.

(2) cotype: approfondir

Les cat�gories ci-dessus ont tendance � �tre rugueux, par exemple, seule une distinction entre � personne �, � nourriture �, � travail �, � �v�nement �, � gouvernement � et ainsi de suite, la taille des particules est relativement importante. Par exemple au Trump, Trump est une grande cat�gorie de � personne �, mais comme une � personne � Trump peut �tre un homme politique, il peut �tre un homme d'affaires ou artistes. Comment la classification plus fine de celui-ci? Il est � Embedding.

Jiawei Han a cit� les a publi�s dans un article sur le WWW 2017. Dans cet article, ils ont invent� une m�thode appel�e la cotype de l'entit� et de phrase tout Embedding dans un espace de faible dimension (plut�t que l'entit� Embedding).

Par exemple, dans cet espace Embedding, si vous voulez marquer le � Trump � et � Hillary � similaire, il est clair que devrait donner le � Trump � est marqu� comme � politique �, si elle est, et li�e � des affaires de phrase similaire, il est marqu� comme � homme d'affaires ". Phrase par l'entit� et de promouvoir les uns des autres pour am�liorer le contenu global de la marque.

Des exemples de Le papier est cit� � Obama �, voici un exemple de rapports Jiawei Han.

3, � la recherche de MetaPattern

Jiawei Han compte tenu du fait plus loin, non seulement de trouver phrase, non seulement pour trouver le type, mais aussi pour trouver du texte mod�le, automatiquement et une grande quantit� d'informations de structure d'exploration de texte par mod�le.

Qu'est-ce mod�le de celui-ci? En fait, un peu populaire, il est � routine �. Nous appliquons la langue dont beaucoup sont dans le mod�le, tel que � le gouvernement des Etats-Unis �, � le gouvernement ofChina �, � le Goverment ofBurkina Faso �, et ainsi de suite. Vous savez peut-�tre pas ce que tout d'un coup � Burkina Faso � est, mais un mod�le similaire, vous savez c'est vraiment un pays.

Encore une fois, ce n'est pas difficile pour la machine. Tant qu'il y mod�le, la machine peut rapidement creuser beaucoup d'informations du m�me texte Pattern. Jiawei Han Jiang a soulev� leur postdoctoral laboratoire TROMPER publi� dans l'article KDD 2017.

Ce travail est �galement au travail Phrase � faire, mais c'est mod�le Meta Meta de phrase.

De ce qui pr�c�de, il peut �tre clairement visible sur la figure leur flux de travail: la segmentation du texte corpus Pattern Meta, mod�le Meta, trouver CORR un grand nombre de tripl�s mod�le Meta, mod�le Meta, puis encore am�lior�e par les triplets de donn�es par exemple, pour augmenter la taille des particules ou obtenir synonyme Motif Meta. Il convient de noter que cette approche ne n�cessite pas beaucoup de donn�es de marquage, ni besoin des connaissances de domaine appropri�, ne avez pas besoin de rechercher des journaux.

Ils appliquent cette approche corpus de nouvelles, tout d'un coup tous les pays et les dirigeants, ainsi que les grandes et les petites entreprises et leur PDG creus�.

La m�me m�thode est utilis�e dans la recherche m�dicale dans le corpus rapidement pour creuser les options de traitement appropri�es et les maladies, les bact�ries et les anticorps. Ce travail est une id�e tr�s simple, mais le r�sultat est tr�s �tonnant.

4, �tablir la classification hi�rarchique

Sur la base des travaux ci-dessus, beaucoup de gens �tudient comment �tablir une classification hi�rarchique de l'entit�. Apr�s une formation humaine peut facilement �tre class� � diff�rentes entit�s, comme l'apprentissage machine, l'informatique est clairement pas le m�me niveau. la machine peut g�n�rer automatiquement la classification de niveau entit� en fonction du texte Titre il?

Jiawei Han a dit, cr�er automatiquement la classification hi�rarchique est en fait � assez difficile �. Apr�s de nombreuses tentatives ont mis en avant deux m�thodes efficaces: Adaptive Clustering et sph�rique LocalEmbedding.

(1) AdaptiveSpherical Clustering

Popularit� et la concentration en consid�rant deux caract�ristiques, la conception d'un mod�le de classement, chaque groupe �lu phrases repr�sentant (repr�sentant) Phrases par le classement mod�le. CONTEXTE puis ceux de phrases (phrases d'arri�re-plan) un haut ou le bas et une (des distances diff�rentes de l'arri�re Embedding) transition. La chose la plus importante est, ne pas forcer chaque phrase doit appartenir � un cluster.

(2) Embedding locale

Le soi-disant LocalEmbedding, utilisez seulement les phrases est associ� au cluster �taient Embedding. La raison de cela est parce que quand tout le Phrase plac� Embedding (Global Embedding) ainsi que d'autres expressions de cluster produira beaucoup de bruit, ce qui annihilation des choses vraiment utiles. Et si vous pouvez utiliser LocalEmbedding Phrase vraiment utile a r�v�l�.

Cinqui�mement, pour construire Textcube multidimensionnelle

Quel est le but de ces �tudes est-il? Jiawei Han a dit, veulent surtout construire un cube de texte multidimensionnel.

Un doute possible, la partie avant 2.2 n'est pas d�j� construit dans le texte Cube, pourquoi construire? Nous devons noter que le New York Times Cube texte est donn�es qui sont d�j� construits conform�ment aux normes Texte Sujet (sport, �conomique, politique, sciences ...) ou Lieu (Chine, Etats-Unis, Japon ...) et d'autres labels cube, et le monde r�el est le plus souvent du texte et pas d'�tiquette, qui ont besoin de construire notre propre.

Un vrai probl�me est que si vous donnez un million de documents, et seul un petit nombre d'�tiquettes (telles que l'emplacement mentionn� ci-dessus, l'�tiquette du sujet), vous pouvez g�n�rer automatiquement des centaines de milliers d'�tiquettes, et le texte mis correctement ces �tiquettes sont int�gr�es dans le Cube texte multidimensionnel en elle?

Tout d'abord, bien s�r, nous faisons Embedding, mais trop peu connue �tiquette. Han Wei si ils ont construit un L-T-D (�tiquette dur�e document) Fig terme qui est extraite � partir du texte.

Nous voyons la distribution de chaque terme dans chacune des �tiquettes connues.

Par exemple, � march� boursier �, sa distribution de probabilit� dans chaque dimension Localisation fondamentalement la m�me, ce qui indique que � le march� boursier � ce terme ne appartiennent Lieu Cette dimension, et d'autre part, il est une forte diff�rence dans la distribution de dimension du sujet le sexe. Selon une norme appel�e Dimension-FocalScore il peut appartenir � l'�conomie tag discrimin�.

Selon la m�thode ci-dessus, et la pr�valence du terme sous cette �tiquette (si plus d'une certaine valeur), vous pouvez d�terminer ce terme (comme � march� boursier �) appartient � une �tiquette correspondant aux dimensions de l'�tiquette. De cette fa�on, nous pouvons g�n�rer automatiquement un grand nombre de balises et le texte en m�me temps de mettre ces �tiquettes construction multidimensionnelle Texte Cube eux.

Apr�s la construction de cette Textcube, l'exploration de donn�es sera beaucoup plus facile.

Sixi�me, le r�sum� de la recherche

Jiawei Han a fait un rapport sommaire final, o� nous organiserons les paroles de Han suivant, l�g�rement modifi�:

Nous pensons que, si gros volumes de donn�es devient grande connaissance, ce qui est tr�s important est d'avoir une structure. Nous trouvons deux structures, on est r�seau, est un cube de texte. Les deux structures d'exportation des connaissances, nous avons d�j� un bon exemple, et tr�s puissant. Bien s�r, ces deux structures devraient �tre combin�es d'une certaine fa�on, et maintenant nous avons des gens dans l'�tude de la fa�on de les combiner.

donn�es r�elles aux donn�es structur�es, � des connaissances utiles, cela est encore un tr�s long chemin. Tant d'ann�es que nous faisons Data Mining est �galement le long de cette route pour aller. A partir de 2000, nous avons le premier livre (Note: La troisi�me �dition 2011), suivie par Philippe, Faloutsos et je co-�crit "Mining Link" en 2010, puis � nouveau Sun Yi Zhou a fait "Mining R�seau HeterogeneousInformation"; suivie par Wang Chi � faire "Mining latent EntityStructures", r�cemment, il �tait Liu Jia Lu, Jingbo ils Phrase activit� mini�re fait sortir ( "Phrase Mining de Massive texte et son application"). Ceux-ci deviendra plus tard un livre. Ensuite, nous les avons soit Xiang, se baissera. (AI Technology Review Novembre 2019 Note: � l'heure actuelle Ren Xiang a une "structures d'exploration de texte de connaissances factuelles", puis Chao a publi� "Multidimensional mini�re du texte Massive Data")

De cette fa�on, nous sommes maintenant seulement trouv� quelques trous peut aller de l'avant. Maintenant, ce n'est pas une route, mais une route. Pour devenir une grande route, nous devons travailler ensemble. La route � travers de large, � l'avenir, nous pouvons d'une grande quantit� de texte non structur� dans beaucoup de connaissances utiles. Voil� ce que je veux dire attention.

- FIN -

attention Tsinghua - donn�es Acad�mie des sciences de Qingdao plate-forme publique micro-canal officiel " donn�es d'envoi THU � Sisters et n � � Les donn�es envoy�es THU � Pour plus de conf�rences et de bien-�tre contenu de qualit�.

Route de la soie

Apprenez � conna�tre la Chine

leader Data mining Professeur Han Jiawei: Comment de textes non structur�s en connaissances utiles?