Figure projet de base de donn�es open source DGraph pass� et pr�sent

Pourquoi Google veut � la carte du syst�me de construction de services de donn�es? Comment Dgraph construit pas � pas sortir? Cet article parle de vies pass�es carte Dgraph base de donn�es avec vous.

Auteur | ManishRai Jain

Zebian | Wu Xingling

Chaque fois que je me pr�sente aux autres et expliquer ce que nous pouvons construire, dans Dgraph Labs, on m'a demand� souvent si travaill� � Facebook, ou si j'essaie maintenant de faire le FaceBook inspir�. Beaucoup de gens sont conscients des efforts � la base de donn�es de graphe social Facebook a fait, parce qu'ils publient un grand nombre d'articles sur l'infrastructure de base de donn�es cartographiques.

Mot de Google Maps se limite � fournir des connaissances, mais avant ce projet, presque personne ne pense l'infrastructure interne peut mettre en uvre ce service. Google fournit syst�me sp�cial pour fournir le service de cartographie des connaissances. En fait, le travail de Google, moi et mon �quipe � la carte syst�me de service de base de donn�es sous beaucoup de paris. Loin en 2010, moi-m�me je l'ai fait au moins deux tentatives plus radicales pour �tudier la nouvelle th�orie de la base de donn�es cartographiques, pour voir ce que nous pouvons cr�er.

Google a besoin de construire un nouveau syst�me de services de base de donn�es cartographiques, non seulement peut g�rer la relation complexe entre les donn�es cartographiques de connaissances, un service de recherche peut �galement g�rer tous les acc�s aux donn�es structur�es (OneBox). Le syst�me de service doit avoir la possibilit� de parcourir toutes les donn�es, mais aussi avoir un d�bit suffisamment �lev� et une latence assez faible, de sorte que vous pouvez appliquer � un flot de requ�tes de recherche Web. A cette �poque, presque pas de syst�me disponible ou base de donn�es peut r�pondre � trois exigences ci-dessus.

Maintenant, j'ai r�pondu pourquoi la construction du syst�me de services de donn�es cartographiques Google, le reste de l'espace, je vais vous pr�senter, nous sommes pas � pas comment construire un syst�me de base de donn�es de carte pour r�pondre aux exigences des cartes de connaissances des services et des moteurs de recherche.

Je sais comment ceux-ci?

2006-2013, je travaillais � Google. La plupart a commenc� en tant que stagiaire, plus tard dans la Web Search travail de groupe Infrastructure en tant qu'ing�nieur logiciel. En 2010, Google a acquis Metaweb, mon �quipe vient de caf�ine lanc�e. Je voulais faire les choses diff�remment, et a commenc� � travailler avec des gens Metaweb, faisant la navette entre San Francisco et Mountain View. Mon objectif �tait de comprendre comment utiliser les connaissances pour am�liorer la carte recherche sur le Web.

Avant que j'engag� � la base de donn�es de carte de d�veloppement, Google a un certain nombre de projets. Il est � noter que, Google a cr�� un projet appel� le bureau de Squared � New York, et il y avait une discussion sur la connaissance de la carte. Ces efforts sont particuliers et les petites �quipes sporadiques. Mais que le temps est pas encore une cha�ne de prise de d�cision �tablie, qui a finalement je suis parti de Google. On parle de plus tard.

histoire Metaweb

Comme indiqu� plus haut, en 2010, Google a acquis Metaweb. Metaweb en utilisant une vari�t� de techniques pour construire une carte des connaissances de haute qualit�, y compris l'exploration et l'analyse syntaxique Wikipedia, et l'utilisation de la strat�gie crowdsourcing similaire � Wikip�dia par l'op�ration Freebase. Tous ces �l�ments sont construits par leur base de donn�es ax�e graphiques internes, cette base de donn�es est nomm� Graphd, un programme de base de donn�es cartographiques (maintenant �t� publi� sur GitHub).

Graphd il y a des propri�t�s tr�s typiques. Comme d�mon, il fonctionne sur un seul serveur, toutes les donn�es en m�moire. site Web entier Freebase avec le Graphd. Apr�s l'acquisition, l'un des d�fis auxquels est confront�e Google est de continuer � fonctionner Freebase.

Google construit SSTable, puis BigTable, qui peut �tre prolong�e lat�ralement � des centaines ou des milliers de machines, des services de donn�es communes dans un certain nombre de PB. Et ils utilisent Borg (un outil de gestion de cluster, le pr�d�cesseur de K8S) machines de distribution, l'utilisation Stubby (GRPC out) pour communiquer, pour r�soudre l'adresse IP (BNE, cuit au four dans K8S) par le nom Borg, Google stocke les donn�es dans un syst�me de fichiers ( GFS, similaire � Hadoop FS). Processus peut mourir, la machine peut se bloquer, mais le syst�me continuera � fonctionner.

Il est pour cet environnement, Graphd �tre report� pour servir l'id�e d'ex�cuter la base de donn�es compl�te du site sur un seul serveur avec Google (y compris moi-m�me) id�e originale varient consid�rablement. Graphd besoin 64GB ou plus de m�moire. Si vous riez de cette m�moire, s'il vous pla�t noter que le point dans le temps, il �tait en 2010. La capacit� maximale de la majorit� du serveur Google est 32GB. En fait, Google doit acheter machine sp�ciale a suffisamment de RAM pour soutenir un grand Graphd.

remplacement GraphD

Et des id�es sur la fa�on de r�-�criture d�placer le travail de GraphD de mani�re distribu�e ont �t� propos�s, mais ils ne sont pas stock�es dans la base de donn�es cl�, les gens ont juste besoin d'obtenir un bloc de donn�es, le d�placer vers un autre service lorsque l'acc�s cl� correspondante , nous pouvons fournir le service. Figure base de donn�es doit assurer une connectivit� efficace et traversal, ce qui nous oblige � utiliser une fa�on particuli�re de la construction de logiciels.

Dans ces id�es, on est d'utiliser un projet appel� MindMeld (IIRC) est. La m�moire du programme est accessible � partir d'un autre serveur via le r�seau plus rapide du mat�riel. On estime que la voie normale pour acc�der � ce RPC plus rapide, assez rapide pour copier pseudo copier un acc�s direct � la m�moire requise pour la base de donn�es de la m�moire. L'id�e ne va pas trop loin.

Un autre vraiment adopt� l'id�e est de construire un v�ritable syst�me de services de base de donn�es cartographiques. Non seulement peut remplacer Graphd pour Freebase, mais aussi que le travail futur de tous les services de la carte du savoir. Il a �t� nomm� Dgraph, un syst�me de service de base de donn�es cartographiques distribu�e, une version am�lior�e du Graphd.

Pas �tonnant, la r�ponse est oui. Au sein de la soci�t� Google, Dgraph Labs et le projet open source Dgraph, est ainsi nomm�.

Pour la plupart de cet article, quand je l'ai mentionn� Dgraph, je veux dire des projets internes de Google plut�t que sur des projets open source que nous construisons. Bien s�r, il y aura plus derri�re la description du projet open source.

histoire c�r�bro: un moteur de carte de connaissances

Bien que le temps que je me suis rendu compte Dgraph sur la route en essayant de remplacer Graphd, mais j'�tait le but est d'am�liorer l'exp�rience de recherche sur le Web. J'ai trouv� un ing�nieur de recherche et de d�veloppement � la DH Metaweb, qui est aussi le fondateur de Cubed.

Comme je l'ai mentionn� plus t�t, certains des ing�nieurs de Google � New York ont mis en place Google Squared. DH a mis en place un projet similaire Cubed. Bien que projet Squared a finalement �chou� � se mat�rialiser, mais Cubed tr�s impressionnant. J'ai commenc� � r�fl�chir � la fa�on de le construire sur Google. Google fournit un certain nombre de petites propri�t�s, me aider � obtenir plus facilement le processus de construction entier.

Le premier est un Rechercher , Google fournit un moyen de d�terminer avec une grande pr�cision quels mots sont li�s comprendre. Par exemple, quand vous voyez comme Quand une telle phrase, il peut vous dire et Il devrait �tre mis en place. En outre, voir savoir et Ensemble pour exprimer un sens. Pour les humains, ce sont des choses �videntes, mais pour la machine, il est difficile de le faire.

La deuxi�me caract�ristique est Comprendre la syntaxe Lorsqu'un similaire Lorsque la demande de recherche est g�n�r�e, la machine est comprise comme Ecrire (� savoir la nationalit� de la loi �crite dans le livre). Mais la phrase peut aussi �tre comprise comme �crit de Que les livres des �crivains fran�ais. J'ai utilis� le discours de Stanford (POS) tagger pour mieux comprendre la syntaxe et construit un arbre de syntaxe.

La troisi�me caract�ristique est La compr�hension de l'entit� , Le mot peut repr�senter de nombreuses entit�s. Il peut repr�senter le pays (r�gion), la nationalit� (voir les Fran�ais), les plats (voir la cuisine fran�aise) ou en fran�ais. Ici, je peux utiliser un autre programme pour obtenir la liste des entit�s des mots ou des phrases qui peuvent correspondre.

La quatri�me partie est de comprendre Les relations entre les entit�s . Maintenant, je sais d�j� comment se connecter � la phrase en mots, des phrases devraient �tre sous quelle forme d'organisation (grammaire) et les entit�s qu'ils peuvent correspondre, je besoin d'un moyen de trouver la relation entre ces entit�s pour cr�er une interpr�tation de la machine . Par exemple, une requ�te dit Et puis nous dire qu'il repr�sente POS Ecrire . nous avons Plusieurs entit�s, Plusieurs entit�s, l'algorithme doit d�terminer la fa�on dont ils sont connect�s. Ils peuvent les contacter par le lieu de naissance, que l'auteur est n� en France (mais peut �tre �crit en anglais), ou est l'auteur des ressortissants fran�ais, parler ou �crire le fran�ais (mais ne peuvent pas �tre associ�s � des Fran�ais dans ce pays) de l'auteur, ou tout comme �crivains cuisine fran�aise.

recherche Figure syst�me base de donn�es sur l'indice

Afin de d�terminer si et comment l'entit� connect�, j'ai besoin d'un syst�me de base de donn�es cartographiques. Graphd jamais �tendu � tout le niveau Google, et je suis bien � la recherche est Web. Cartographie de la connaissance triple format de m�tadonn�es, � savoir, est repr�sent� par le fait que chacune des trois parties, li�es � S (entit�), le P-jacente (relation) et le joint d'objet (une autre entit�). Les requ�tes doivent provenir � partir de

parfois, de

J'ai utilis� le syst�me d'index de recherche de Google , Chaque triplet attribu� un identifiant, et de construire trois index, respectivement, pour la S, P et O. En outre, l'indice permet donc des pi�ces jointes, j'annexe des informations de type pour chaque entit� (� savoir, acteur, des livres, personnes, etc.).

J'ai construit cette carte syst�me de services de donn�es, mais vous savez qu'il y a une profondeur de connexion du probl�me (tel que d�crit ci-dessous), et ne convient pas pour toute requ�te de donn�es cartographiques complexes. En fait, quand je laisse l'�quipe Metaweb quelqu'un ouvre le syst�me d'acc�s � l'autre �quipe, j'insiste refus�.

Afin de d�terminer la relation entre les entit�s, je vais parcourir toutes les possibilit�s entre la requ�te des entit�s. Par exemple, et Toutes les relations entre les produits de la partie s�lectionn�e du r�sultat sont sortis, le juge Tout lien entre ces derniers et les r�sultats obtenus, et donc constamment d�duction. Cela provoque la m�me phrase aura beaucoup d'explications, telles que Cette phrase, elle produira comme , , une telle explication, et le filtre automatiquement comme explication.

Pour chaque explication possible, le syst�me de base de donn�es figure g�n�re une liste de r�sultats, comprenant une entit� de donn�es efficaces, et retourne �galement � son type (pr�sent dans l'annexe). Utilisation tr�s puissant, en raison du type de r�sultats permet de filtrer, de tri ou d'autres fonctions d'extension. Par exemple, pour un r�sultat de recherche de film, vous pouvez �tre class�s en fonction de l'ann�e de sortie du film, la longueur du film (courts m�trages, longs m�trages), la langue, et ainsi de suite gagner.

Ce projet semble tr�s souvent l'intelligence, nous (DH comme carte de connaissances d'experts est �galement impliqu� dans une partie de) nommez-Cerebro, apr�s le film X-Men du m�me nom est apparu dans la machine (ondes c�r�brales d�clenchement).

C�r�bro courir r�v�lent souvent un fait que les gens ne sont pas d'abord explor� tr�s int�ressant. Lorsque vous ex�cutez une requ�te un peu comme le , c�r�bro comprendra le pr�sident est humain, et les humains ont la hauteur. Par cons�quent, il vous permet de classer en fonction de la hauteur du pr�sident, et de montrer que Abraham Lincoln �tait le plus grand pr�sident am�ricain. Elle permet �galement aux par le pr�sident de l'enqu�te sur la nationalit�, dans ce cas, il affiche �galement une liste des �tats-Unis et le Pr�sident du Royaume-Uni, les �tats-Unis parce qu'il ya un pr�sident de nationalit� britannique: George Washington. (Avertissement: KG a �t� bas�e sur les r�sultats de l'Etat ne peut pas garantir l'exactitude de ces r�sultats.)

Vs carte de liens hypertextes connaissances

C�r�bro est l'occasion de vraiment comprendre la signification de la requ�te utilisateur. la machine de base de donn�es figure dans la base de donn�es, nous pouvons g�n�rer une interpr�tation de requ�te, la liste des r�sultats est g�n�r�e et comprendre les r�sultats appuient une exploration plus pouss�e. Comme d�crit plus haut, vous pouvez commencer � un filtre particulier et les op�rations de tri sur les r�sultats, la connexion peut �tre ralli�es pour afficher les donn�es de relation de connexion. De la � ou . DH a d�montr� la capacit� de passer d'une liste � l'autre des r�sultats dans la liste des r�sultats d'un autre projet qu'il a appel� Parallax de.

C�r�bro Il est tr�s impressionnant, des supports de leadership Metaweb elle. M�me le service dans une partie du, Cerebro a �galement une performance satisfaisante et la fonction, le moteur I connaissances d'appel (mis � jour � partir d'un moteur de recherche). Mais Google n'est pas la principale connaissance de la cartographie dans les domaines connexes. Mon manager est pas int�ress� par cela, apr�s avoir communiqu� avec lui, j'ai eu l'occasion de le montrer � une t�te du d�partement de recherche tr�s avanc�s.

Cependant, en r�ponse � l'exposition apr�s frustrant. Pour d�monstration, le chef m'a montr� les r�sultats des requ�tes de recherche Google, ce qui montre les liens hypertextes pertinents dix, il croit que Google peut faire la m�me chose. De plus, ils ne veulent pas enlever beaucoup d'informations sur le site, pourrait violer la vie priv�e des chercheurs.

Si vous pensez que les dirigeants ont dit un sens, on pourrait penser � nouveau: Quand Google recherche Web, il ne comprend pas vraiment la requ�te. Il sera dans la position relative correcte, le rang de la page pour trouver les bons mots-cl�s, et tout ce genre de chose. Il est un syst�me tr�s complexe et extr�mement complexe, mais il ne comprend pas vraiment ou les r�sultats de la requ�te. Les utilisateurs doivent lire leurs propres r�sultats, analyser et extraire les informations dont ils ont besoin, et des recherches plus pouss�es pour mettre sur pied une liste compl�te des r�sultats.

Par exemple, pour , vous devez d'abord de mettre sur pied une liste d�taill�e du contenu de ce qui aurait pu s'adapter � une seule page. Appuyez ensuite sur l'ann�e de publication de ces livres �taient trier ou filtrer par des maisons d'�dition, toutes ces op�rations n�cessitent beaucoup de suivi des liens, et d'agr�gation manuelle de nouveaux r�sultats de recherche. C�r�bro tous les utilisateurs ont la possibilit� d'informations de filtre en plus des �tapes de la province, l'interaction personnes-ordinateur est simple et parfait.

Cependant, ce fut une m�thode typique de la connaissance de la cartographie. utilitaire de gestion de Google map incertaine du savoir, ne sais pas comment les moteurs de recherche devraient �tre associ�s � la carte des connaissances. Le grand succ�s obtenu en fournissant un lien Web pour les organisations d'utilisateurs, de nouvelles fa�ons d'aborder ce genre de connaissances est plus difficile � dig�rer facilement.

Apr�s une ann�e de confrontation avec la direction de Google, j'ai presque perdu la confiance pour continuer. � ce stade, un gestionnaire de bureau Google Shanghai a atteint � moi, et je demeurerai en Juin 2011, le projet sera remis � lui. Il a r�uni une �quipe de 15 ing�nieurs. J'ai pass� une semaine � Shanghai, va construire et moi avons appris transf�r� � l'ing�nieur. DH �galement impliqu�, il �tait ici l'�quipe d'orientation � long terme.

Profondeur de connexion du probl�me

I a �t� construit syst�me de service de base de donn�es cartographiques Cerebro, il y a un probl�me de connexion profonde. Lorsque l'ensemble pr�c�dent de r�sultat partiel de la requ�te a besoin d'effectuer sa partie post�rieure, une connexion est �tablie. Une connexion typique implique des op�rations SELECT, � savoir des r�sultats de filtration provenant de certains ensembles de donn�es commun, et utiliser les r�sultats pour une autre partie de l'ensemble de donn�es filtr�es. Je serai un exemple pour illustrer.

Par exemple, vous voulez savoir (Je vis � San Francisco et manger personne sushi). Les donn�es sont divis�s en deux cat�gories: les personnes et vivent dans SF ces deux types de personnes qui mangent des informations de sushi.

La requ�te ci-dessus est une connexion � un seul �tage. Si l'application de base de donn�es externe ex�cute cette op�ration, il effectuera une requ�te pour effectuer la premi�re �tape. Ensuite, ex�cutez plusieurs requ�tes (chaque le r�sultat d'une requ�te) pour savoir ce que tout le monde a mang�, il suffit de choisir les gens � manger des sushis.

La deuxi�me �tape est l'apparition de probl�mes de ventilation. La premi�re �tape s'il y a un million de r�sultats (toute la population de San Francisco), la deuxi�me �tape est n�cessaire pour mettre les r�sultats de chaque requ�te, r�cup�rer leurs habitudes alimentaires, puis filtr�es personne qualifi�e � travers le filtre.

Les ing�nieurs des syst�mes distribu�s r�solvent souvent ce probl�me en diffusant. Ils entra�neront dans de nombreux travaux par lots, en utilisant des t�ches de segmentation de la fragmentation et de requ�te attribu�s � chaque serveur du cluster. L'utilisation distribu�e compl�tera la connexion, mais entra�nera des retards requ�te.

Les syst�mes distribu�s diffusent tr�s mauvais. Jeff Dean de Google dans sa � r�alisation d'intervention rapide en temps Large Services en ligne � discours mieux expliquer le probl�me. La requ�te de retard total est toujours sup�rieure � la plus lente du retard de la machine. Petit probl�me sur une machine unique entra�nera des retards, chaque requ�te li�e � la masse de la machine augmente consid�rablement la probabilit� de retards.

Consid�rons un serveur dont 50% de retard de 1 ms, mais 99% de retard lS (� savoir, retard �gal � moins de 99 pour cent de 1 s). Si le processus de requ�te uniquement sur un serveur, seulement 1% des demandes prendra plus d'une seconde. Cependant, si la requ�te a frapp� l'un des 100 serveurs, 63% des demandes prendra plus d'une seconde.

Par cons�quent, la mise en uvre d'une requ�te de diffusion � la requ�te de latence est d�favorable. Consid�rons maintenant le besoin de deux, trois fois ou plus la connexion. Pour les sc�narios OLTP en temps r�el, il devient trop lent, les gens retardent au-del� de la plage acceptable.

La plupart des bases de donn�es cartographiques non-native existe un tel haut en �ventail de l'�mission, y compris Janus figure, Twitter et Facebook FlockDB de TAO.

connexion distribu�e est un probl�me. base de donn�es graphique unique existante maintenue par l'ensemble commun de donn�es dans une seule machine (base de donn�es s�par�e), et ne touche pas le cas d'autres serveurs sera le probl�me que toute op�ration de connexion peut �tre �vit�, comme Neo4j.

Entrez Dgraph: un moteur de connexion de profondeur

Apr�s la fin de Cerebro, j'ai l'exp�rience du syst�me de services graphiques de construction Dgraph impliqu� dans le projet, et est devenu l'un des trois directeur technique du projet. Le concept Dgraph impliqu� dans la conception est nouvelle, la profondeur de connexion r�sout le probl�me.

Dgraph en donn�es de motif de fragmentation de mani�re sp�ciale, dans lequel chaque connexion peut �tre compl�tement ex�cut� par une machine, le concept relatif vers ledit avant - pr�dicat - Objet (e SPO), dans chaque cas, est enregistr� et Dgraph dans cet exemple, chaque attribut correspondant � tous les sujets et objets. Une pluralit� d'instance de pr�dicats est stock� sur chaque stockage pr�dicats int�gralit�.

Cela permet effectivement la requ�te d'ex�cuter la profondeur arbitraire de connexion, tout en �vitant le probl�me de la diffusion en �ventail. Par exemple, la requ�te Elle conduira � effectuer jusqu'� deux appels de r�seau au sein de la base de donn�es, quelle que soit la taille de cluster. Le premier appel sera de trouver toutes les personnes qui vivent � San Francisco. Le deuxi�me appel envoie la liste des personnes et tous ceux qui cherchent � manger des sushis et ensemble. Nous pouvons �galement ajouter des restrictions ou extensions, chaque �tape consistera toujours � un appel r�seau.

Cela introduit le probl�me se trouve dans un tr�s grand pr�dicat sur un seul serveur, mais ce probl�me peut �tre r�solu par une nouvelle augmentation de la taille de la scission entre deux ou plusieurs instances du pr�dicat. M�me si, une scission unique sous-jacente � travers le cluster est que dans le comportement le plus extr�me de sous le pire des cas, o� toutes les donn�es correspondant � un seul pr�dicat. Dans d'autres cas, les donn�es sont bien pr�dicat de la performance technique de la fragmentation peut �tre r�alis� plus rapidement retard requ�te dans le syst�me actuel.

La segmentation est pas la seule innovation de Dgraph. Dgraph pour tous les objets affect�s entier ID et tri�e et stock�e dans la structure de la liste de publication rapide de ces demandes intercotation calcul�e. Ces innovations permettront d'acc�l�rer le d�bit de filtration pendant la connexion, il peut �galement �tre utilis� pour trouver des r�f�rences communes et ainsi de suite. L'id�e �tait li�e au syst�me de services Web de Google.

Tout projet OneBox unifi� par plasma

Dgraph Google pas de base de donn�es, mais un syst�me de service, l'�quivalent du syst�me de services de recherche Web de Google. Utilisez Dgraph peut �galement r�pondre � des mises � jour en temps r�el. En temps r�el syst�me de service de mise � jour, il a besoin d'un graphique en temps r�el du syst�me d'indexation. J'ai accumul� beaucoup d'exp�rience en temps r�el des syst�mes d'indexation progressive dans le projet de caf�ine.

J'ai lanc� un projet visant � unifier toutes les donn�es cartographiques Google OneBox par le syst�me d'indexation, y compris la m�t�o, vol, nouvelles de l'�v�nement. OneBox vous savez peut-�tre pas le mot, mais vous avez certainement vu. Contrairement aux autres r�sultats de la recherche OneBox sont affich�s dans une bo�te s�par�e qui affiche lors de l'ex�cution de certains types de requ�tes, Google peut retourner OneBox d'information plus riche. Aimeriez-vous savoir OneBox, effectuez une recherche .

Avant d'entreprendre ce projet, chacun par une autre �quipe de OneBox maintenu par une op�ration back-end ind�pendant. Il y a un ensemble complexe de donn�es structur�es, mais ne partage pas les donn�es entre chaque OneBox. Cela conserve non seulement beaucoup de duplication des travaux sur la fin de retour de l'op�ration, et le manque de partage des connaissances entre chaque bo�te limite �galement les types de requ�tes que Google peut r�pondre.

Par exemple, San Francisco peut afficher les �v�nements d'actualit�, Vous pouvez afficher la m�t�o � San Francisco. Mais si le Le OneBox appris temps pluvieux et l'utilisateur que vous voulez savoir l'�v�nement est � l'int�rieur ou � l'ext�rieur, en fonction du temps, il peut filtrer (ou au moins le genre) des �v�nements (sous la pluie lourde, les activit�s int�rieures possibles, comme un film ou une symphonie est le meilleur choix) .

Avec l'aide de l'�quipe Metaweb, nous avons commenc� � convertir tous ces formats les donn�es du SPO et de son index dans un syst�me. Mon syst�me nomm� plasma, un syst�me de services de donn�es cartographique indice Dgraph des syst�mes graphiques en temps r�el.

confusion de gestion

Comme Cerebro, comme le manque de financement du projet plasma, mais continue. Enfin, quand l'�quipe de OneBox r�alis� de gestion est sur le point de passer � ce projet, ils ont besoin d'�tre responsable de � la bonne personne � carte des connaissances. Dans ce � bon jeu �, je suis pass� par trois changements de direction, mais � chaque fois il a �chou� aux gens exp�riment�s pour se joindre � la carte des connaissances.

Au cours de ce remaniement de la gestion, la direction de soutien Spanner croit Dgraph trop complexe, Spanner est une base de donn�es SQL distribu�es globalement, vous avez besoin d'horloge GPS pour assurer la coh�rence globale. Ironie du sort, cela est encore incroyable.

Enfin, Dgraph annul�, Plasma a surv�cu, mais par la nouvelle direction et une nouvelle �quipe qui sera responsable des activit�s poursuivies et de faire rapport directement au directeur g�n�ral. Le nouveau manque d'�quipe de compr�hension de la carte du savoir, ils ont d�cid� de mettre en place un syst�me de service bas� sur l'index de recherche existant de Google (comme je l'ai fait pour faire c�r�bro). Je recommande d'utiliser le syst�me que je l'ai cr�� pour Cerebro, mais il a �t� refus�. Je plasma transform� en un rampants et peut �tre �tendu sous r�serve de la connaissance du syst�me de plusieurs couches, de sorte que les r�sultats de recherche existants de Google peuvent �tre trait�s comme un document Web. Ils ont appel� TS (abr�viation).

Cette transformation signifie �galement que le nouveau service ne sera pas en mesure de se connecter profondeur. Dans de nombreuses entreprises, je l'ai vu � mal�diction de d�cision � sur une carte de connaissances, parce que les ing�nieurs croient souvent � tort que � le service de donn�es cartographiques est une simple question, vous pouvez construire une couche au-dessus d'un autre syst�mes existants r�solu ".

Quelques mois plus tard, en mai 2013, je suis parti Google, cette fois, je l'ai travaill� pendant deux ans comme Dgraph / Plasma.

post-scriptum

Quelques ann�es plus tard, Web Search Infrastructure Team a �t� renomm� � la recherche Web et l'�quipe graphique d'infrastructure du savoir, je devais retravailler la carte des connaissances de leadership de leadership pour d�marrer la pr�sentation de Cerebro, parler longuement sur la fa�on dont ils ont l'intention de remplacer des hyperliens avec la carte des connaissances et autant d'utilisateurs comme une r�ponse directe � une requ�te.
Lorsque la ligne est sur le point d'�tre sur l'�quipe du projet c�r�bro Shanghai R & D, le projet a �t� tir� directement du bureau de Shanghai Google New York. En fin de compte, il est la forme de la ligne des connaissances Strip. Si vous recherchez , Vous verrez en haut des r�sultats de recherche. Depuis sa sortie initiale, il a une certaine am�lioration it�rative, mais ne supporte toujours pas le filtrage et le niveau de tri offre Cerebro.
Tous les trois de travail directeur technique Dgraph (y compris moi) a finalement quitt� Google.
Quand je suis parti de Google comme ing�nieur logiciel senior, j'ai re�u deux promotion, pr�pare actuellement pour la troisi�me fois.
Grapevine, la version actuelle de TS est en fait tr�s proche de la conception du syst�me graphique Cerebro, sujet, pr�dicat et objet a un index. Par cons�quent, il continuera d'�tre en proie en ajoutant la profondeur des probl�mes de connexion.
Depuis, Plasma �t� r��crite et renomm�e, mais toujours continuer � agir en tant que graphiques en temps r�el du syst�me d'indexation qui prend en charge TS. Ensemble, ils continuent d'accueillir et de fournir toutes les donn�es structur�es de Google, y compris la carte des connaissances.
Comme on peut le voir de nombreux endroits, Google ne peut pas �tre connexion profonde. Tout d'abord, nous ne voyons pas encore la combinaison de divers commentaires des donn�es: Malgr� le temps et les donn�es KG facilement disponibles, �(Pluie asiatique la majeure partie de la ville) ne sont pas g�n�r�s liste des villes des entit�s (au contraire, le r�sultat est une citation de la page Web); Ne peut pas �tre filtr�e en fonction du temps; Les r�sultats ne peuvent plus �tre tri�s, filtr�s ou �tendus � leurs enfants ou ils vont � l'�cole. Je soup�onne que c'est l'une des raisons pour arr�ter l'utilisation de Freebase.

Apr�s avoir quitt� Google deux ans, j'ai d�cid� de construire Dgraph. Google est pas dans les jours, j'ai �t� t�moin de beaucoup d'ind�cision sur la carte syst�me de donn�es internes de R & D. Il y a beaucoup de solution espace graphique cuite au four moiti�, surtout beaucoup de solutions sur mesure, b�cl�e syst�me construit sur des bases de donn�es relationnelles ou NoSQL, ou l'un des nombreux mod�les multi-fonctionnelle de la base de donn�es. S'il y a une solution locale � un clic, il rencontre des probl�mes d'�volutivit�.

�quipe Dgraph a pass� trois ans, non seulement absorb� l'exp�rience de mon propre avant, mais aussi sur la conception du syst�me beaucoup du type d'�tude d'origine, mis en place une base de donn�es graphique in�gal�e sur le march�. Par cons�quent, la soci�t� a une puissante, �volutive et solution de haute performance, pour remplacer les solutions bancales.

Auteur: ManishRai Jain, fondateur Dgraph Labs

Avertissement: Cet article est compil� par page de l'�quipe de produits de base de donn�es nuage Tencent contenu original de db hebdomadaire anglais site officiel.

Cette soumission de papier par le nuage Tencent, pour r�imprimer le contact s'il vous pla�t Tencent nuage.

Route de la soie

Apprenez � conna�tre la Chine

Figure projet de base de donn�es open source DGraph pass� et pr�sent | titres technologiques