Ce qui a dur� quatre ans, le moteur de Dropbox avec Rust r�crire le code de base

GO biblioth�ques d'outils de langage open source, la recherche iOS et Android d�veloppement C ++ multi-plateforme, il faut cinq ans pour inverser la migration du nuage vers la plate-forme de centre de donn�es ... Dropbox technologie jamais arr�t � frustrant. � Aujourd'hui, l'entreprise a pass� quatre ans � r��crire le code moteur central synchronisation interne la plus ancienne et la plus importante.

Dropbox prend quatre ans pour la reconstruction compl�te

Au cours des quatre derni�res ann�es, nous avons essay� de reconstruire le moteur de synchronisation de client de bureau Dropbox, qui est une technologie importante derri�re le dossier Dropbox, Dropbox est le plus ancien et l'un des plus importants du code. Apr�s quatre ann�es d'efforts, nous avons lanc� un nouveau moteur de synchronisation avec �criture Rust (nom de code � Nucleus �) � tous les utilisateurs Dropbox.

moteur de synchronisation est difficile Rewrite, nous ne voulons pas c�l�brer aveugl�ment la sortie d'une nouvelle version du moteur de synchronisation, car dans de nombreux sc�narios, la r��criture est une mauvaise id�e. Cependant, il se trouve, pour r��crite Dropbox est une bonne id�e, mais seulement parce que nous consid�rons que le processus �tait tr�s complet. Nous allons partager r��crire la question de savoir comment envisager un logiciel important dans cet article, et a soulign� que le projet a la cl� du succ�s de l'initiative, par exemple, a un mod�le de donn�es tr�s propre.

Reconstruction a refus� de conc�der la d�faite: trop de probl�mes

En 2008, la synchronisation Dropbox pour la premi�re fois entr� dans la phase de test. Les utilisateurs installent l'application Dropbox, Dropbox cr�e un dossier sur leur ordinateur, tant que le fichier est enregistr� dans ce dossier, vous pouvez les synchroniser au serveur Dropbox et d'autres utilisateurs de l'appareil. serveur Dropbox peut �tre en permanence et stocker en toute s�curit� des fichiers, et ces fichiers peuvent �galement �tre connect�s via l'acc�s Internet partout.

Autrement dit, le moteur de r�side la synchronisation sur l'ordinateur, l'utilisateur responsable des fichiers de t�l�chargement et le t�l�chargement � une coordination du syst�me de fichiers � distance.

Synchronisation � grande �chelle est difficile

Notre premier moteur de synchronisation appel� � Sync Engine � (ce qui signifie � moteur de synchronisation classique �), il y a quelques probl�mes fondamentaux de son mod�le de donn�es, ces probl�mes ne se manifestera dans le cas massif, de sorte que progressive am�lioration de style impossible.

Les syst�mes distribu�s sont difficiles

� l'�chelle uniquement de Dropbox, la construction de syst�mes distribu�s est lui-m�me une t�che difficile. En dehors de l'�chelle d'origine de c�t�, la synchronisation de fichiers est un probl�me de syst�me distribu� unique, car permet au client de hors ligne pendant de longues p�riodes, et de coordonner leurs modifications lors de retour en ligne. Pour de nombreux algorithmes pour les syst�mes distribu�s, les partitions du r�seau sont des exceptions, mais pour nous, il est pratique courante.

Il est important de traiter correctement: la confiance des utilisateurs Dropbox, et leur contenu le plus pr�cieux confi�s � Dropbox, par cons�quent, Dropbox doit assurer la s�curit� du contenu, ce qui est non n�gociable. Cependant, il y a beaucoup de cas extr�mes de synchronisation dans les deux sens, persistants que Assurez-vous de ne pas supprimer ou d�truire les donn�es sur le serveur est beaucoup plus difficile. Par exemple, Sync Engine Classic � move � repr�sente une paire de fonctionnement: un � Supprimer � dans l'ancien emplacement et le fonctionnement � ajouter � au nouvel emplacement. Si une panne de r�seau se produit, l'op�ration de suppression sera effectu�e, mais l'op�ration correspondante n'a pas �t� ajout�. Ensuite, l'utilisateur trouvera des fichiers manquants apparaissent sur les serveurs et autres �quipements, m�me si elles se d�placent seulement au niveau local et les op�rations de fichiers.

La persistance est difficile � maintenir

L'objectif de Dropbox est: quelle que soit la configuration de l'ordinateur de l'utilisateur, peut � travailler �. Nous soutenons de Windows, MacOS et Linux, ces plates-formes ont une grande vari�t� de syst�mes de fichiers, et le comportement de tous ces syst�mes de fichiers sont l�g�rement diff�rents. Au niveau du syst�me d'exploitation et le mat�riel sont tr�s diff�rents, sans parler de l'utilisateur installera diff�rentes extensions du noyau ou pilote pour modifier le comportement du syst�me d'exploitation. Et au-dessus de Dropbox, une application utilisant le syst�me de fichiers d'une mani�re diff�rente, et il repose sur son comportement ne peut en fait partie de la sp�cification.

Pour assurer la p�rennit� d'un environnement particulier, nous devons comprendre sa mise en uvre, parfois m�me lors du d�bogage des probl�mes de production, l'ing�nierie inverse. Ces questions touchent g�n�ralement un grand nombre d'utilisateurs, et une erreur de syst�me de fichiers rares peuvent affecter seulement une petite fraction des utilisateurs. Par cons�quent, du point de vue de l'�chelle, �tre en mesure de � travail � dans la plupart des environnements et offrent une durabilit� forte de garantie, il est fondamentalement oppos�.

File test synchronisation difficile

Avec une base d'utilisateurs assez grand, presque toutes les choses th�oriquement possible qui peut se produire dans un environnement de production. probl�mes de d�bogage dans l'environnement de production que le d�bogage des probl�mes dans l'environnement de d�veloppement est beaucoup plus cher, surtout pour les logiciels en cours d'ex�cution sur le p�riph�rique de l'utilisateur concern�. Par cons�quent, avant la production de masse, il est essentiel de retour de capture par les tests automatis�s.

Cependant, les tests du moteur de synchronisation est difficile, car les combinaisons possibles de l'�tat des fichiers et des actions de l'utilisateur est un chiffre astronomique. Un dossier partag� peut avoir des milliers de membres, chaque membre a un moteur de synchronisation qui a une connexion diff�rente, ainsi que vue � jour un syst�me de fichiers Dropbox. Chaque utilisateur peut avoir des changements locaux en attente de t�l�versement, et ils peuvent diff�rer de la partie du serveur de programme pour t�l�charger le fichier. Par cons�quent, le syst�me a beaucoup � instantan� � possible donc, qui doivent tous �tre test�s.

Le nombre pris du bon fonctionnement de l'�tat du syst�me est �galement tr�s grande. Est un processus de synchronisation de fichiers hautement simultan�e, les utilisateurs peuvent t�l�charger et t�l�charger plusieurs fichiers en m�me temps. La synchronisation peut se rapporter � un seul bloc de contenu de transmission parall�le de fichier, le contenu �crit sur le disque ou � partir du syst�me de fichiers local. Des tests approfondis doit essayer diff�rentes s�quences de ces op�rations, afin d'assurer des erreurs de concurrence dans notre syst�me n'existe pas.

La synchronisation est difficile de pr�ciser le comportement

Enfin, il est souvent difficile de d�finir pr�cis�ment le moteur de synchronisation de comportement correct. Par exemple, consid�rons un cas: Supposons que nous ayons trois dossiers, un dossier qui est imbriqu� dans un autre dossier.

Alberto en supposant que les utilisateurs et B�atrice, ils utilisent ce dossier en mode hors connexion. Alberto sera dossier � Archives � dans le dossier � Janvier �, et B�atrice dossier � Brouillons � dans le dossier � Archives �.

Quand ils se reconnectent au r�seau ce qui se passerait? Si l'application directe de ces �tapes, notre figure de syst�me de fichiers sera un cycle: dossier r�pertoire parent � Archives � dossier � brouillons �, � Brouillons � dossier est le dossier de r�pertoire parent � Janvier �, le dossier de r�pertoire parent � Janvier � dossier � Archives �.

Dans ce cas, quel est l'�tat du syst�me final correct? Sync Engine copier chaque dossier et fusion arborescence Alberto Bratice. Utilisez Nuclues, nous conservons le r�pertoire d'origine, la s�quence finale d�pend du moteur de synchronisation pour t�l�charger leurs op�rations mobiles.

Dans un cas simple ce trois dossiers et deux actions, Nucleus a un �tat final satisfaisant. Mais comment pouvons-nous pr�ciser le comportement de synchronisation en g�n�ral, et non se noient dans une s�rie de cas de coin il?

Annotation: coin de cas (cas d'angle), ou des cas pathologiques (cas pathologique) fait r�f�rence au probl�me ou d'une situation dans laquelle les param�tres de fonctionnement en dehors de la plage normale, et la plupart de plusieurs variables ou conditions environnementales dans le cas des valeurs extr�mes, m�me ces deux extr�mes sont encore des param�tres dans les sp�cifications (ou fronti�re), il peut �tre consid�r� comme un cas d'angle.

Par exemple, un haut-parleur retentit son d�form�, mais semble au volume maximum, maximum et basse humidit� �lev�e. Ou dans le cas d'un serveur sera instable, mais la condition est � 64 microprocesseur auxiliaire, m�moire pour le maximum est de 512 Gigabyte, alors que la ligne de temps sur un million d'utilisateurs est instable, ce sont des cas d'angle.

coins de cas et les bords des diff�rents cas, seules les conditions aux limites variable unique pour le maximum ou minimum. Si un son haut-parleur aussi longtemps que le volume maximum, ind�pendamment du fait que les autres conditions sont normales ou extr�mes, le son sera d�form�, ce qui est un cas limite.

Comment r�soudre ces probl�mes?

� grande �chelle est difficile de fichiers synchroniser. En 2016, nous avons une bonne solution � ce probl�me. Nous avons des centaines de millions d'utilisateurs, tels que Smart Sync nouvelles fonctionnalit�s du produit, il y a une solide �quipe d'experts d�veloppe synchrone. Sync Engine Apr�s des ann�es d'am�lioration de la production, a pass� beaucoup de temps pour trouver et corriger les erreurs plus communes.

Joel Spolsky a dit r�crire le code � partir de z�ro est � Les soci�t�s de logiciels sont susceptibles de commettre la plus grave erreur strat�gique. � Pour les caract�ristiques de r�-�criture avec succ�s complet souvent souhaitable de ralentir la vitesse du d�veloppement, parce que les progr�s r�alis�s sur les anciens besoins du syst�me � �tre port� sur le nouveau syst�me. Bien s�r, il y a beaucoup de projets orient�s vers l'utilisateur, nos ing�nieurs peuvent �tre synchronis�s.

Bien que Sync Engine succ�s, mais tr�s malsain. Dans le processus de construction d'une Smart Sync, nous faisons le syst�me beaucoup d'am�liorations suppl�mentaires, nettoyons le code pauvre, et l'interface refactoring, et m�me ajout� une annotations de type Python. Nous avons ajout� un certain nombre de technologies de t�l�m�trie, et la mise en place des proc�dures pour assurer le maintien d'un coffre-fort et simple. Cependant, ces am�liorations progressives ne suffit pas.

Toute modification apport�e � la prestation de comportement synchronisation besoin d'�tre difficiles � d�ployer, et nous trouvons encore des incoh�rences dans la production complexe. L'�quipe doit tout laisser tomber, diagnostiquer et r�soudre les probl�mes, puis prendre le temps de rendre leurs applications � restaurer bon �tat. M�me si nous avons une solide �quipe d'experts, mais laissez-les ing�nieurs d'int�grer dans le nouveau syst�me prendre encore plusieurs ann�es. Enfin, nous avons investi beaucoup de temps pour am�liorer les performances, mais n'a pas r�ussi � augmenter de mani�re significative le nombre total de moteur de synchronisation de fichiers peut g�rer.

Il y a quelques causes profondes de ces probl�mes, mais le plus important est le moteur de synchronisation classique mod�le de donn�es. Un mod�le de donn�es ne sont pas partag�es, monde de conception plus simple, et le fichier est manquant identifiant de stable qui peut �tre maintenu dans le processus de d�placement. Nous allons prendre des heures pour d�boguer th�oriquement possibles, mais � tr�s peu probable � appara�t dans un des probl�mes de l'environnement de production. Changer ne peuvent g�n�ralement pas �tre atteint les noms de base d'un syst�me, et bient�t nous aurons aucune m�thode efficace d'am�liorations suppl�mentaires.

En second lieu, le syst�me n'a pas �t� con�u pour la testabilit� et le design. Nous comptons sur la lib�ration lente et sur place des probl�mes de d�bogage, plut�t que les tests pr�-version automatis�e. Sync Engine permet des moyens de mod�le de donn�es que nous ne pouvons pas �tre trop de contr�les dans un test de stress, car il y a beaucoup de r�sultat impopulaire mais toujours valable, nous ne pouvons pas dire. Avoir un mod�le de donn�es une forte liaison invariants (invariant serr�) pour le test est tr�s utile, car v�rifier si le syst�me est actif est toujours une chose tr�s facile � faire.

Nous avons d'abord discut� pourquoi la synchronisation est un des probl�mes de concurrence, et le test et le d�bogage du code concurrent est notoirement difficile. Sync Engine classique de l'architecture � base de fil qui ne sont pas utilis�s du tout. Il toutes les d�cisions de planification sont remis au syst�me d'exploitation, ce qui rend les tests d'int�gration ne devient pas reproductible. Dans la pratique, nous nous retrouvons � l'aide tr�s serrure � gros grains de longue date. Bien que cette architecture sacrifier les avantages du parall�lisme, mais qui rend le syst�me plus facile � raisonner.

Avant rewrite, comment �valuer les besoins?

D�cidons de r��crire des raisons raffin�es une r�-�criture sur la liste, il peut aider � prendre de telles d�cisions dans d'autres syst�mes.

Avez-vous �puis� m�thode d'am�lioration progressive? 1, si vous avez essay� de reconstruire le module de code pour le mieux?

La mauvaise qualit� du code lui-m�me ne constitue pas une raison importante de r��crire le syst�me. Renommer les variables et d�verrouiller le module peut �tre �troitement li�e � des am�liorations progressives pour terminer, nous avons pass� beaucoup de temps dans Sync Engine pour remplir ces t�ches. la nature dynamique de Python peut rendre difficile, par cons�quent, nous avons ajout� des notes MyPy, afin de saisir progressivement plus d'erreurs au moment de la compilation. Cependant, le syst�me primitif de base reste inchang�, car la reconstruction seule ne modifie pas le mod�le de donn�es sous-jacentes.

2, vous essayez d'am�liorer les performances en optimisant?

Software passent habituellement la plupart du temps de tr�s peu de code. De nombreux probl�mes de performance ne sont pas des probl�mes fondamentaux, optimize analyseur de point chaud est un bon moyen d'identifier une am�lioration progressive des performances. Pendant des mois, l'�quipe a �t� engag�e dans les aspects du travail et de performance de l'�chelle, ils ont fait de grandes r�alisations dans l'am�lioration du contenu de la performance de transfert de fichiers. Cependant, l'empreinte m�moire am�lior�e (par exemple en augmentant le nombre de syst�me de fichiers peut g�rer) restent insaisissables.

3, vous pouvez fournir plus de valeur?

M�me si vous d�cidez de r��crire, vous pouvez augmenter la valeur pour r�duire le risque? Ceci permettra de v�rifier les d�cisions techniques au d�but, pour aider � maintenir l'�lan des projets de d�veloppement, et d'all�ger les souffrances caus�es par les caract�ristiques du d�veloppement lent.

Vous pouvez r��crire?

1, si vous �tes une profonde compr�hension et le respect du syst�me actuel?

Ecrire un nouveau code que de comprendre le code existant beaucoup plus facile. Ainsi, avant la r��criture, vous avez une profonde compr�hension et de respect pour le syst�me � classique �. Ceci est la raison de l'existence de toute votre �quipe et d'affaires, il fonctionne dans un environnement de production par l'accumulation d'ann�es de sagesse. Faire des recherches arch�ologiques, comprendre pourquoi tout cela est ainsi.

2. Avez-vous le temps?

syst�me Rewrite � partir de z�ro est un travail difficile, mais aussi pour obtenir la gamme compl�te de fonctionnalit�s prend beaucoup de temps. Ces ressources avez-vous? Votre organisation est assez bonne sant� pour soutenir un tel projet d'envergure?

3, vous pouvez accepter un taux de d�veloppement plus lent des caract�ristiques font?

Nous ne sommes pas arr�ter compl�tement le d�veloppement de moteur de synchronisation classique caract�ristique, mais tous les changements de l'ancien syst�me sera la ligne d'arriv�e du nouveau syst�me va pousser plus loin. Nous avons d�cid� de fournir certains �l�ments, sans glisser r��crire l'�quipe, nous devons guider consciemment l'allocation des ressources pour publier ces articles. Nous avons �galement la technologie Sync Engine t�l�m�trique fait des investissements importants afin de maintenir les co�ts d'entretien de l'hom�ostasie au minimum.

Quel est votre objectif?

1. Pourquoi est-mieux la deuxi�me fois?

Si vous �tes loin, vous avez une connaissance approfondie des syst�mes existants, ainsi que des le�ons � tirer. Cependant, il devrait R��crire conduit par l'�volution des besoins ou des besoins d'affaires. Nous avons expliqu� comment le changement de synchronisation de fichiers dans ce qui pr�c�de, cependant, nous avons d�cid� de r��crire �galement de nature prospective. Les utilisateurs de Dropbox comprennent la collaboration croissante dans le travail a besoin de construire de nouvelles fonctionnalit�s pour les utilisateurs ont besoin d'un moteur de synchronisation flexible, robuste.

2. Quel est votre principe du nouveau syst�me est?

Pour une �quipe, � partir de z�ro est une excellente occasion de remodeler la culture de la technologie. �tant donn� que nous exploitons Sync Engine exp�rience classique, nous sommes tr�s stress�e d�s le d�but, les tests, le d�bogage et l'exactitude du codage de tous ces principes dans le mod�le de donn�es. Nous sommes au d�but du cycle de vie du projet d'�crire ces principes, ils reviennent encore et encore pour apporter leur propre.

Nous Rouille R��crire le code de base

Enfin, nous utilisons Rust a �crit Nucleus. Pour notre �quipe, je parie que la rouille est l'une des meilleures d�cisions que nous avons fait. En plus de la performance, la justesse de son attention pour nous aider � surmonter la complexit� de la synchronisation. Nous pouvons �tre dans le syst�me de invariants type de syst�me de codage complexe, et laisser le compilateur v�rifie les pour nous.

La quasi-totalit� de notre code dans un thread ( � fil de contr�le �) pour fonctionner sur, et utiliser la biblioth�que dans la planification � terme Rouille de nombreuses op�rations simultan�es sur ce fil. Nous ne travaillons que simplement le passage � d'autres threads en cas de besoin: le r�seau boucle d'�v�nement IO pour calculer le grand travail des frais g�n�raux, tels que le hachage du pool de threads, syst�me de fichiers IO � un thread d�di�. Cela r�duit consid�rablement la port�e et la complexit� du d�veloppeur lors de l'ajout de nouvelles fonctionnalit�s qui doivent �tre pris en compte.

Et quand les d�cisions d'ordonnancement de threads de contr�le d'entr�e sont fixes dont il est con�u pour �tre enti�rement d�termin�e. Nous utilisons cette propri�t�, avec un test de simulation pseudo-al�atoire, il floue. Graine g�n�rateur de nombres al�atoires, on peut g�n�rer un �tat initial al�atoire du syst�me de fichiers, des troubles du calendrier et du syst�me, et laisser tourner le moteur � l'�tat d'ach�vement. Ensuite, si nous ne v�rifions pas l'exactitude de toute synchronisation, on peut toujours reproduire l'erreur � partir des graines d'origine. Chaque jour, nous courons une vari�t� de sc�narios � des millions dans l'infrastructure de test.

Nous avons repens� le client - protocole de serveur, il a une consistance solide. L'accord assure le serveur et le client ont la m�me vue du fichier distant avant d'envisager des modifications. dossiers et fichiers partag�s � l'�chelle mondiale identifiant unique, le client ne les a jamais observ� en copie temporaire ou perte de statut. Maintenant, nous avons eu des contr�les solides de coh�rence entre vue du syst�me de fichiers � distance du client et le serveur, les diff�rences sont fausses.

Route de la soie

Apprenez � conna�tre la Chine