Ali extr�me �lasticit� de la base de donn�es de route

Ali sur REVIEW: La base de donn�es le long du chemin de la IOE (IBM petite machine, Oracle Business DB, stockage EMC), nous savons tous que le logiciel de base de donn�es est la d�pendance lourde des ressources sur la CPU du serveur Big Three, m�moire, disque presque toutes les exigences. Base de donn�es en tant que syst�me de stockage de donn�es est largement utilis�, sa SQL demande une lecture physique, lit logique, le filtrage de tri implique derri�re la consommation des IO et des ressources CPU, les entreprises SQL, diff�rents plans d'ex�cution, la consommation des ressources est diff�rent, donc des sp�cifications de ressources d'affaires la demande n'est pas la m�me chose. Pour cette raison, nous avons besoin des sp�cifications plus abstraites, pour mieux permettre aux instances de base de donn�es dans diff�rentes demandes de ressources de la course de m�lange sur la m�me machine physique, d'am�liorer l'utilisation globale. Aujourd'hui, Ali Tianyu experts de haut niveau technique pour nous parler de la route ultime base de donn�es �lastique Ali.

En plus des besoins d'affaires quotidiens, deux 11 sc�nes d'Ali, continuons � r�fl�chir � la fa�on de soutenir rentable trafic de pointe, mettre ces r�flexions dans la r�alit�, dans une comp�titivit� technologique. Il y a si peu de grandes id�es sur la promotion de la flexibilit� des ressources:

Utiliser l'�lasticit� standard des ressources de cloud public, directement apr�s Ali nuage de normes visant � favoriser le retour des ressources pour appuyer les grandes entreprises. C'est la plus simple id�e, mais la difficult� ici est que les exigences d'affaires et des ressources cloud en termes de performance, l'�cart de co�t, et non des machines sur mesure.
Minist�re de la capacit� mixte, la classification des stocks mixtes du d�partement d'affaires, le temps section de m�lange. Ressources hors ligne pour soutenir grande promotion, seul le classement de l'unit� mixte, 11 doubles z�ros rel�gation, apr�s le retour de pointe ressource en ligne est multiplexage par r�partition dans le temps.
Rapide sur le rapide vers le bas, la capacit� � utiliser les ressources en nuage hors connexion apr�s, essayer de raccourcir la p�riode d'occupation.
Fragmentation des ressources, la base de donn�es a �t� une pierre, un morceau de sp�cifications compl�tes. Si la base de donn�es propre grande biblioth�que dans une petite biblioth�que, vous pouvez utiliser des morceaux d'autres ressources d'affaires, y compris les ressources sur le cloud public.

Co�t grande promotion des ressources X = p�riode de d�tention de maintien, un d�ploiement plus rapide (du conteneur) est la cl� de raccourcir la p�riode de d�tention des ressources plus g�n�rales (cloud), comment utiliser moins de ressources (hors ligne ou tout simplement �largir l'informatique ressources), il stocke la d�pendance calcul�e du mode de r�alisation de l'architecture de s�paration. �lasticit� extr�me le long de la cible, l'�lasticit� exp�riment� de base de donn�es de nuage hybride, l'�lasticit� du r�cipient, la s�paration �lastiques trois phases de stockage de calcul, � partir des nuages d'infrastructure haute performance ECS m�lange, la cuve de m�lange de la nu�e, le stockage en nuage et le calcul public distinct m�lang� de partie �tape par �tape mise � niveau.

Architecture Evolution est essentiellement une unit� de v�rification par ann�e, la deuxi�me ann�e du rouleau ensemble du r�seau de sortie, puis creuser un trou et ramper hors du travail d'�quipe ensemble, chacun des besoins d'�volution � travailler en �troite collaboration avec le dos inter�quipes � dos, rapidement marqu� le but chaque ann�e, ce qui est le plus �tonnant Ali puissance. A l'aide de la technologie mat�rielle et logicielle sous-jacente, une �tape par �tape afin que le sch�ma �lastique de mise � niveau partie de m�lange plus souple et rapide.

Un m�lange �lasticit� des nuages, haute performance ECS �merg�

2015, notre viande �lastique pro-grande que l'�lasticit� des personnes, qui est, dans une large machine pro-mouvement, tels que le Groupe des mod�les de cloud computing soutenir grande promotion, des machines en mouvement de retour vers le nuage apr�s la grande promotion. Mais lors d'une r�union � la fin de 2015, Li Jin a demand� si la base de donn�es est all� � l'ECS, si possible, pour vraiment aider les offres cloud matures, Zhang Rui et moi en avons discut� lors de la r�union de r�ponse: nous avons d�cid� d'essayer � propos. Le partenariat un ajustement parfait avec le th�me � D�fis impossible - Groupe de th��tre de la technologie cloud computing D�cembre r�union mensuelle appel�. �

Pour les bases de donn�es en cours d'ex�cution sur une machine virtuelle, on d�termine la consommation maximale de la virtualisation et du r�seau IO, comment faire des performances quasi-natives, comment la p�n�tration de la virtualisation est un probl�me. Dpdk technologie de r�seau en mode utilisateur est arriv� � maturit� relativement, mais la fa�on d'atteindre un rendement suffisamment �lev�, que ce soit le d�chargement mat�riel pour effectuer le calcul est un probl�me. Le syst�me de fichiers en mode utilisateur SPDK IO lien Intel ont un plan, apr�s Intel a pr�sent� les grands fabricants sont encore � la v�rification, il n'y a pas d'�chelle d'application. A cette �poque, nous avons commenc� ce projet, appel� haute performance ECS. Par �quipe ECS et de travailler en �troite collaboration avec, et, finalement, nous l'avons fait la pire sc�ne ECS haute performance par rapport � la perte de performance de disque local � moins de 10%.

En 2016, le Groupe a adopt� la v�rification de routine, a commenc� en 2017 pour promouvoir � grande �chelle �lasticit� directe des ressources en nuage. En plus de ce projet pour cr�er des produits ECS haute performance, le plus important est pr�cipit� pur r�seau en mode utilisateur et le fichier technologie IO lien, qui est de produire un point d'inflexion de la technologie, les produits li�s � la s�paration pour le stockage ult�rieur de la perc�e de calcul haute performance jet� les bases d'Ali .

En second lieu, le r�cipient d'�lasticit�, d'am�liorer l'efficacit� des ressources

Avec la possibilit� de mettre � niveau un serveur autonome, la base de donn�es en 2011, Ali a commenc� � utiliser la solution multi-instance autonome, par CGroup et le r�pertoire du syst�me de fichiers, le d�ploiement du port isol�, supports multi-instances autonome, l'utilisation autonome des ressources. Mais encore il y a un probl�me:

OOM ont eu la m�moire
Il y a une concurrence pour les probl�mes IO
Il y a un compte d'accueil des probl�mes de s�curit� tels que le D�partement mixte multi-locataires
la coh�rence de la base de donn�es de mod�le d'attente

En tant que d�ploiement autonome de densit� plus �lev�e, la communaut� Docker a �galement commenc� � se d�velopper, mais pas m�rir, ne Docker elle-m�me d�pendante isolement des ressources CGroup, r�soudre les probl�mes de lutte contre OOM IO ou non CGroup, mais il est isol� par l'isolement et l'espace de noms des ressources combin�s, les sp�cifications et le d�ploiement des ressources pour tenter de faire une nouvelle d�finition, donc nous voyons plus des conteneurs d'avantages:

sp�cifications normalis�es, les mod�les de base de donn�es d�coupl�es besoin de secours ne pas �tre sym�trique. Cette op�ration et la maintenance apportent une grande �chelle d'efficacit�.
unit� d'isolement Namespace pour apporter la capacit� mixte, pool de ressources unifi�.
Les diff�rents types de bases de donn�es, diff�rentes versions de base de donn�es mixtes occasionnels.
Soit DB �quip�e pour m�langer avec d'autres types d'applications du minist�re.

2015 la technologie de base de donn�es de v�rification des conteneurs a commenc� en 2016 l'utilisation � grande �chelle dans l'environnement quotidien. Par cons�quent, apr�s projet unifi� du groupe a commenc�, nous avons fix� un objectif de tous les grands fournisseurs de soutien conteneuris�es d'�lectricit� pour promouvoir l'unit� de n�gociation 2016, portant environ 30% du march� commercial et compl�t� avec succ�s. la base de donn�es 2017 est le conteneur cible de l'ensemble du r�seau, actuellement la proportion de l'ensemble du conteneur de base de donn�es r�seau est proche de 100%.

En plus d'accro�tre l'�lasticit� de l'efficacit� du d�ploiement des navires, la transparence est plus important est les diff�rences sous-jacentes des ressources, n'a pas commenc� avant la planification intelligente (par la migration automatique pour am�liorer l'utilisation), vient d'apporter du conteneur du multiplexage machine et la version mixte multi-unit�, la mise � niveau 10 points d'utilisation, pool de ressources, unifi�e et mod�les de d�ploiement standard �galement d'acc�l�rer la livraison de l'efficacit� des ressources. abstraction compl�te du conteneur sous-jacent des diff�rentes ressources, sp�cifications normalis�es, et le d�ploiement d'image apporte la commodit� de d�ploiement, devenir une coop�ration plus souple et rapide sur la base des PaaS �lastiques et la couche de base de donn�es unifi�e, base de donn�es, et o� il y a des ressources, o� vous pouvez ex�cuter � partir de la base de donn�es.

En troisi�me lieu, les moyens de calcul �lastiques ultimes, le calcul de stockage de mise � niveau de l'architecture de s�paration

Pour parvenir � un conteneur de nuage hybride, n'est pas un grand pro-annuel ECS haute performance, le d�ploiement de conteneurs peut-il? Mais il est encore insuffisant:

la r�silience de base de donn�es n�cessaire pour d�placer les donn�es, les donn�es sont transf�r�es � l'ECS est le travail du temps.

�lastique trop grand, si plus de nuages publics vente du cycle, augmentera le co�t de possession.

Alors, comment faire plus rapide, plus souple capacit� �lastique, il est un nouveau probl�me technique. Avec le calendrier 2016, nous ne devrions pas consid�rer les machines sont la technologie sans disque, il est pas un calcul s�par� doit �tre stock�, acc�l�rant ainsi l'efficacit� de la planification et la base de donn�es informatique de stockage de la s�paration est beaucoup de controverses.

Partager Rien expansion de la base de donn�es distribu�e a gagn� calculer le stockage s�par� qu'IOE revenir � l'�tat? Si IDC est un centre de donn�es, l'application est calcul�e, DB est stock�, stocke DB la s�paration calcul�e eux-m�mes ne sens? Les donn�es sont en attente copie double, stocker une copie de l'informatique s�par� en trois, la piscine de la capacit� des clusters de stockage peut �quilibrer le co�t d'une copie suppl�mentaire?

� cette fin, j'ai commenc� � mesurer la m�moire des architectures de calcul entr�e s�par�e et sortie � une grande promotion de la sc�ne, nous regardons la grande sc�ne de promotion, �lastique grande promotion, les besoins d'affaires capacit� de calcul plus plusieurs fois, voire 10 fois l'expansion, la promotion entreprendre grande pression maximale, parce que les pics de volume de stockage de donn�es et de disque de donn�es � long terme dans la proportion globale est peu �lev�, et n'a donc pas besoin d'expansion de la capacit� de disque de base.

Avant de lancer l'attente d'architecture de disque local ne peut �tre calcul�, stock� l'expansion s�par�ment, plus l'indice grande promotion, ajouter machine plus classique, plus le co�t des d�chets, car le disque est la principale machine de base de donn�es standard de co�ts. Et dans le cas de calcul de stockage s�par�, mesure vers le bas, on voit le stress quotidien � un co�t inf�rieur de stockage est sup�rieure � la s�par�e disque local calcul�, mais plus loin, seulement besoin d'augmenter la m�moire informatique de calcul isol�, cluster de stockage, car la piscine de non seulement la capacit� de la piscine, la piscine de la performance, IO tous les cas de charge �lev�e sont dispers�s � travers le disque partag� du cluster et le d�bit IOPS multiplexage, sans augmenter les performances, l'avantage des co�ts est �vidente.

extension de disque est non seulement une expansion naturelle de calcul est beaucoup plus faible co�t. La pens�e traditionnelle est l'avantage de la capacit� de stockage mis en commun du groupe, mais la grande sc�ne, nous favorisons une utilisation plus est mis en commun perc�e performance unique goulot d'�tranglement, donc nous avons propos� le fournisseur d'�lectricit� en direct unit� de stockage hors site pour calculer toute la s�paration, l'activit� restante continuer � utiliser des disques locaux pour l'architecture cible de reprise apr�s incident de la ville.

Pour l'id�e, et la fa�on de d�terminer la faisabilit� de cette architecture? Peut �tre bas� sur certains inf�r�e chiffres, nous savons que le disque SSD lu le temps de r�ponse de 100-200 microsecondes, le 16k de transmission du r�seau dans les 10 microsecondes, et donc bien que la s�paration interaction r�seau informatique de stockage augmente de deux � trois fois, ainsi que le stockage consommation du logiciel lui-m�me, lu dans son ensemble ont la possibilit� de faire le retard dans la gamme de 500 microsecondes. Dans le cas de la base de donn�es de mesure de pression, nous avons constat� que, avec l'augmentation simultan�e de cluster de stockage avec une ligne plus QPS niveau d'eau, ce qui confirme la performance du goulot d'�tranglement unique perc�e commun provoqu�e par l'am�lioration du d�bit.

�quipe de base de donn�es en 2017 pour stocker la v�rification s�par�e calcul�e, les r�seaux 25G TCP de stockage d�ploy�es calcul�s s�par�ment en fonction de 10% de cette ann�e suppose le grand flux de promotion. Nous ne stockage distribu� bas� sur un temps de r�ponse de 700 microsecondes, et o� la pile logicielle en mode noyau de grande consommation, par X-DB �galement cibl�es pour optimiser IO fait lente, en particulier optimis� plaque de balai de journal, des atomes d'ouverture �crire �limin� la double m�moire tampon d'�criture pour am�liorer le d�bit.

Ce processus, nous pr�cipiter la m�moire du syst�me de planification des ressources, et maintenant en tant que groupe unifi� de l'entreprise de services de composants. Nous ne sommes pas satisfaits de l'architecture de performance actuelle, avec l'optimisation lente X-DB IO, compute de stockage chemin IO � travers le r�seau, le stockage, les technologies de planification des ressources telles que les pr�cipitations, coupl�es avec le d�veloppement de l'architecture r�seau Alibaba RDMA, base de donn�es commence la deuxi�me moiti� de 2017 �quipe Pangea ensemble et ne stockent l'�tat de syst�me de s�paration compl�te de l'utilisateur final calcul�.

Quatri�mement, l'utilisateur stocke l'�tat complet calcul� �tage architecture IO split lien

� partir IO logiciel de base de donn�es d'appel X-DB, et est all� notre propre recherche et le d�veloppement de DSBF du syst�me de fichiers en mode utilisateur, DSBF utiliser le client en mode utilisateur Pangu directement via un acc�s r�seau RDMA back-end Pangu syst�me de fichiers distribu�, compl�tement � travers le lien IO en contournant la pile de noyau. Ici dBfs sans passer par le syst�me de fichiers du noyau, naturellement, sans passer par pagecache, � cet effet sc�nario de base de donn�es DSBF, un m�canisme de Brufferio plus concis et efficace.

Depuis l'IO sont l'acc�s � distance inter-r�seau, et joue donc un important RDMA r�le, RDMA et TCP suivant est une comparaison de la latence du r�seau dans diff�rentes tailles de paquet, en plus des avantages de l'ext�rieur de retard, RDMA IO pour la longue queue de latence de la queue peut �tre contr�l�e efficacement, se rapporte � une demande de base de donn�es IO fois, le temps de r�ponse aux demandes des utilisateurs peuvent �tre plus efficacement garanti. Application de la technique de calcul RDMA est une m�moire de masse DB isol� condition mesur�e par nos donn�es, un lien de retard DBFS + RDMA comporte un disque local et Ext4 + atteindre le m�me niveau.

Cette ann�e, notre premier d�ploiement � grande �chelle de RDMA, � perp�tuit�. Apr�s mesure beaucoup de pression, l'exercice, RDMA soutenir la construction et le syst�me de surveillance exploitation et d'entretien a �t� mis au point, nous sommes en mesure d'identifier la carte d'interface r�seau de serveur ou d�faut de commutation de d�clenchement d'alarme en 1 minute, peut rapidement les d�fauts isol�s, le trafic de soutien couper rapidement l'�cart, groupe de soutien ou d'un r�seau autonome RDMA TCP r�trograd� au commutateur et ainsi de suite. Dans notre proc�dure pas � pas flux tangentiel de DSBF voir lien latence RDMA d'�criture est r�duite deux fois plus TCP. Nous avons mesur� la pression dans le lien ensemble, sur la base du support technique disque RDMA en r�ponse � une seule instance de base de donn�es pr�s de 2 Go d�bit temps pour se stabiliser � environ 500 microsecondes, sans bavure.

Pangu stockage distribu� afin de soutenir RDMA, CE compression, des instantan�s et d'autres fonctions, beaucoup d'optimisation de la conception, en particulier, a fait beaucoup d'optimisation d'�criture IO, y compris bien s�r la stabilit� de travail de flux de coupe RDMA / TCP, l'isolement de d�faut. Ali comme le ch�ssis de stockage, ce qui est d�j� tr�s grande �chelle des services en ligne.

Apr�s toute la technologie de lien faire clairement, parler des probl�mes que nous avons rencontr�s dans l'application � grande �chelle, d'abord, la virtualisation de r�seau de conteneurs et le pont naturel RDMA incompatible, �tant donn� que le conteneur pour aller allocation de mode r�seau Pont de la propri�t� intellectuelle, ce qui est de prendre le noyau. Pour l'application RDMA, nous devons utiliser le mod�le de r�seau h�te du navire, prendre h�te + X-DB + DSBF + RDMA + Gu stocker un tel lien complet en mode utilisateur.

En second lieu, les environnements de cloud public, nous obtenons par VPC est form� en m�langeant environnement cloud, l'application acc�de � la base de donn�es par VPC et la base de donn�es pour l'acc�s RDMA IP physique et Gu X-DB interne X-Paxos. Le programme complexe et efficace, gr�ce � la flexibilit� et l'it�ration rapide de la planification des ressources de gestion des conteneurs DBPaaS et le contr�le de ces nouvelles technologies peuvent rapidement tomber sur le sol de fa�on constante dans le changement.

Plus t�t cette ann�e, nous avons mis une grande forme de soutien � la promotion 2018, qui vivent dans des endroits diff�rents du bureau central sera hors ligne de calcul d'�lasticit� des ressources � grande unit� de salle de donn�es calcule l'�lasticit� aux ressources de cloud public, pas transf�rer les donn�es d'expansion directement �lastique, plus rapide grands objectifs de promotion plus rapide sous. Cette ann�e DB un jeu global d'�checs, a termin� l'ajustement des ressources pour atteindre le site de stockage pour calculer le fournisseur d'�lectricit� pour chaque mise � jour du sch�ma s�par�, et � distance l'architecture multi-copie et d�ploiement flexible par X-DB, pour atteindre l'objectif de promouvoir l'�lasticit�.

Sur la base sous-jacente Pangu DISTRIBU� m�moire partag�e, l'�lasticit� n'a pas besoin de donn�es Migrer, il vous suffit de monter le disque, la base de donn�es peut �tre appliqu�e aussi rapidement que l'�lasticit�, de sorte qu'un groupe de 10 minutes pour terminer l'expansion �lastique. Alors que le processus de mesure pleine de tension de liaison, les goulots d'�tranglement de performance de l'entreprise, nous pouvons bombe c�t� blanc, bombe rapidement � une plus grande taille. capacit� rapide flexible, toute grande promotion cette ann�e des sites d'extension DB sont termin�s dans les trois jours, ce qui est impossible dans le pass�, c'est la s�paration efficace de l'architecture de jauge de d�p�t apporte.

Enfin, gr�ce � la coop�ration de l'Ali Pangu interne, les r�seaux, la planification, IDC et autre �quipe, il est le soutien de tout le monde � rendre l'infrastructure base de donn�es Ali afin de poursuivre la mise � niveau et d'am�liorer l'efficacit� et la comp�titivit� des co�ts.

La s�paration de mise � niveau de l'infrastructure informatique de stockage de base de donn�es, une r�duction significative des co�ts de grandes ressources de promotion. � l'heure actuelle, notre capacit� de r�sistance est la capacit� de tous les jours, pr�dit par les donn�es, d�clenche automatiquement l'expansion �lastique, notre objectif est de faire des probl�mes de capacit� autonomes conduit � l'�chec du pass�.

Ensuite, nous serons la plate-forme de d�veloppement intelligent pour la base de donn�es, seule l'infrastructure est assez forte, assez rapide, flexible, �lastique, jeu intelligent pour �tre efficace.

[P�kin] participants Salon gratuit

16 d�cembre Ali Baba 11 � double base de donn�es Technology Summit Invite vous � un total de mots de mise � niveau et de transformation 10 ans de la technologie de base de donn�es, nous allons partager double 11 base de donn�es la plus r�cente conception et de l'exp�rience pratique, les d�fis d'interpr�tation, et le syst�me de base de donn�es de pens�es des sc�narios � haute concurrence ultra-grande �chelle, avec un grand visage de vache de l'industrie de faire face dans le chat l'entreprise solutions de bases de donn�es et les meilleures pratiques. Plein de produits secs, inscrivez-vous maintenant.

Cliquez sur " https://jinshuju.net/f/bwDXdB �, Vous pouvez vous inscrire gratuitement.

Route de la soie

Apprenez � conna�tre la Chine

Ali extr�me �lasticit� de la base de donn�es de route