Ali extrême élasticité de la base de données de route

Ali sur REVIEW: La base de données le long du chemin de la IOE (IBM petite machine, Oracle Business DB, stockage EMC), nous savons tous que le logiciel de base de données est la dépendance lourde des ressources sur la CPU du serveur Big Three, mémoire, disque presque toutes les exigences. Base de données en tant que système de stockage de données est largement utilisé, sa SQL demande une lecture physique, lit logique, le filtrage de tri implique derrière la consommation des IO et des ressources CPU, les entreprises SQL, différents plans d'exécution, la consommation des ressources est différent, donc des spécifications de ressources d'affaires la demande n'est pas la même chose. Pour cette raison, nous avons besoin des spécifications plus abstraites, pour mieux permettre aux instances de base de données dans différentes demandes de ressources de la course de mélange sur la même machine physique, d'améliorer l'utilisation globale. Aujourd'hui, Ali Tianyu experts de haut niveau technique pour nous parler de la route ultime base de données élastique Ali.

En plus des besoins d'affaires quotidiens, deux 11 scènes d'Ali, continuons à réfléchir à la façon de soutenir rentable trafic de pointe, mettre ces réflexions dans la réalité, dans une compétitivité technologique. Il y a si peu de grandes idées sur la promotion de la flexibilité des ressources:

  • Utiliser l'élasticité standard des ressources de cloud public, directement après Ali nuage de normes visant à favoriser le retour des ressources pour appuyer les grandes entreprises. C'est la plus simple idée, mais la difficulté ici est que les exigences d'affaires et des ressources cloud en termes de performance, l'écart de coût, et non des machines sur mesure.
  • Ministère de la capacité mixte, la classification des stocks mixtes du département d'affaires, le temps section de mélange. Ressources hors ligne pour soutenir grande promotion, seul le classement de l'unité mixte, 11 doubles zéros relégation, après le retour de pointe ressource en ligne est multiplexage par répartition dans le temps.
  • Rapide sur le rapide vers le bas, la capacité à utiliser les ressources en nuage hors connexion après, essayer de raccourcir la période d'occupation.
  • Fragmentation des ressources, la base de données a été une pierre, un morceau de spécifications complètes. Si la base de données propre grande bibliothèque dans une petite bibliothèque, vous pouvez utiliser des morceaux d'autres ressources d'affaires, y compris les ressources sur le cloud public.

Coût grande promotion des ressources X = période de détention de maintien, un déploiement plus rapide (du conteneur) est la clé de raccourcir la période de détention des ressources plus générales (cloud), comment utiliser moins de ressources (hors ligne ou tout simplement élargir l'informatique ressources), il stocke la dépendance calculée du mode de réalisation de l'architecture de séparation. élasticité extrême le long de la cible, l'élasticité expérimenté de base de données de nuage hybride, l'élasticité du récipient, la séparation élastiques trois phases de stockage de calcul, à partir des nuages d'infrastructure haute performance ECS mélange, la cuve de mélange de la nuée, le stockage en nuage et le calcul public distinct mélangé de partie étape par étape mise à niveau.

Architecture Evolution est essentiellement une unité de vérification par année, la deuxième année du rouleau ensemble du réseau de sortie, puis creuser un trou et ramper hors du travail d'équipe ensemble, chacun des besoins d'évolution à travailler en étroite collaboration avec le dos interéquipes à dos, rapidement marqué le but chaque année, ce qui est le plus étonnant Ali puissance. A l'aide de la technologie matérielle et logicielle sous-jacente, une étape par étape afin que le schéma élastique de mise à niveau partie de mélange plus souple et rapide.

Un mélange élasticité des nuages, haute performance ECS émergé

2015, notre viande élastique pro-grande que l'élasticité des personnes, qui est, dans une large machine pro-mouvement, tels que le Groupe des modèles de cloud computing soutenir grande promotion, des machines en mouvement de retour vers le nuage après la grande promotion. Mais lors d'une réunion à la fin de 2015, Li Jin a demandé si la base de données est allé à l'ECS, si possible, pour vraiment aider les offres cloud matures, Zhang Rui et moi en avons discuté lors de la réunion de réponse: nous avons décidé d'essayer à propos. Le partenariat un ajustement parfait avec le thème « Défis impossible - Groupe de théâtre de la technologie cloud computing Décembre réunion mensuelle appelé. »

Pour les bases de données en cours d'exécution sur une machine virtuelle, on détermine la consommation maximale de la virtualisation et du réseau IO, comment faire des performances quasi-natives, comment la pénétration de la virtualisation est un problème. Dpdk technologie de réseau en mode utilisateur est arrivé à maturité relativement, mais la façon d'atteindre un rendement suffisamment élevé, que ce soit le déchargement matériel pour effectuer le calcul est un problème. Le système de fichiers en mode utilisateur SPDK IO lien Intel ont un plan, après Intel a présenté les grands fabricants sont encore à la vérification, il n'y a pas d'échelle d'application. A cette époque, nous avons commencé ce projet, appelé haute performance ECS. Par équipe ECS et de travailler en étroite collaboration avec, et, finalement, nous l'avons fait la pire scène ECS haute performance par rapport à la perte de performance de disque local à moins de 10%.

En 2016, le Groupe a adopté la vérification de routine, a commencé en 2017 pour promouvoir à grande échelle élasticité directe des ressources en nuage. En plus de ce projet pour créer des produits ECS haute performance, le plus important est précipité pur réseau en mode utilisateur et le fichier technologie IO lien, qui est de produire un point d'inflexion de la technologie, les produits liés à la séparation pour le stockage ultérieur de la percée de calcul haute performance jeté les bases d'Ali .

En second lieu, le récipient d'élasticité, d'améliorer l'efficacité des ressources

Avec la possibilité de mettre à niveau un serveur autonome, la base de données en 2011, Ali a commencé à utiliser la solution multi-instance autonome, par CGroup et le répertoire du système de fichiers, le déploiement du port isolé, supports multi-instances autonome, l'utilisation autonome des ressources. Mais encore il y a un problème:

  • OOM ont eu la mémoire
  • Il y a une concurrence pour les problèmes IO
  • Il y a un compte d'accueil des problèmes de sécurité tels que le Département mixte multi-locataires
  • la cohérence de la base de données de modèle d'attente

En tant que déploiement autonome de densité plus élevée, la communauté Docker a également commencé à se développer, mais pas mûrir, ne Docker elle-même dépendante isolement des ressources CGroup, résoudre les problèmes de lutte contre OOM IO ou non CGroup, mais il est isolé par l'isolement et l'espace de noms des ressources combinés, les spécifications et le déploiement des ressources pour tenter de faire une nouvelle définition, donc nous voyons plus des conteneurs d'avantages:

  • spécifications normalisées, les modèles de base de données découplées besoin de secours ne pas être symétrique. Cette opération et la maintenance apportent une grande échelle d'efficacité.
  • unité d'isolement Namespace pour apporter la capacité mixte, pool de ressources unifié.
  • Les différents types de bases de données, différentes versions de base de données mixtes occasionnels.
  • Soit DB équipée pour mélanger avec d'autres types d'applications du ministère.

2015 la technologie de base de données de vérification des conteneurs a commencé en 2016 l'utilisation à grande échelle dans l'environnement quotidien. Par conséquent, après projet unifié du groupe a commencé, nous avons fixé un objectif de tous les grands fournisseurs de soutien conteneurisées d'électricité pour promouvoir l'unité de négociation 2016, portant environ 30% du marché commercial et complété avec succès. la base de données 2017 est le conteneur cible de l'ensemble du réseau, actuellement la proportion de l'ensemble du conteneur de base de données réseau est proche de 100%.

En plus d'accroître l'élasticité de l'efficacité du déploiement des navires, la transparence est plus important est les différences sous-jacentes des ressources, n'a pas commencé avant la planification intelligente (par la migration automatique pour améliorer l'utilisation), vient d'apporter du conteneur du multiplexage machine et la version mixte multi-unité, la mise à niveau 10 points d'utilisation, pool de ressources, unifiée et modèles de déploiement standard également d'accélérer la livraison de l'efficacité des ressources. abstraction complète du conteneur sous-jacent des différentes ressources, spécifications normalisées, et le déploiement d'image apporte la commodité de déploiement, devenir une coopération plus souple et rapide sur la base des PaaS élastiques et la couche de base de données unifiée, base de données, et où il y a des ressources, où vous pouvez exécuter à partir de la base de données.

En troisième lieu, les moyens de calcul élastiques ultimes, le calcul de stockage de mise à niveau de l'architecture de séparation

Pour parvenir à un conteneur de nuage hybride, n'est pas un grand pro-annuel ECS haute performance, le déploiement de conteneurs peut-il? Mais il est encore insuffisant:

  • la résilience de base de données nécessaire pour déplacer les données, les données sont transférées à l'ECS est le travail du temps.
  • Élastique trop grand, si plus de nuages publics vente du cycle, augmentera le coût de possession.
  • Alors, comment faire plus rapide, plus souple capacité élastique, il est un nouveau problème technique. Avec le calendrier 2016, nous ne devrions pas considérer les machines sont la technologie sans disque, il est pas un calcul séparé doit être stocké, accélérant ainsi l'efficacité de la planification et la base de données informatique de stockage de la séparation est beaucoup de controverses.

    Partager Rien expansion de la base de données distribuée a gagné calculer le stockage séparé qu'IOE revenir à l'état? Si IDC est un centre de données, l'application est calculée, DB est stocké, stocke DB la séparation calculée eux-mêmes ne sens? Les données sont en attente copie double, stocker une copie de l'informatique séparé en trois, la piscine de la capacité des clusters de stockage peut équilibrer le coût d'une copie supplémentaire?

    À cette fin, j'ai commencé à mesurer la mémoire des architectures de calcul entrée séparée et sortie à une grande promotion de la scène, nous regardons la grande scène de promotion, élastique grande promotion, les besoins d'affaires capacité de calcul plus plusieurs fois, voire 10 fois l'expansion, la promotion entreprendre grande pression maximale, parce que les pics de volume de stockage de données et de disque de données à long terme dans la proportion globale est peu élevé, et n'a donc pas besoin d'expansion de la capacité de disque de base.

    Avant de lancer l'attente d'architecture de disque local ne peut être calculé, stocké l'expansion séparément, plus l'indice grande promotion, ajouter machine plus classique, plus le coût des déchets, car le disque est la principale machine de base de données standard de coûts. Et dans le cas de calcul de stockage séparé, mesure vers le bas, on voit le stress quotidien à un coût inférieur de stockage est supérieure à la séparée disque local calculé, mais plus loin, seulement besoin d'augmenter la mémoire informatique de calcul isolé, cluster de stockage, car la piscine de non seulement la capacité de la piscine, la piscine de la performance, IO tous les cas de charge élevée sont dispersés à travers le disque partagé du cluster et le débit IOPS multiplexage, sans augmenter les performances, l'avantage des coûts est évidente.

    extension de disque est non seulement une expansion naturelle de calcul est beaucoup plus faible coût. La pensée traditionnelle est l'avantage de la capacité de stockage mis en commun du groupe, mais la grande scène, nous favorisons une utilisation plus est mis en commun percée performance unique goulot d'étranglement, donc nous avons proposé le fournisseur d'électricité en direct unité de stockage hors site pour calculer toute la séparation, l'activité restante continuer à utiliser des disques locaux pour l'architecture cible de reprise après incident de la ville.

    Pour l'idée, et la façon de déterminer la faisabilité de cette architecture? Peut être basé sur certains inférée chiffres, nous savons que le disque SSD lu le temps de réponse de 100-200 microsecondes, le 16k de transmission du réseau dans les 10 microsecondes, et donc bien que la séparation interaction réseau informatique de stockage augmente de deux à trois fois, ainsi que le stockage consommation du logiciel lui-même, lu dans son ensemble ont la possibilité de faire le retard dans la gamme de 500 microsecondes. Dans le cas de la base de données de mesure de pression, nous avons constaté que, avec l'augmentation simultanée de cluster de stockage avec une ligne plus QPS niveau d'eau, ce qui confirme la performance du goulot d'étranglement unique percée commun provoquée par l'amélioration du débit.

    équipe de base de données en 2017 pour stocker la vérification séparée calculée, les réseaux 25G TCP de stockage déployées calculés séparément en fonction de 10% de cette année suppose le grand flux de promotion. Nous ne stockage distribué basé sur un temps de réponse de 700 microsecondes, et où la pile logicielle en mode noyau de grande consommation, par X-DB également ciblées pour optimiser IO fait lente, en particulier optimisé plaque de balai de journal, des atomes d'ouverture écrire éliminé la double mémoire tampon d'écriture pour améliorer le débit.

    Ce processus, nous précipiter la mémoire du système de planification des ressources, et maintenant en tant que groupe unifié de l'entreprise de services de composants. Nous ne sommes pas satisfaits de l'architecture de performance actuelle, avec l'optimisation lente X-DB IO, compute de stockage chemin IO à travers le réseau, le stockage, les technologies de planification des ressources telles que les précipitations, couplées avec le développement de l'architecture réseau Alibaba RDMA, base de données commence la deuxième moitié de 2017 équipe Pangea ensemble et ne stockent l'état de système de séparation complète de l'utilisateur final calculé.

    Quatrièmement, l'utilisateur stocke l'état complet calculé étage architecture IO split lien

    À partir IO logiciel de base de données d'appel X-DB, et est allé notre propre recherche et le développement de DSBF du système de fichiers en mode utilisateur, DSBF utiliser le client en mode utilisateur Pangu directement via un accès réseau RDMA back-end Pangu système de fichiers distribué, complètement à travers le lien IO en contournant la pile de noyau. Ici dBfs sans passer par le système de fichiers du noyau, naturellement, sans passer par pagecache, à cet effet scénario de base de données DSBF, un mécanisme de Brufferio plus concis et efficace.

    Depuis l'IO sont l'accès à distance inter-réseau, et joue donc un important RDMA rôle, RDMA et TCP suivant est une comparaison de la latence du réseau dans différentes tailles de paquet, en plus des avantages de l'extérieur de retard, RDMA IO pour la longue queue de latence de la queue peut être contrôlée efficacement, se rapporte à une demande de base de données IO fois, le temps de réponse aux demandes des utilisateurs peuvent être plus efficacement garanti. Application de la technique de calcul RDMA est une mémoire de masse DB isolé condition mesurée par nos données, un lien de retard DBFS + RDMA comporte un disque local et Ext4 + atteindre le même niveau.

    Cette année, notre premier déploiement à grande échelle de RDMA, à perpétuité. Après mesure beaucoup de pression, l'exercice, RDMA soutenir la construction et le système de surveillance exploitation et d'entretien a été mis au point, nous sommes en mesure d'identifier la carte d'interface réseau de serveur ou défaut de commutation de déclenchement d'alarme en 1 minute, peut rapidement les défauts isolés, le trafic de soutien couper rapidement l'écart, groupe de soutien ou d'un réseau autonome RDMA TCP rétrogradé au commutateur et ainsi de suite. Dans notre procédure pas à pas flux tangentiel de DSBF voir lien latence RDMA d'écriture est réduite deux fois plus TCP. Nous avons mesuré la pression dans le lien ensemble, sur la base du support technique disque RDMA en réponse à une seule instance de base de données près de 2 Go débit temps pour se stabiliser à environ 500 microsecondes, sans bavure.

    Pangu stockage distribué afin de soutenir RDMA, CE compression, des instantanés et d'autres fonctions, beaucoup d'optimisation de la conception, en particulier, a fait beaucoup d'optimisation d'écriture IO, y compris bien sûr la stabilité de travail de flux de coupe RDMA / TCP, l'isolement de défaut. Ali comme le châssis de stockage, ce qui est déjà très grande échelle des services en ligne.

    Après toute la technologie de lien faire clairement, parler des problèmes que nous avons rencontrés dans l'application à grande échelle, d'abord, la virtualisation de réseau de conteneurs et le pont naturel RDMA incompatible, étant donné que le conteneur pour aller allocation de mode réseau Pont de la propriété intellectuelle, ce qui est de prendre le noyau. Pour l'application RDMA, nous devons utiliser le modèle de réseau hôte du navire, prendre hôte + X-DB + DSBF + RDMA + Gu stocker un tel lien complet en mode utilisateur.

    En second lieu, les environnements de cloud public, nous obtenons par VPC est formé en mélangeant environnement cloud, l'application accède à la base de données par VPC et la base de données pour l'accès RDMA IP physique et Gu X-DB interne X-Paxos. Le programme complexe et efficace, grâce à la flexibilité et l'itération rapide de la planification des ressources de gestion des conteneurs DBPaaS et le contrôle de ces nouvelles technologies peuvent rapidement tomber sur le sol de façon constante dans le changement.

    Plus tôt cette année, nous avons mis une grande forme de soutien à la promotion 2018, qui vivent dans des endroits différents du bureau central sera hors ligne de calcul d'élasticité des ressources à grande unité de salle de données calcule l'élasticité aux ressources de cloud public, pas transférer les données d'expansion directement élastique, plus rapide grands objectifs de promotion plus rapide sous. Cette année DB un jeu global d'échecs, a terminé l'ajustement des ressources pour atteindre le site de stockage pour calculer le fournisseur d'électricité pour chaque mise à jour du schéma séparé, et à distance l'architecture multi-copie et déploiement flexible par X-DB, pour atteindre l'objectif de promouvoir l'élasticité.

    Sur la base sous-jacente Pangu DISTRIBUÉ mémoire partagée, l'élasticité n'a pas besoin de données Migrer, il vous suffit de monter le disque, la base de données peut être appliquée aussi rapidement que l'élasticité, de sorte qu'un groupe de 10 minutes pour terminer l'expansion élastique. Alors que le processus de mesure pleine de tension de liaison, les goulots d'étranglement de performance de l'entreprise, nous pouvons bombe côté blanc, bombe rapidement à une plus grande taille. capacité rapide flexible, toute grande promotion cette année des sites d'extension DB sont terminés dans les trois jours, ce qui est impossible dans le passé, c'est la séparation efficace de l'architecture de jauge de dépôt apporte.

    Enfin, grâce à la coopération de l'Ali Pangu interne, les réseaux, la planification, IDC et autre équipe, il est le soutien de tout le monde à rendre l'infrastructure base de données Ali afin de poursuivre la mise à niveau et d'améliorer l'efficacité et la compétitivité des coûts.

    La séparation de mise à niveau de l'infrastructure informatique de stockage de base de données, une réduction significative des coûts de grandes ressources de promotion. À l'heure actuelle, notre capacité de résistance est la capacité de tous les jours, prédit par les données, déclenche automatiquement l'expansion élastique, notre objectif est de faire des problèmes de capacité autonomes conduit à l'échec du passé.

    Ensuite, nous serons la plate-forme de développement intelligent pour la base de données, seule l'infrastructure est assez forte, assez rapide, flexible, élastique, jeu intelligent pour être efficace.

    [Pékin] participants Salon gratuit

    16 décembre Ali Baba 11 à double base de données Technology Summit Invite vous à un total de mots de mise à niveau et de transformation 10 ans de la technologie de base de données, nous allons partager double 11 base de données la plus récente conception et de l'expérience pratique, les défis d'interprétation, et le système de base de données de pensées des scénarios à haute concurrence ultra-grande échelle, avec un grand visage de vache de l'industrie de faire face dans le chat l'entreprise solutions de bases de données et les meilleures pratiques. Plein de produits secs, inscrivez-vous maintenant.

    Cliquez sur " https://jinshuju.net/f/bwDXdB », Vous pouvez vous inscrire gratuitement.

    Ou revenir à la voiture électrique? plans Toyota légende gravé arrière à moteur MR2 de voiture de sport
    Précédent
    Si elle est pleinement chargée en 10 minutes ...... Guangzhou Automobile pour résoudre la technologie de base des nouveaux véhicules d'énergie
    Prochain
    a déclaré réponse! La Liga avant Pa confirmer le parti à se joindre à Dalian, contre Barcelone chapeaux personne a frappé!
    Super controverse de reproduction Acte 1: VAR confirment TEDA a rejeté l'objectif, le juge de ligne signalé hors-jeu après cette expression est
    Données indique Manchester United une faiblesse de pénalité! Vladimir Jazz avait réprimandé Rooney, défenseur parce qu'une personne ne peut pas pratiquer la peine
    Il est tout simplement ignoré! Griffin: 22 + 6 suffisant? Épais sourcils frère: Je sais que vous avez fait de votre mieux!
    La plupart des soucis sur la vente de Mercedes-Benz GLC jouent également plus, les opposants à la somme Huangde!
    Parlez de la réduction des coûts de logistique et de l'aide de l'efficacité du développement du nouveau Transit a été honoré comme « 2017 la Chine voiture Logistique recommandé »
    Champions League revanche attendue? Dieu belle épée tenue un renversement de Manchester United, et il était sept années de difficultés, il a cassé!
    8 pour la première fois! Les équipes de la Coupe Advance en compétition 4 Vulcain, 8 victoires consécutives Evergrande veulent donner plus de 3 montagne
    Boge Ba et Mike Mussina semble avoir la réconciliation, bonne ambiance au sein de l'équipe! Boge Ba a déclaré que le retour de Manchester United comme à la maison pour toujours
    La survie ou la destruction? James Wong excité Detroit Metal City, parce que transporter trop, peut-être vraiment le fait du tort!
    = Rencontre avec une perte de temps? Ali équipe technique pour ouvrir ce projet sera re-set
    Chang Rui Cheng CC Guangzhou Motor Show, sur quelle base il peut se vanter de produits concurrents de classe B?