Comment Ali « pic avant l'expansion, après le pic de réduction du volume, » le rêve en réalité?

Ali sur REVIEW: Face à des instances de base de données et la taille de stockage est de plus en plus, les grands coûts de promotion, l'efficacité de la planification et d'autres problèmes, 2017, Ali a commencé l'application à petite échelle de la nouvelle architecture technologique - « pour stocker la séparation calculée », à moindre coût, un soutien très élastique la promotion.

2018, nous avons réalisé l'ampleur du déploiement de stockage informatique, la séparation des cellules entières. Mais en attendant, chaque besoin d'affaires à être fortement optimisé en fonction de leurs caractéristiques commerciales. En particulier dans le domaine des bases de données, et plus exigeant, plus difficile. Aujourd'hui, Lu Jian, hauts experts techniques de Ali stockage Division de la technologie, l'interprétation des 2018 paires dans 11 grande promotion, Ali comment briser les barrières techniques entre le stockage et le calcul en détail, afin d'obtenir sans déplacer de données à une expansion élastique souple percées technologiques.

Tout d'abord, 2017 Qu'avons-nous fait?

Je me souviens en 2017 quand le Dr Wang Jian avait convoqué tout le monde à savoir si « IDC comme un ordinateur » peut le faire, eu une discussion intense. Et pour ce faire, nous devons mettre en uvre le stockage informatique de séparation, de calcul et de stockage des ressources pour la planification indépendante par la liberté d'ordonnancement après la séparation. Dans tous les magasins de mise en uvre d'affaires de la séparation calculée, la base de données est la plus difficile. Parce que la base de données a une des exigences de stabilité très élevées pour la latence et E / S. Mais du point de vue de l'industrie, il est une des tendances de la technologie de l'avenir de l'informatique de stockage séparés, parce que, comme Google et clé Aurora ont été atteints.

Ainsi, en 2017, nous tenons la ferme conviction que, pour obtenir la séparation de l'informatique de stockage de base de données. En fait, nous l'avons fait en 2017, sur la base Pangu et AliDFS (branche CEPH), unité de stockage Zhangbei est calculée dans un ours séparé 10% du volume de négociation. 2017 est une base de données pour stocker calculée pour obtenir la séparation de la première année, 2018 à grande échelle de calcul pour obtenir une séparation de stockage et de jeter des bases solides.

En second lieu, la percée 2018?

Si 2017 est stocké dans la base de données pour obtenir la séparation de calcul année révolutionnaire, alors 2018 est la poursuite de la performance ultime de l'année, mais aussi du test au déploiement à grande échelle d'une année, peut-on imaginer les défis techniques. En 2017, sur la base 2018 encore plus difficile, le besoin de stocker plus haute performance informatique isolé, universel, commun et simple.

2018, afin que je séparer la base de données pour stocker les performances calculées / O et le débit le plus élevé, puisque nous avons un mode utilisateur système de fichiers en cluster RECHERCHE DADI DSBF. Nous, ce qui permet la base de données du groupe Séparés par la technologie de précipitation à DADI DSBF userland unité de stockage de calcul de la taille de la transaction de fichiers en cluster complet. Ensuite, devenir un des produits de stockage de la classe moyenne, DSBF a fait les innovations technologiques?

2.1 Technologie mode utilisateur

2.1.1 copie "ZERO"

Nous directement par le mode utilisateur, by-pass du noyau, réaliser chemin E / S « zéro » copie. Évitez la copie en dehors du noyau nucléaire, de sorte que le débit et les performances ont une très forte augmentation.

Lorsqu'il est utilisé en mode noyau passé, il y aura deux copie des données, une copie des données des services de traitement en mode utilisateur au noyau, une copie du noyau processus de transfert de réseau en mode utilisateur. Ces deux copies aura une incidence sur le débit global et la latence.

Après mode de coupe à l'utilisateur natif, le modèle que nous avons utilisé pour les demandes de demande d'E / S transmission de vote. En plus de la CPU à la consommation de mode de scrutin, nous utilisons la technologie de sommeil d'adaptation, ce qui ralenti, ne perdez pas les ressources de base.

2.1.2 RDMA

En outre, les DBFS stocker Gu conjonction avec la technologie RDMA pour échanger des données directement, pour fermer le retard de SSD local et un débit plus élevé, de sorte que ceci est un temps de latence faible pour les I / O réseau peut être isolé sous la forme d'un calcul de stockage de masse base solide. Cette année, le groupe a participé à une grande promotion de la grappe RDMA, on peut dire est le plus important en termes de taille d'un groupe de l'industrie.

2.2 Page cache

Pour TAMPON E / S capacités pour atteindre, nous obtenons un cache de page séparée. Page cahce en utilisant l'algorithme LRU basé comptage tactile. Signification de l'introduction du comptage tactile est pour une meilleure intégration avec les caractéristiques d'E / S de la base de données. Parce que la base de données ont souvent de grandes analyses de table et d'autres actes, nous ne voulons pas utiliser cette page de données basse fréquence LRU laver l'efficacité. Nous toucherons compter sur la page pour déplacer le côté chaud et laisser refroidir côté.

Taille de la page de page de cache peut être configuré, lorsqu'il est combiné avec la taille de la page de la base de données, il jouera une meilleure efficacité du cache. DSBF le cache de pages ont généralement les fonctionnalités suivantes:

  • Sur la base de la page de comptage tactile le processus de migration côté chaud et froid
  • La proportion des extrémités chaude et froide peut être configuré en tant que rapport de courant chaud et froid de 2: 8
  • taille de page configurable, associée à la page de base de données de configuration optimisée
  • Multi tesson, augmenter la concurrence, la capacité globale peut être organisée

2,3 E / S asynchrones

Pour améliorer le débit E / S de la base de données, la plupart des bases de données utilisent E / S asynchrones Nous devons être les caractéristiques d'E / S compatibles de la couche supérieure de la base de données pour atteindre I / O. asynchrone Caractéristiques E / S asynchrones:

  • la mise en uvre de file d'attente sans verrouillage
  • Configurable profondeur E / S, permet un contrôle précis des retards pour différentes bases de données de type I / O
  • adaptatif d'interrogation, ce qui réduit la consommation de l'unité centrale

2,4 écriture atomique

Afin de faire en sorte que la base de données ne semble pas lorsque l'écriture d'écriture partielle page, DSBF réaliser la fonction d'écriture atomique. Les DSBF à base InnoDB, peuvent en toute sécurité désactiver la double tampon d'écriture, de sorte que le nombre stocké dans des bases de données séparées à 100% d'économies de bande passante.

De plus, comme PostgreSQL en utilisant un tampon d'E / S, évite aussi le problème des pages manquantes dans la page sales PG rencontres sporadiques flush.

2.5 Redimensionner en ligne

Afin d'éviter l'expansion provoquée la migration des données, dBfs combinée avec le Pangu sous-jacente atteindre un volume Redimensionner en ligne. DSBF a son propre allocateur bitmap, utilisé pour gérer l'espace de stockage sous-jacent. Nous allocateur bitmap est optimisé hiérarchie du système de fichiers a verrou Redimensionner libre de sorte que le service de couche supérieure peut être expansion destructrice et efficace des entreprises à tout moment, complètement supérieur au système de fichiers ext4 traditionnel.

Soutenir Redimensionner en ligne, en évitant le gaspillage d'espace de stockage, car il n'y a pas de réserve 20% de l'espace de stockage, vous pouvez le faire avec l'expansion avec l'écriture.

Ce qui suit est un bitmap lorsque le processus d'expansion du changement:

2.6 TCP et RDMA coupe croisée

base de données RDMA dans le groupe d'introduction à grande échelle d'utilisation est également un très grand points de risque, DSBF mis en uvre conjointement avec le Pangu RDMA et TCP coupent fonctions pour et un processus d'échange de lien dans l'ensemble de l'exercice, de sorte que le risque peut être RDMA dans la plage de contrôle, la garantie de la stabilité plus parfaite.

De plus, DSBF, équipe Pangu et réseau pour RDMA effectué beaucoup de mesure de la pression de la capacité de l'eau, des exercices de dysfonctionnement et d'autres travaux, il a fait un très bien préparé pour le plus grand RDMA en ligne de l'industrie.

2.7 en 2018 pour promouvoir le déploiement d'un grand

Dans les percées technologiques et faire des recherches après, mis au point par dBfs tâche ardue de promouvoir le lien complet grand défi et double l'examen « onzième », il a une nouvelle fois démontré la faisabilité d'un stockage séparé et informatique tendances technologiques globales.

Troisièmement, les unités de stockage d'outils DSBF

En plus des fonctions ci-dessus en tant que système de fichiers doit être mis en uvre en dehors, dBfs aussi met en uvre de nombreuses fonctionnalités que plus l'utilisation commerciale de marque DSBF plus universelle, la facilité d'utilisation, plus stable et plus sûr.

3.1 précipitations techniques et plein d'énergie

Nous toutes les fonctions et l'innovation technique sous la forme du produit précipité dans les DSBF que dBfs possible d'obtenir un meilleur accès permettant de trafic vers différents supports de stockage sous la forme du mode utilisateur sous-jacent, énergisant obtenir plus de bases de données stockant la séparation calculée.

3.1.1 compatible POSIX

Afin de soutenir l'activité de base de données actuelle, nous Posix compatible avec la plupart de l'interface de fichier commun pour faciliter l'accostage de l'entreprise de base de données supérieure. Il est également atteint cache de page, E / S asynchrone et écriture atomique, etc., fournit une riche de l'activité de base de données la capacité d'E / S. De plus, nous avons aussi réalisé les interfaces glibc, support pour les flux de manutention et de traitement fichier. Les deux interfaces support, ce qui simplifie grandement la complexité de l'accès aux bases de données, ce qui augmente la facilité d'utilisation dBfs cette base de données DSBF peut prendre en charge plus d'affaires.

partie posix nous ne sommes plus familiers est plus, ce qui suit est seulement une partie des interfaces glibc pour référence:

// Interface glibc

FILE * fopen (constchar * chemin, constchar * Mode);

FILE * fdopen (int fd, constchar * Mode);

size_t fread (void * ptr, taille size_t, size_t nmemb, FILE * stream);

size_t fwrite (ptr constvoid de *, la taille size_t, size_t nmemb, flux FILE *);

intfflush (FILE * flux);

intfclose (FILE * flux);

intfileno (FILE * flux);

intfeof (FILE * flux);

intferror (FILE * flux);

voidclearerr (FILE fil d'*);

intfseeko (FILE * flux, off_t offset, int où);

intfseek (FILE * flux, longue de décalage, d'où int);

off_t ftello (FILE * stream);

longftell (FILE * flux);

voidrewind (FILE * flux);

3.1.2 Fusible obtenir

En outre, pour être compatible avec l'écosystème Linux, nous avons réalisé le fusible, pour passer à travers l'interaction de VFS. Le fusible est introduit de telle sorte que l'utilisateur, sans tenir compte de la performance ultime et ne peut exiger aucun accès aux modifications du code DSBF, améliorant grandement la facilité d'utilisation. De plus, il facilite grandement le fonctionnement et l'entretien des opérations traditionnelles.

3.1.3 capacités de service

DSBF recherche depuis les composants shmQ, mémoire interne partagée des communications basées sur l'IPC, tirant ainsi à travers ce pour l'architecture de processus basée sur PostgreSQL et l'architecture de soutien-thread à base MySQL, ce qui rend DSBF plus de polyvalence et de la sécurité, fournir une base solide pour l'avenir de mise à niveau en ligne.

shmQ pas de verrou pour atteindre d'excellentes performances et le débit des performances, de l'essai en cours, dans la base de données 16K et d'autres grandes pages à la latence de contrôle d'accès dans certains d'entre nous. Service et soutien de l'architecture multi-processus, les performances et la stabilité actuelle conforme aux attentes.

3.1.4 Cluster File System

fonction de cluster DSBF est une autre caractéristique importante de grande, formant une base de données sur le mode disque partagé, des échelles, des ressources informatiques de façon linéaire des économies de coûts de stockage pour le service. En outre, le schéma de base de données disque partagé fournit également la capacité rapide élastique, mais a également amélioré considérablement la commutation rapide de la SLA. Système de fichiers de cluster fournit un réinscriptible et la capacité d'écriture multi-points, et de jeter une base solide pour la base de données de disques partagés et l'architecture de rien partagé. Par rapport aux OCFS traditionnels, nous sommes en mode utilisateur pour obtenir de meilleures performances, plus d'auto-contrôle. OCFS est fortement dépendante du VFS Linux, car il n'y a pas de cache de page séparée et ainsi de suite.

DBFS prend en charge un mode d'écriture multi-lecture, en fournissant une variété de rôles en option (M / S), il peut y avoir une plus noeud S M noeuds en utilisant les données partagées, M et S noeud accès au noeud commun des données Pangu. La base de données de couche supérieure M / S noeud limité, l'accès M-noeud pour les données est lisible et inscriptible du noeud d'accès de données S est en lecture seule. Si la base de données primaire échoue, il sera commuté. À partir de l'étape de commutation:

  • les indicateurs de suivi d'affaires apparaissent lorsque la sonde a constaté que nud M ne peut pas accéder ou anormal, de prise de décision, si vous voulez passer.
  • Si vous passez, initié par la direction et la plate-forme de contrôle-commande de commutation, passer la commande se termine, au nom de DSBF et la commutation de rôle de base de données supérieure se produit ont été complétées.
  • Dans le processus de commutation DBFS, le plus important est l'action clôture IO, par l'interdiction initiale de noeud M IO capacité à empêcher le double des circonstances.

Lors de l'écriture effectue multi DSBF contrôle global de tous Metalock nuds, optimisation de l'allocation de groupe de bloc. Aussi impliqué sera l'algorithme basé sur le disque de quorum, le contenu est plus complexe, ils ne seront pas faire des déclarations détaillées.

3.2 matériels et logiciels

Avec l'avènement du nouveau support de stockage, au moyen de sa base de données est appelée à jouer une meilleure performance ou optimisation à moindre coût, et la maîtrise de soi pour atteindre les supports de stockage sous-jacents.

Intel plans du point de vue des supports de stockage, de la performance à la capacité, formeront AEP, Optane SSD et ces trois produits, et dans la direction de grande capacité, et il y aura l'émergence de CTQ. Ainsi, la performance globale et le point de vue des coûts, nous nous sentons Optane est un produit de cache relativement bonne. Nous avons choisi comme la tête DSBF la persistance de la mise en uvre filecache.

3.2.1 cache de fichiers persistant

DSBF mis en uvre sur la base Optane de la fonction de cache persistante locale, de sorte que le nombre stocké dans l'étape de séparation plus proche de lire et à améliorer les performances d'écriture de la base de données. cache de fichiers afin d'obtenir la disponibilité de la production, faire beaucoup de travail, tels que:

  • Stable et fiable dépannage
  • dynamique de soutien activer et désactiver
  • l'équilibrage de charge du support
  • Soutenir les mesures de collecte et de performance affichage
  • données Soutien gommage de la décision correcte

Soutenir ces fonctions, et de jeter une base solide pour la stabilité de la ligne. Dans lequel Optane pour un mode d'emploi I / O en tant que pure technologie SPDK, les DBFS de liaison de Fusion moteur VHOST atteint. Taille de la page cache de fichiers peut être configuré de manière optimale en fonction de la taille du bloc supérieur de la base de données, afin d'obtenir les meilleurs résultats.

Ce qui suit est le schéma d'architecture de cache de fichiers:

Ce qui suit est les données test de revenu lu et les gains de performance d'écriture:

Avec l'est caractérisé en ce obtenu « cache » à base filecache. Avec la performance globale du taux de succès, la lecture de retard a commencé à décliner. De plus, nous nous sommes concentrés sur le cache de fichiers, les nombreux indicateurs surveillés de performance.

3.2.2 Open Channel SSD

X-Engine et DSBF et Fusion Collaborate Moteur d'équipe pour plus construire système de stockage auto-contrôlé basé sur l'objet SSD. SSD pour réduire l'usure et d'améliorer le débit SSD et de réduire les interférences entre eux dans des domaines tels que la lecture et l'écriture, menée en profondeur l'exploration et la pratique, ont obtenu de très bons résultats. Maintenant, combiner stratégie de stockage multi-niveaux X-Engine, ouvrir la voie à lire et à écrire, et nous attendons avec impatience l'étape suivante plus en profondeur la recherche et le développement de stockage intelligent.

IV Résumé et perspectives

2018 DSBF a été un soutien massif pour le X-DB pour stocker le soutien de formulaire distinct calculé « 11.11 » grande promotion, en même temps ADS permettant d'atteindre une réinscriptible capacité Tair et ainsi de suite.

Tout en soutenant les entreprises, DSBF se tirer à travers le processus avec le soutien MySQL architecture PG-thread, ouvrez l'interface VFS pour assurer la compatibilité avec l'écosystème Linux pour devenir des produits de stockage de la classe moyenne dans le vrai sens - état du fichier utilisateur de cluster système. l'intégration future de combinaison du matériel et des logiciels supplémentaires, stockage multi-niveaux, la technologie permettant NVMeoF plusieurs bases de données pour atteindre sa valeur plus grande.

Enfin, faire ad ~ bienvenue à se joindre à l'équipe de la division Storage DSBF! La technologie de stockage Division est une composante importante Ali Infrastructure Business Group, fournissant hautement évolutive, Alibaba écologique de haute performance dans le grand groupe d'affaires, les services de stockage communs facile à utiliser. Il existe des produits de stockage de classe mondiale et de la technologie, a une masse d'utilisateurs et de grand défi technique. Bienvenue dans la boutique, le matériel et les logiciels, les systèmes de fichiers, systèmes distribués ou base de données d'expérience étudiants Contactez-nous reprendre la méthode de livraison: jianshu.ljs@alibaba-inc.com.

Mike Mussina avec un bon effet de forcer Manchester United ce double avantage! Accélérer l'infraction, mais aussi aider à acheter la fenêtre d'hiver
Précédent
« Deux-onze » est à venir! Comment acheter une voiture, il semble forcer une grille complète?
Prochain
Le modèle de classe 3 Super League produit: 4 équipe championne, six équipes deviendront le Showstopper, six équipes sont relégation Légion
Rumeurs Terminator! relation « Ambigu » entre l'essence et la couleur de la qualité de l'huile
Après un traditionnel Quintessence de l'art moderne ×: voir « apparition » de la façon dont débuts transfrontalière
Juste, l'escrime élite du monde classique bonne de nouvelles, a remporté le championnat quatre universités chinoises!
Petit prop les Lakers de retour au pot? 22 + 6 cachez son embarras, l'autre entraîneur ne pouvait pas supporter!
Pourquoi est-champion des ventes de Harvard SUV H6? Après ouvert, vous comprendrez!
Il y a au moins cinq buts dans les six super locaux: Luneng grande surprise Titans, Wu Lei exclusive manqué un record
exploration Volkswagen Yue guide des acheteurs: Venez voir quelle meilleure valeur de configuration!
Remplissez le trou à creuser Dépasser coup de poing! Durant: comment gagner? Gregg: Nous avons essayé!
Choisissez une voiture comme la petite amie de l'élection, des éléments clés trop grand, sentir la chaleur avait assez!
Super 3 stylo exposition des transactions invisibles! L'ancien gardien de but de football national a rejoint Yatai, le jour où la mer a reçu un grand calibre
Le roi de la source voler la vedette! Jianye balle absolument plat a été soufflé hors l'arbitre, ce qui est arrivé exactement avant Hu Jing Suspendez objectifs?