Secret! centre de données Ali réduire considérablement le coût des technologies de base: service de la technologie hybride

Ali soeur: Recension section est un mélange? Les groupes mixtes, différents types de tâches planifiées sur les mêmes ressources physiques, la planification, l'isolement des ressources et d'autres moyens de contrôle, basé sur la protection des SLO, la capacité à utiliser pleinement des ressources, de réduire considérablement les coûts, nous appelons cette technologie unité de mélange (Co-loaction).

Résumé de l'arrière-plan

Derrière le miracle deux à onze chaque année, il est un énorme coût des intrants. Pour compléter le soutien du trafic de pointe, nous avons besoin de beaucoup de ressources informatiques, et en temps de paix, ces ressources est souvent ralenti. D'autre part, pour, dans les cas extrêmes, tels que des pannes de courant et une autre pièce entière peut garantir aucune perte de l'activité de Alibaba, ont également besoin de construire des ressources redondantes dans le pays. Et même si un jour la charge entre les services en ligne ne sont pas les mêmes, il est beaucoup plus élevé que le matin le lendemain des circonstances normales. Selon les données de l'enquête Geithner et McKinsey des années précédentes, l'utilisation du processeur, serveur global seulement 6% à 12%. Même avec la technologie de virtualisation pour optimiser le taux d'utilisation est encore seulement 7% -17%, tandis que les services en ligne Alibaba taux d'utilisation quotidienne moyenne globale est également environ 10%.

D'autre part, l'ère informatique mondiale de plein à l'ère DT, et maintenant le passage à l'ère plus profonde AI. Chaque variété de grands volumes de données cadre de traitement émergeant de Hadoop à Spark, de Jstorm à Flink, y compris même l'émergence d'un cadre d'apprentissage profond tensorflow de milliers d'analyse de données est à l'origine d'un grand nombre de tâches informatiques, en prenant beaucoup de ressources informatiques . En raison de la grande quantité de tâches de calcul occupé, le niveau d'eau du processeur est généralement supérieure à 50% -60%, à la différence des services en ligne, les tâches de calcul de pointe se produit en général le matin, le niveau d'eau peut même atteindre 70%. Par conséquent, nous aurons tendance à établir une des tâches informatiques de cluster indépendants.

Beaucoup de gens ont été bloqués par une voiture, et l'embouteillage, toutes les voies sont bloquées à la circulation. Il y a un cas plus intéressant, nous appelons les marées, et le problème est qu'il est causé par la direction de la ville à l'heure de pointe du matin, quand les embouteillages, et pointe du soir est la direction du bloc de la ville. Pour remédier à ce problème, nous avons utilisé le chemin de la voie de marée.

Ensuite, le même principe, que si nous faisons deux groupes de déploiement mixte, de sorte qu'une partie de la tâche des tâches informatiques sur les ressources est allé à un service en ligne, l'utilisation des services en ligne des ressources libres ensemble? La réponse est oui.

Département mixte Présentation technique

art mixte coupe schématique

Les groupes mixtes, différents types de tâches planifiées sur les mêmes ressources physiques, la planification, l'isolement des ressources et d'autres moyens de contrôle, basé sur la protection des SLO, la capacité à utiliser pleinement des ressources, de réduire considérablement les coûts, nous appelons cette technologie unité de mélange (Co-loaction).

Métaphoriquement, en cours d'exécution dans le conteneur de services en ligne comme des pierres et des tâches de calcul nous désignons comme le sable et l'eau. Quand une petite pression en ligne lors du calcul des tâches pour occuper ces lacunes, les ressources inutilisées à utiliser, et lorsque la ligne est occupée, les tâches informatiques retirer immédiatement ces lacunes, les ressources en ligne pour des transactions commerciales. Cette technologie d'une part en temps de paix, nous pouvons améliorer considérablement l'utilisation des ressources et, d'autre part, à un moment où la nécessité de promouvoir les activités de l'augmentation soudaine serveur en ligne, mais aussi par tâches informatiques d'affaires en ligne prennent la voie des ressources pour résister à cette brève pression maximale.

En principe, nous pouvons voir que la tâche peut être ensemble mixte en partie deux des caractéristiques les plus importantes:

1. Vous pouvez donner la priorité: Nécessairement faible tâche prioritaire, ils peuvent être comme l'eau et le sable, comme, prêt à se débarrasser de, et non affecté par insupportable, de sorte que les tâches prioritaires non perturbées. Caractéristiques en ligne sont: pression maximale est pas longue, plus sensible à un retard, la gigue plus puissante pression d'affaires, généralement de 10 heures du matin, que les activités poly-coût, il sera dans une très courte période de temps, mettre la pression sur un moment clusters négociation a augmenté de 10 fois, pour les besoins de stabilité sont très élevés, à la partie de temps du mélange, il est nécessaire d'assurer la bonne ligne, nous devons avoir une forte capacité d'anti-brouillage. Et caractérisé par des tâches de calcul: généralement une pression relativement élevée, la quantité de calcul est relativement retard commandable sensible et, après l'échec peut être ré-exécution. Au moins prendre quelques minutes pour terminer les tâches de calcul, par opposition à quelques secondes ou dizaines de secondes de retard et aucun problème sérieux, pour ne citer que le rôle de l'eau de roulement et de sable.

2. La consommation de ressources complémentaires: Les deux tâches ne sont pas le même niveau d'occupation à différents moments. Tels que les services en ligne sont généralement relativement faible, relativement élevé lorsque grande promotion, relativement faible le matin, pendant la journée est relativement élevée. Les tâches de calcul sont, à leur tour, le plus souvent relativement élevé, vous pouvez revenir en grande promotion, le matin est très élevé pendant la journée et doivent être plus bas.

Réduction des coûts induits de cette manière est énorme: Supposons qu'il y ait utilisation du serveur central de données N est passé de R1 à R2, sans tenir compte d'autres contraintes pratiques, station d'économie X, la formule idéale est donc:

N * R1 = (N-X) * R2

= >  X * R2 = N * R2 - N * R1

= >  X = N * (R2-R1) / R2

Cela signifie que s'il y a 10 millions de serveurs, pour améliorer le taux d'utilisation de 28% à 40%, substitué dans l'équation ci-dessus, nous pouvons sauver une machine 30000. Supposons une machine coûte 20000 $, les économies auront 6 millions.

2015, Google a publié un Borg papiers, qui mentionne l'opération hybride entre les services en ligne et des tâches informatiques, qui est, disons-nous, mélange technique. papier Borg décrit Google En raison de cette technologie, les économies Google de 20% à 30% de la taille de la machine.

Procédé section de mélange de l'art

Alibaba début architecture cloud hybride

Nous savons tous que cette transaction Alibaba deux à onze pointe cette année est 325.000 bits par seconde, par rapport à une augmentation de presque doublé l'an dernier, mais ce pic était seulement d'environ 1 heure. Afin de réduire les coûts de transaction, depuis le début de l'année 2014, alors que nous réduisons les coûts grâce à des ressources en nuage élastique cloud public Ali, il a également commencé à étudier service technique compétent mixte.

Département mixte peut produire une grande aide, mais l'industrie ne peut pas être utilisé dans la production de plusieurs entreprises, la raison est très simple, la première est l'échelle, le second est le seuil technique. Lorsque votre machine lorsque l'échelle est pas assez grande, apparemment peu d'importance. Et sur le plan technique, les tâches de calcul peuvent souvent aller très forte utilisation, si les tâches de calcul et les entreprises en ligne basé en cours d'exécution sur la même machine, comment éviter la tâche de calcul ne fonctionne pas le temps de réponse du service en ligne et d'autres indicateurs clés n'ont pas beaucoup d'impact, la nécessité d'avoir une gamme complète de percées techniques, tandis que Ali Baba à partir de zéro, il a fallu plus de quatre ans pour permettre à la technologie d'atterrissage à grande échelle dans le domaine des affaires électrique .

  • En 2014, notre travail principal est de réaliser des études de faisabilité technique, la conception du projet, ainsi que des études expérimentales pertinentes

  • D'ici 2015, nous avons commencé à tester l'environnement de test de routine. Résumons cette période bon nombre de questions: les questions d'intégration telles que la planification, la ségrégation de la concurrence des ressources, les problèmes de dépendance de stockage, les problèmes de mémoire insuffisante, etc.

  • D'ici 2016, lorsque nous avons mis la plupart des problèmes sont résolus, nous avons ouvert environ 200 vérifications à petite échelle en ligne. En tant que fournisseur d'électricité ses attributs financiers, en particulier pour les besoins de l'immunité de bruit élevé, essai sous activité continue, nous révisons constamment les solutions techniques

  • 2017, après une année de fonctionnement, toute la partie technique du mélange finalement deviennent matures et la production à grande échelle. A onze Baba deux d'entre eux, le débit est d'environ 1/5 en cours d'exécution sur la portion de mélange de cluster

partie de mélange non miscible ressource de cluster contraste partie la figure

Dans les situations de tous les jours, l'utilisation du processeur, nous pouvons mettre services en ligne grappes de 10% de la partie non-mixte à plus de 40% pour la partie mixte de l'ensemble des économies de coûts de plus de 30%. La perturbation en ligne à moins de 5%.

partie de mélange partie Immiscible tableau comparatif groupé de temps de réponse moyen de service

partie architecture de planification de mélange

Architecture d'ordonnancement portion de mélange de diagramme

Dans le groupe d'unité de mélange, deux de notre plate-forme de programmation également géré de façon autonome, la gestion sigma de distribution de service en ligne de conteneurs, et des tâches informatiques sur les ODPS de gestion Fuxi. Pour que ces deux ordonnanceurs peuvent travailler ensemble au milieu des ressources que nous utilisons pour coordonner la répartition entre les deux couches de contrôle de la couche zéro zéro.

1. Sigma planificateur de conteneur de services en ligne est caractérisé par:

  • Kubernetes compatible avec l'API et la communauté open source pour construire

  •  Ali est compatible avec l'utilisation de conteneurs standard BEC Pouch

  • Ali a connu de nombreuses années d'utilisation à grande échelle d'authentification et deux à onze

2. Calculer le planificateur de tâches Fuxi se caractérise par:

  • application complexe pour l'informatique à grande échelle et de traitement de type de données massif

  • Fournit un ensemble de données conduit à plusieurs étages en pipeline cadres de calcul parallèle MapReduce compatible, MapReduce-fusion, en cascade, FlumeJava autre mode de programmation sur la capacité d'exprimer

  • évolutivité, le soutien à plus de cent mille tâches de parallélisme niveau en tête de programmation peut être optimisé en fonction du réseau de distribution de données. Le système détecte automatiquement les pannes et chaud, nouvelle tentative a échoué, tâche d'assurer un fonctionnement fiable et stable est terminée

3. Le mécanisme de coordination des ressources à travers la couche zéro, de sorte que l'ensemble du cluster et le bon déroulement réussi à venir:

  • Mixte Département de gestion du cluster

  • rapport d'ordonnancement de ressources entre les locataires

  • stratégie quotidienne et mesurer la pression et autre grande période de promotion

  • la détection et le traitement d'anomalie

partie d'isolation des ressources mixtes

Dans la section de mélange, la première place est le problème d'isolation des ressources, isoler le problème sinon bien fait, les questions de concurrence ne sont pas résolus, il est facile de provoquer la ligne de problèmes. Plus léger, ce qui permet aux utilisateurs de l'expérience sensorielle pire, un peu plus lourd, provoquant une défaillance de la ligne, les effets indésirables ne peut pas servir.

Et les ressources pour résoudre la question de la concurrence, principalement du départ deux aspects:

1. Planification: Le portrait des ressources techniques, la concurrence pour les ressources avant de réellement se produire, a prédit un bon plan pour minimiser la probabilité que cela se produise. Il est un déclencheur actif, nous pouvons continuer à optimiser, mais une latence plus élevée.

2. Noyau: dans les cas extrêmes, la concurrence pour les ressources réellement passé, selon la priorité de la tâche, la façon de faire à la fois pour protéger les tâches de haute priorité ne sera pas affectée, mais aussi pour le contrôle tâche de faible priorité de la blessure la plus faible affectée. Il est un élément déclencheur passif, la sécurité à la fin doit être des moyens de prendre rapidement effet.

Sur le calendrier, nous optimisons principalement des aspects suivants:

1. Le multiplex temporel quotidien: En raison de la présence de pics et de vallées, des services en ligne et des tâches informatiques à la pointe du jour pour produire la situation complémentaire, afin que nous puissions réutiliser une utilisation plus efficace des ressources en partageant la nuit pendant la journée.

  • Portrait des ressources en munitions utilisées

  • Service en ligne le matin 1-6 points pour pic bas, hors heures de pointe, réglez le niveau d'eau pour cette fonction

  • Le choix du récipient à vide dans la ressource de service en ligne de traitement hors ligne EFFECTUER portrait intelligent

2. Une grande promotion est multiplexée dans le temps: classe affaires électrique des affaires en raison de la présence de la grande promotion, la grande promotion ou de la pression mesurée à plusieurs reprises produira dix fois plus élevée que la différence de pression normale, si cette fois les ressources des tâches informatiques downgrade donner pleinement du service en ligne, vous pouvez facilement soutenir cette brève pression d'impulsion.

  • jour normal, la tâche des ressources informatiques occupé par le service en ligne

  • Etat Big promotion, services en ligne EMPREINTE des tâches informatiques

  • 1 heure achèvement rapide du transfert, afin d'améliorer l'utilisation des ressources

3. déclassement lossy sans perte: Services en ligne ont des heures de pointe d'affaires spécifiques, telles que la mesure de la pression, comme grande promotion et ainsi de suite. Comment rétrograder lors du calcul des tâches, l'impact le plus faible possible, il? Ici nous avons besoin de faire un traitement spécial de déclasser le programme.

  • déclassement Lossless: Comme l'utilisation moyenne NC des services en ligne n'est pas élevé, plus 70% des tâches informatiques de moins de 3 minutes, ou aussi longtemps que la pression mesurée dans les grandes pro-cinq minutes après le déclassement, calcul des tâches pour le service en ligne ne sera pas interférer avec si grand. Un autre problème est reprise faire la minute, de sorte que seulement lorsque le pic réel des services en ligne sera affectée, et cette période est plus courte, l'impact sera réduit.

  • déclassement Lossy: Lorsque les services en ligne ont été gravement touchés, et nous pouvons faire le deuxième niveau de la tuer, la récupération rapide, de sorte que l'impact des services en ligne au minimum.

4. Sélectionnez les tâches informatiques: tâches de calcul nous comparaient le sable, mais le sable est aussi un petit, mais aussi la nécessité de sable

Child projeté, afin de combler le vide rempli mais pas déborder.

  • Portrait des ressources d'emploi utilisées, le travail nécessite des ressources analytiques consommées.

  • Pour obtenir la capacité des ressources de calcul hôte exacte couche restante par 0

  • Sélection des meilleurs emplois qualifiés, le plus possible, autant que possible pour réduire la concurrence.

5. La mémoire élastique dynamique: Parce que nos ressources en actions et ne prennent pas en unité de mélange, la mémoire et CPU sont conformes à l'utilisation originale du rapport de service en ligne, et il n'y a pas de surplus de mémoire, mais à cause de l'augmentation du calcul, la mémoire est devenue un goulot d'étranglement services en ligne d'origine statique Alloue de la mémoire n'est plus approprié.

  • Les services en ligne se joindre à une mémoire de paquets partagée

  • Basé sur l'utilisation de la mémoire réelle des services en ligne, la mémoire ajuste dynamiquement les tâches de calcul du niveau d'eau occupé

  • Quand une augmentation soudaine de la pression des services en ligne, grâce à la migration ou tuer la tâche, déclassement du niveau d'eau automatique des tâches informatiques de mémoire. Après des tâches de calcul libérer la mémoire, le noyau immédiatement recyclage,

  • Lorsque le cas se produit OOM, tâche de faible priorité à tuer tâche prioritaire de calcul

6. Le calcul du stockage séparé: le service en ligne est un IOPS important, mais pas la quantité de stockage, l'utilisation de SSD sont des petites capitalisations et les tâches de calcul sont quantité de stockage lourd, mais peu IOPS, donc l'utilisation du marché du disque dur est . Et quand la partie de mélange, si le disque local ou d'une manière de traiter les données, le calcul ensemble mixte, la complexité de la programmation est exponentielle améliorée. Nous avons donc besoin de mettre en pool de stockage unifié disque local virtuel, par le biais d'un accès à distance n'est pas le même dispositif de stockage en fonction des différents besoins. En outre, Ali a également commencé la construction à grande échelle de l'infrastructure réseau 25G, afin d'améliorer la capacité de l'ensemble du réseau, mais aussi de devenir l'accès à distance aussi vite que localement.

l'isolement de base, nous traitons principalement les aspects suivants:

1. Optimisation de la planification du processeur: Ceci est parmi les plus importants de l'isolement, lorsque la pression augmente d'affaires en ligne en utilisant la CPU, milliseconde des tâches de calcul doit être sortie auto-adaptatif.

CPU préemption

CGroup selon assigner une priorité (cpu.shares)

tâche prioritaire peut moduler le temps de travail plus faible priorité tranche

éviter HT (bruit propre)

HT éviter la tâche d'ordonnancement des tâches hors ligne à côté en ligne

veiller à ce que la tâche a été en cours d'exécution pour la déplacer après la suite de tâches en ligne sur HT adjacente

L3 Cache Isolation

pour contrôler le trafic de cache accessible par le biais des propriétés CPU BDW de CAT, puis

Limite d'occupation de la CPU faible des tâches informatiques prioritaires.

l'isolement de la bande passante de mémoire

Mémoire Surveillance de bande passante, pour surveiller l'ajustement de stratégie en temps réel par

calculer la longueur de la puce de réglage de fonctionnement de la tâche de contrôle de largeur de bande CFS. En réduisant la tranche de temps,

Alors que les tâches prioritaires plus facile l'accès à l'unité centrale de traitement à forte intensité.

2. Protection de la mémoire

l'isolement de récupération de mémoire

la distribution CGroup en fonction des priorités différentes

augmenter dans le mécanisme du groupe de récupération pour éviter toute interférence des tâches de récupération de la mémoire globale en ligne

déterminer la priorité des poids de récupération de la mémoire, la tâche de mémoire en ligne recyclé moins

priorité OOM

Lorsque la machine OOM, donner la priorité à tuer des tâches de faible priorité

3. IO restrictions de notation

niveau fichier IO isolement de largeur de bande (limite supérieure)

nouvelle interface de commande de blkio

limite IOPS, BPS

protection au niveau des fichiers à faible bande passante (limite inférieure)

permet aux applications d'utiliser l'excédent dépasse la bande passante minimale garantie de bande passante au ralenti;

accélérateur de métadonnées

limiter certaines opérations opérations métadonnées, telles que supprimer disponible un grand nombre de petits fichiers.

4. Le contrôle du trafic réseau

l'isolement de la bande passante

largeur de bande natif isolé (TC)

largeur de bande poche d'isolement entre le récipient

le partage de la bande passante (or, argent, cuivre)

il peut y avoir partage de bande passante entre en ligne

inter-processus conformément à la priorité peut anticiper la largeur de bande

Département de la planification mixte avenir

service technique mixte après quatre années de formation, et enfin en 2017 pour soutenir les 20% d'Alibaba deux à onze flux de transactions de base, et aussi en tant que technologie standard Alibaba future construction du centre de données. Dans l'année à venir, le ministère de la technologie se mélangera à une évolution des capacités de planification plus raffinés.

Sur la scène, sera plus diversifié, à la fois le calcul en temps réel, ou le GPU, même le FPGA, peuvent être partie mixte ensemble. Sur l'échelle, le niveau de base sera étendu 1-1000000 pôle regroupement au niveau de base. capacité de portrait en termes de ressources, présentera plus l'apprentissage en profondeur, améliorer la précision des prévisions, jetant les bases de l'utilisation améliorée de manière significative à nouveau. Sur les capacités de planification, nous mettrons en place un système plus complet des priorités, et non pas aux services en ligne et des tâches informatiques à des différences dans l'allocation des ressources et la coordination, mais dans la planification générale de priorité, l'unité type de ressource mélange résoudre plus de problèmes. Pour résumer, laisser le mélange devenir vraiment partie d'une capacité de planification commune.

Âgé de 38 ans Coupe d'Asie Zheng au revoir! Après les fans de jeu, les larmes ne veulent pas s'inclina hors de contrôle
Précédent
Pourquoi quand le producteur « ville flottante en mer »? Jia Zhangke: dépeint les vicissitudes de la vie
Prochain
jeu intérieur « ICEY » atterrissage vert style cyberpunk rythme rapide
Star de Manchester United une crise, et a été remplacé après que les ventilateurs commandés Hurry! Il ne peut pas blâmer que l'équipe Mourinho
Une dépendance excessive sur la navigation automobile, aurait des conséquences horribles? !
Cent cinquante mille berline de niveau, la sélection de passage Ling ou Civic?
Yan valeur ultra-haute de livres Penguin à nouveau « voler de l'argent » it! Les livres seront en mesure de jouer aux machines à capsules, tous bâtis autour de ne pas envoyer à vendre | 2018 Shanghai
effondré monde! Cole gagner très en colère, perdre Tailun Lu a été un grand sourire!
équipe chinoise a perdu dans l'un de son peuple! 3 gardes sont lavés, Macy digne Iran
Vous ne savez pas « Manuel Ali Baba Java Development » derrière l'histoire
Coupe du Monde Ballon d'Or trois cuit au four le plus populaire: le successeur de Zidane pour diriger, Mu Bapei ont une chance
Manchester United données Premiership vont arriver en bas! Mike Mussina tactiques de point d'appui de la superstition, il gagne sur Manchester United à l'avant centre Pa
Pourquoi peut-il très attendu berline de taille moyenne en Chine?
voiture nationale bien-être: les plus beaux paysages et la voiture la plus appropriée (les articles du Yunnan-Guizhou)