Secret! centre de donn�es Ali r�duire consid�rablement le co�t des technologies de base: service de la technologie hybride

Ali soeur: Recension section est un m�lange? Les groupes mixtes, diff�rents types de t�ches planifi�es sur les m�mes ressources physiques, la planification, l'isolement des ressources et d'autres moyens de contr�le, bas� sur la protection des SLO, la capacit� � utiliser pleinement des ressources, de r�duire consid�rablement les co�ts, nous appelons cette technologie unit� de m�lange (Co-loaction).

R�sum� de l'arri�re-plan

Derri�re le miracle deux � onze chaque ann�e, il est un �norme co�t des intrants. Pour compl�ter le soutien du trafic de pointe, nous avons besoin de beaucoup de ressources informatiques, et en temps de paix, ces ressources est souvent ralenti. D'autre part, pour, dans les cas extr�mes, tels que des pannes de courant et une autre pi�ce enti�re peut garantir aucune perte de l'activit� de Alibaba, ont �galement besoin de construire des ressources redondantes dans le pays. Et m�me si un jour la charge entre les services en ligne ne sont pas les m�mes, il est beaucoup plus �lev� que le matin le lendemain des circonstances normales. Selon les donn�es de l'enqu�te Geithner et McKinsey des ann�es pr�c�dentes, l'utilisation du processeur, serveur global seulement 6% � 12%. M�me avec la technologie de virtualisation pour optimiser le taux d'utilisation est encore seulement 7% -17%, tandis que les services en ligne Alibaba taux d'utilisation quotidienne moyenne globale est �galement environ 10%.

D'autre part, l'�re informatique mondiale de plein � l'�re DT, et maintenant le passage � l'�re plus profonde AI. Chaque vari�t� de grands volumes de donn�es cadre de traitement �mergeant de Hadoop � Spark, de Jstorm � Flink, y compris m�me l'�mergence d'un cadre d'apprentissage profond tensorflow de milliers d'analyse de donn�es est � l'origine d'un grand nombre de t�ches informatiques, en prenant beaucoup de ressources informatiques . En raison de la grande quantit� de t�ches de calcul occup�, le niveau d'eau du processeur est g�n�ralement sup�rieure � 50% -60%, � la diff�rence des services en ligne, les t�ches de calcul de pointe se produit en g�n�ral le matin, le niveau d'eau peut m�me atteindre 70%. Par cons�quent, nous aurons tendance � �tablir une des t�ches informatiques de cluster ind�pendants.

Beaucoup de gens ont �t� bloqu�s par une voiture, et l'embouteillage, toutes les voies sont bloqu�es � la circulation. Il y a un cas plus int�ressant, nous appelons les mar�es, et le probl�me est qu'il est caus� par la direction de la ville � l'heure de pointe du matin, quand les embouteillages, et pointe du soir est la direction du bloc de la ville. Pour rem�dier � ce probl�me, nous avons utilis� le chemin de la voie de mar�e.

Ensuite, le m�me principe, que si nous faisons deux groupes de d�ploiement mixte, de sorte qu'une partie de la t�che des t�ches informatiques sur les ressources est all� � un service en ligne, l'utilisation des services en ligne des ressources libres ensemble? La r�ponse est oui.

D�partement mixte Pr�sentation technique

art mixte coupe sch�matique

Les groupes mixtes, diff�rents types de t�ches planifi�es sur les m�mes ressources physiques, la planification, l'isolement des ressources et d'autres moyens de contr�le, bas� sur la protection des SLO, la capacit� � utiliser pleinement des ressources, de r�duire consid�rablement les co�ts, nous appelons cette technologie unit� de m�lange (Co-loaction).

M�taphoriquement, en cours d'ex�cution dans le conteneur de services en ligne comme des pierres et des t�ches de calcul nous d�signons comme le sable et l'eau. Quand une petite pression en ligne lors du calcul des t�ches pour occuper ces lacunes, les ressources inutilis�es � utiliser, et lorsque la ligne est occup�e, les t�ches informatiques retirer imm�diatement ces lacunes, les ressources en ligne pour des transactions commerciales. Cette technologie d'une part en temps de paix, nous pouvons am�liorer consid�rablement l'utilisation des ressources et, d'autre part, � un moment o� la n�cessit� de promouvoir les activit�s de l'augmentation soudaine serveur en ligne, mais aussi par t�ches informatiques d'affaires en ligne prennent la voie des ressources pour r�sister � cette br�ve pression maximale.

En principe, nous pouvons voir que la t�che peut �tre ensemble mixte en partie deux des caract�ristiques les plus importantes:

1. Vous pouvez donner la priorit�: N�cessairement faible t�che prioritaire, ils peuvent �tre comme l'eau et le sable, comme, pr�t � se d�barrasser de, et non affect� par insupportable, de sorte que les t�ches prioritaires non perturb�es. Caract�ristiques en ligne sont: pression maximale est pas longue, plus sensible � un retard, la gigue plus puissante pression d'affaires, g�n�ralement de 10 heures du matin, que les activit�s poly-co�t, il sera dans une tr�s courte p�riode de temps, mettre la pression sur un moment clusters n�gociation a augment� de 10 fois, pour les besoins de stabilit� sont tr�s �lev�s, � la partie de temps du m�lange, il est n�cessaire d'assurer la bonne ligne, nous devons avoir une forte capacit� d'anti-brouillage. Et caract�ris� par des t�ches de calcul: g�n�ralement une pression relativement �lev�e, la quantit� de calcul est relativement retard commandable sensible et, apr�s l'�chec peut �tre r�-ex�cution. Au moins prendre quelques minutes pour terminer les t�ches de calcul, par opposition � quelques secondes ou dizaines de secondes de retard et aucun probl�me s�rieux, pour ne citer que le r�le de l'eau de roulement et de sable.

2. La consommation de ressources compl�mentaires: Les deux t�ches ne sont pas le m�me niveau d'occupation � diff�rents moments. Tels que les services en ligne sont g�n�ralement relativement faible, relativement �lev� lorsque grande promotion, relativement faible le matin, pendant la journ�e est relativement �lev�e. Les t�ches de calcul sont, � leur tour, le plus souvent relativement �lev�, vous pouvez revenir en grande promotion, le matin est tr�s �lev� pendant la journ�e et doivent �tre plus bas.

R�duction des co�ts induits de cette mani�re est �norme: Supposons qu'il y ait utilisation du serveur central de donn�es N est pass� de R1 � R2, sans tenir compte d'autres contraintes pratiques, station d'�conomie X, la formule id�ale est donc:

N * R1 = (N-X) * R2

= > �X * R2 = N * R2 - N * R1

= > �X = N * (R2-R1) / R2

Cela signifie que s'il y a 10 millions de serveurs, pour am�liorer le taux d'utilisation de 28% � 40%, substitu� dans l'�quation ci-dessus, nous pouvons sauver une machine 30000. Supposons une machine co�te 20000 $, les �conomies auront 6 millions.

2015, Google a publi� un Borg papiers, qui mentionne l'op�ration hybride entre les services en ligne et des t�ches informatiques, qui est, disons-nous, m�lange technique. papier Borg d�crit Google En raison de cette technologie, les �conomies Google de 20% � 30% de la taille de la machine.

Proc�d� section de m�lange de l'art

Alibaba d�but architecture cloud hybride

Nous savons tous que cette transaction Alibaba deux � onze pointe cette ann�e est 325.000 bits par seconde, par rapport � une augmentation de presque doubl� l'an dernier, mais ce pic �tait seulement d'environ 1 heure. Afin de r�duire les co�ts de transaction, depuis le d�but de l'ann�e 2014, alors que nous r�duisons les co�ts gr�ce � des ressources en nuage �lastique cloud public Ali, il a �galement commenc� � �tudier service technique comp�tent mixte.

D�partement mixte peut produire une grande aide, mais l'industrie ne peut pas �tre utilis� dans la production de plusieurs entreprises, la raison est tr�s simple, la premi�re est l'�chelle, le second est le seuil technique. Lorsque votre machine lorsque l'�chelle est pas assez grande, apparemment peu d'importance. Et sur le plan technique, les t�ches de calcul peuvent souvent aller tr�s forte utilisation, si les t�ches de calcul et les entreprises en ligne bas� en cours d'ex�cution sur la m�me machine, comment �viter la t�che de calcul ne fonctionne pas le temps de r�ponse du service en ligne et d'autres indicateurs cl�s n'ont pas beaucoup d'impact, la n�cessit� d'avoir une gamme compl�te de perc�es techniques, tandis que Ali Baba � partir de z�ro, il a fallu plus de quatre ans pour permettre � la technologie d'atterrissage � grande �chelle dans le domaine des affaires �lectrique .

En 2014, notre travail principal est de r�aliser des �tudes de faisabilit� technique, la conception du projet, ainsi que des �tudes exp�rimentales pertinentes
D'ici 2015, nous avons commenc� � tester l'environnement de test de routine. R�sumons cette p�riode bon nombre de questions: les questions d'int�gration telles que la planification, la s�gr�gation de la concurrence des ressources, les probl�mes de d�pendance de stockage, les probl�mes de m�moire insuffisante, etc.
D'ici 2016, lorsque nous avons mis la plupart des probl�mes sont r�solus, nous avons ouvert environ 200 v�rifications � petite �chelle en ligne. En tant que fournisseur d'�lectricit� ses attributs financiers, en particulier pour les besoins de l'immunit� de bruit �lev�, essai sous activit� continue, nous r�visons constamment les solutions techniques
2017, apr�s une ann�e de fonctionnement, toute la partie technique du m�lange finalement deviennent matures et la production � grande �chelle. A onze Baba deux d'entre eux, le d�bit est d'environ 1/5 en cours d'ex�cution sur la portion de m�lange de cluster

partie de m�lange non miscible ressource de cluster contraste partie la figure

Dans les situations de tous les jours, l'utilisation du processeur, nous pouvons mettre services en ligne grappes de 10% de la partie non-mixte � plus de 40% pour la partie mixte de l'ensemble des �conomies de co�ts de plus de 30%. La perturbation en ligne � moins de 5%.

partie de m�lange partie Immiscible tableau comparatif group� de temps de r�ponse moyen de service

partie architecture de planification de m�lange

Architecture d'ordonnancement portion de m�lange de diagramme

Dans le groupe d'unit� de m�lange, deux de notre plate-forme de programmation �galement g�r� de fa�on autonome, la gestion sigma de distribution de service en ligne de conteneurs, et des t�ches informatiques sur les ODPS de gestion Fuxi. Pour que ces deux ordonnanceurs peuvent travailler ensemble au milieu des ressources que nous utilisons pour coordonner la r�partition entre les deux couches de contr�le de la couche z�ro z�ro.

1. Sigma planificateur de conteneur de services en ligne est caract�ris� par:

Kubernetes compatible avec l'API et la communaut� open source pour construire
�Ali est compatible avec l'utilisation de conteneurs standard BEC Pouch
Ali a connu de nombreuses ann�es d'utilisation � grande �chelle d'authentification et deux � onze

2. Calculer le planificateur de t�ches Fuxi se caract�rise par:

application complexe pour l'informatique � grande �chelle et de traitement de type de donn�es massif
Fournit un ensemble de donn�es conduit � plusieurs �tages en pipeline cadres de calcul parall�le MapReduce compatible, MapReduce-fusion, en cascade, FlumeJava autre mode de programmation sur la capacit� d'exprimer
�volutivit�, le soutien � plus de cent mille t�ches de parall�lisme niveau en t�te de programmation peut �tre optimis� en fonction du r�seau de distribution de donn�es. Le syst�me d�tecte automatiquement les pannes et chaud, nouvelle tentative a �chou�, t�che d'assurer un fonctionnement fiable et stable est termin�e

3. Le m�canisme de coordination des ressources � travers la couche z�ro, de sorte que l'ensemble du cluster et le bon d�roulement r�ussi � venir:

Mixte D�partement de gestion du cluster
rapport d'ordonnancement de ressources entre les locataires
strat�gie quotidienne et mesurer la pression et autre grande p�riode de promotion
la d�tection et le traitement d'anomalie

partie d'isolation des ressources mixtes

Dans la section de m�lange, la premi�re place est le probl�me d'isolation des ressources, isoler le probl�me sinon bien fait, les questions de concurrence ne sont pas r�solus, il est facile de provoquer la ligne de probl�mes. Plus l�ger, ce qui permet aux utilisateurs de l'exp�rience sensorielle pire, un peu plus lourd, provoquant une d�faillance de la ligne, les effets ind�sirables ne peut pas servir.

Et les ressources pour r�soudre la question de la concurrence, principalement du d�part deux aspects:

1. Planification: Le portrait des ressources techniques, la concurrence pour les ressources avant de r�ellement se produire, a pr�dit un bon plan pour minimiser la probabilit� que cela se produise. Il est un d�clencheur actif, nous pouvons continuer � optimiser, mais une latence plus �lev�e.

2. Noyau: dans les cas extr�mes, la concurrence pour les ressources r�ellement pass�, selon la priorit� de la t�che, la fa�on de faire � la fois pour prot�ger les t�ches de haute priorit� ne sera pas affect�e, mais aussi pour le contr�le t�che de faible priorit� de la blessure la plus faible affect�e. Il est un �l�ment d�clencheur passif, la s�curit� � la fin doit �tre des moyens de prendre rapidement effet.

Sur le calendrier, nous optimisons principalement des aspects suivants:

1. Le multiplex temporel quotidien: En raison de la pr�sence de pics et de vall�es, des services en ligne et des t�ches informatiques � la pointe du jour pour produire la situation compl�mentaire, afin que nous puissions r�utiliser une utilisation plus efficace des ressources en partageant la nuit pendant la journ�e.

Portrait des ressources en munitions utilis�es
Service en ligne le matin 1-6 points pour pic bas, hors heures de pointe, r�glez le niveau d'eau pour cette fonction
Le choix du r�cipient � vide dans la ressource de service en ligne de traitement hors ligne EFFECTUER portrait intelligent

2. Une grande promotion est multiplex�e dans le temps: classe affaires �lectrique des affaires en raison de la pr�sence de la grande promotion, la grande promotion ou de la pression mesur�e � plusieurs reprises produira dix fois plus �lev�e que la diff�rence de pression normale, si cette fois les ressources des t�ches informatiques downgrade donner pleinement du service en ligne, vous pouvez facilement soutenir cette br�ve pression d'impulsion.

jour normal, la t�che des ressources informatiques occup� par le service en ligne
Etat Big promotion, services en ligne EMPREINTE des t�ches informatiques
1 heure ach�vement rapide du transfert, afin d'am�liorer l'utilisation des ressources

3. d�classement lossy sans perte: Services en ligne ont des heures de pointe d'affaires sp�cifiques, telles que la mesure de la pression, comme grande promotion et ainsi de suite. Comment r�trograder lors du calcul des t�ches, l'impact le plus faible possible, il? Ici nous avons besoin de faire un traitement sp�cial de d�classer le programme.

d�classement Lossless: Comme l'utilisation moyenne NC des services en ligne n'est pas �lev�, plus 70% des t�ches informatiques de moins de 3 minutes, ou aussi longtemps que la pression mesur�e dans les grandes pro-cinq minutes apr�s le d�classement, calcul des t�ches pour le service en ligne ne sera pas interf�rer avec si grand. Un autre probl�me est reprise faire la minute, de sorte que seulement lorsque le pic r�el des services en ligne sera affect�e, et cette p�riode est plus courte, l'impact sera r�duit.
d�classement Lossy: Lorsque les services en ligne ont �t� gravement touch�s, et nous pouvons faire le deuxi�me niveau de la tuer, la r�cup�ration rapide, de sorte que l'impact des services en ligne au minimum.

4. S�lectionnez les t�ches informatiques: t�ches de calcul nous comparaient le sable, mais le sable est aussi un petit, mais aussi la n�cessit� de sable

Child projet�, afin de combler le vide rempli mais pas d�border.

Portrait des ressources d'emploi utilis�es, le travail n�cessite des ressources analytiques consomm�es.
Pour obtenir la capacit� des ressources de calcul h�te exacte couche restante par 0
S�lection des meilleurs emplois qualifi�s, le plus possible, autant que possible pour r�duire la concurrence.

5. La m�moire �lastique dynamique: Parce que nos ressources en actions et ne prennent pas en unit� de m�lange, la m�moire et CPU sont conformes � l'utilisation originale du rapport de service en ligne, et il n'y a pas de surplus de m�moire, mais � cause de l'augmentation du calcul, la m�moire est devenue un goulot d'�tranglement services en ligne d'origine statique Alloue de la m�moire n'est plus appropri�.

Les services en ligne se joindre � une m�moire de paquets partag�e
Bas� sur l'utilisation de la m�moire r�elle des services en ligne, la m�moire ajuste dynamiquement les t�ches de calcul du niveau d'eau occup�
Quand une augmentation soudaine de la pression des services en ligne, gr�ce � la migration ou tuer la t�che, d�classement du niveau d'eau automatique des t�ches informatiques de m�moire. Apr�s des t�ches de calcul lib�rer la m�moire, le noyau imm�diatement recyclage,
Lorsque le cas se produit OOM, t�che de faible priorit� � tuer t�che prioritaire de calcul

6. Le calcul du stockage s�par�: le service en ligne est un IOPS important, mais pas la quantit� de stockage, l'utilisation de SSD sont des petites capitalisations et les t�ches de calcul sont quantit� de stockage lourd, mais peu IOPS, donc l'utilisation du march� du disque dur est . Et quand la partie de m�lange, si le disque local ou d'une mani�re de traiter les donn�es, le calcul ensemble mixte, la complexit� de la programmation est exponentielle am�lior�e. Nous avons donc besoin de mettre en pool de stockage unifi� disque local virtuel, par le biais d'un acc�s � distance n'est pas le m�me dispositif de stockage en fonction des diff�rents besoins. En outre, Ali a �galement commenc� la construction � grande �chelle de l'infrastructure r�seau 25G, afin d'am�liorer la capacit� de l'ensemble du r�seau, mais aussi de devenir l'acc�s � distance aussi vite que localement.

l'isolement de base, nous traitons principalement les aspects suivants:

1. Optimisation de la planification du processeur: Ceci est parmi les plus importants de l'isolement, lorsque la pression augmente d'affaires en ligne en utilisant la CPU, milliseconde des t�ches de calcul doit �tre sortie auto-adaptatif.

CPU pr�emption

CGroup selon assigner une priorit� (cpu.shares)

t�che prioritaire peut moduler le temps de travail plus faible priorit� tranche

�viter HT (bruit propre)

HT �viter la t�che d'ordonnancement des t�ches hors ligne � c�t� en ligne

veiller � ce que la t�che a �t� en cours d'ex�cution pour la d�placer apr�s la suite de t�ches en ligne sur HT adjacente

L3 Cache Isolation

pour contr�ler le trafic de cache accessible par le biais des propri�t�s CPU BDW de CAT, puis

Limite d'occupation de la CPU faible des t�ches informatiques prioritaires.

l'isolement de la bande passante de m�moire

M�moire Surveillance de bande passante, pour surveiller l'ajustement de strat�gie en temps r�el par

calculer la longueur de la puce de r�glage de fonctionnement de la t�che de contr�le de largeur de bande CFS. En r�duisant la tranche de temps,

Alors que les t�ches prioritaires plus facile l'acc�s � l'unit� centrale de traitement � forte intensit�.

2. Protection de la m�moire

l'isolement de r�cup�ration de m�moire

la distribution CGroup en fonction des priorit�s diff�rentes

augmenter dans le m�canisme du groupe de r�cup�ration pour �viter toute interf�rence des t�ches de r�cup�ration de la m�moire globale en ligne

d�terminer la priorit� des poids de r�cup�ration de la m�moire, la t�che de m�moire en ligne recycl� moins

priorit� OOM

Lorsque la machine OOM, donner la priorit� � tuer des t�ches de faible priorit�

3. IO restrictions de notation

niveau fichier IO isolement de largeur de bande (limite sup�rieure)

nouvelle interface de commande de blkio

limite IOPS, BPS

protection au niveau des fichiers � faible bande passante (limite inf�rieure)

permet aux applications d'utiliser l'exc�dent d�passe la bande passante minimale garantie de bande passante au ralenti;

acc�l�rateur de m�tadonn�es

limiter certaines op�rations op�rations m�tadonn�es, telles que supprimer disponible un grand nombre de petits fichiers.

4. Le contr�le du trafic r�seau

l'isolement de la bande passante

largeur de bande natif isol� (TC)

largeur de bande poche d'isolement entre le r�cipient

le partage de la bande passante (or, argent, cuivre)

il peut y avoir partage de bande passante entre en ligne

inter-processus conform�ment � la priorit� peut anticiper la largeur de bande

D�partement de la planification mixte avenir

service technique mixte apr�s quatre ann�es de formation, et enfin en 2017 pour soutenir les 20% d'Alibaba deux � onze flux de transactions de base, et aussi en tant que technologie standard Alibaba future construction du centre de donn�es. Dans l'ann�e � venir, le minist�re de la technologie se m�langera � une �volution des capacit�s de planification plus raffin�s.

Sur la sc�ne, sera plus diversifi�, � la fois le calcul en temps r�el, ou le GPU, m�me le FPGA, peuvent �tre partie mixte ensemble. Sur l'�chelle, le niveau de base sera �tendu 1-1000000 p�le regroupement au niveau de base. capacit� de portrait en termes de ressources, pr�sentera plus l'apprentissage en profondeur, am�liorer la pr�cision des pr�visions, jetant les bases de l'utilisation am�lior�e de mani�re significative � nouveau. Sur les capacit�s de planification, nous mettrons en place un syst�me plus complet des priorit�s, et non pas aux services en ligne et des t�ches informatiques � des diff�rences dans l'allocation des ressources et la coordination, mais dans la planification g�n�rale de priorit�, l'unit� type de ressource m�lange r�soudre plus de probl�mes. Pour r�sumer, laisser le m�lange devenir vraiment partie d'une capacit� de planification commune.

Route de la soie

Apprenez � conna�tre la Chine

Secret! centre de donn�es Ali r�duire consid�rablement le co�t des technologies de base: service de la technologie hybride