Micro-canal ouvert PhxQueue: haute disponibilit�, une fiabilit� �lev�e, � haute performance file d'attente distribu�e

Auteur | Liang Junjie

Modifier | Ash

PhxQueue est un protocole Paxos micro-canal open-source bas� haute disponibilit�, un d�bit �lev� et la file d'attente distribu�e tr�s fiable, d'assurer le At-moins-Une fois la livraison, largement soutenue par un certain nombre d'importants services de paiement micro-canaux, plate-forme publique � l'int�rieur du micro-canal.

Adresse Open Source

https://github.com/Tencent/phxqueue

Message Queue Pr�sentation

Comme les files d'attente de messages matures pour la communication asynchrone, mode de communication synchrone contraste utilis�, pr�sente les avantages suivants:

D�couplage: Pr�venir l'introduction de pose API trop un risque pour la stabilit� du syst�me, appelant une mauvaise utilisation du syst�me sera la pression sur l'appelant, l'appelant n'est pas manipul� correctement va r�duire la capacit� de r�pondre au syst�me de l'appelant.

D�tourage et le contr�le de flux: sans bloquer les producteurs de message, �clat� tampon de message dans la file d'attente, le consommateur la possibilit� de lire le message r�el.

Multiplexage: une publication multi-abonnement.

naissance de fond PhxQueue

file d'attente vieux

L'utilisation pr�coce des micro-canaux file d'attente distribu�e (appel�e file d'attente d'h�ritage) est un �l�ment important dans les coulisses micro lettre d'auto-d�veloppement, largement utilis� dans une vari�t� de sc�narios d'affaires, pr�voyant le d�couplage des affaires, cache, etc. capacit�s asynchrones.

Quorum NRW vieux file d'attente en tant que m�canisme de synchronisation, o� N = 3, R = W = 2, la plaque porte-balais disque de brosse de mani�re asynchrone, en tenant compte de la performance et de disponibilit�.

De nouvelles exigences

Avec le d�veloppement des entreprises, am�liorer l'acc�s � des types d'activit�, l'ancienne file d'attente est apparu progressivement insuffisants, les principaux probl�mes sont les suivants:

Disque de brosse asynchrone, la fiabilit� des donn�es inqui�tante

Pour les services li�s aux paiements, assurer la fiabilit� des donn�es sont des besoins primaires. La plupart des programmes sont distribu�s file d'attente de r�plication asynchrone + disque Brosse pour assurer la fiabilit� des donn�es, mais nous pensons besoin de mettre en brosse Synchronize pour am�liorer encore la fiabilit� des donn�es.

Sur probl�me d'ordre

Une partie de l'entreprise fait une demande tout � fait ordonn�e, mais ne garantit pas l'ordre de NRW, incapable de r�pondre � la demande.

En outre, il y a aussi une ancienne file d'attente de re-�quipe, d'autres aspects doivent �tre am�lior�s d'�quilibrage de charge. Il nous a amen�s � consid�rer tous ces nouveaux programmes.

Le manque de solutions de l'industrie

Kafka grand champ de donn�es est utilis� dans la file d'attente de messages, d'abord par l'utilisation de Scala LinkedIn d�veloppement du langage, comme flux d'activit� LinkedIn syst�me de suivi et de traitement des op�rations � base de pipeline de donn�es.

Son d�bit �lev�, l'�quipe de reprise apr�s incident automatique hors d'usage et d'autres caract�ristiques, l'utilisation a attir� de nombreuses entreprises joue un r�le important dans la collecte des donn�es, des sc�narios de transmission, voir Powerd par Kafka.

Mais nous enqu�te compl�te de Kafka, en ce que son accent sur la fiabilit� de la sc�ne de donn�es, moins que ce qui suit:

Contradictoires performances Kafka et la plaque de balai de synchronisation

Dans la configuration ouverte Kafka log.flush.interval.messages = 1, apr�s avoir ouvert les caract�ristiques de synchronisation de la plaque de brosse, le d�bit diminuerait de fa�on spectaculaire. Ce ph�nom�ne est caus� par les facteurs suivants:

SSD �criture amplification

La taille moyenne des nouvelles entreprises sur le nombre de 1k. SSD plus petite unit� d'un disque de brosse pour une taille de page, une taille de 4k. Lorsque le message Kafka de taille insuffisante pour 4k plaque de brosse, la quantit� de donn�es est en fait �crit � la taille physique du message plusieurs fois. Causer des ressources de l'�criture sur le disque dur sont gaspill�es.

effet de lot � la production n'est pas bon sur les lieux d'affaires

Kafka lot de producteur, tout simplement, est emball� avec une pluralit� de messages envoy�s au courtier, il est largement utilis� dans les grands sc�narios de donn�es. Logiquement, assez d'effet de lot pour �tre en mesure de compenser l'impact de l'amplification en �criture. Cependant, le sc�nario service de messagerie diff�re des donn�es du journal de production produites dans les grands sc�narios, chaque demande de service requis dans le contexte en file d'attente d'un syst�me d'affaires s�par�es, un grand lot difficile. M�me si l'agent couche suppl�mentaire entre l'entreprise et courtier, producteur transf�r� dans le lot de couche proxy, mais aussi parce que la couche d'agent de nombreux nuds, l'effet de lot est difficile � am�liorer, ce qui entra�ne une amplification d'�criture ne peut pas �tre compens�e.

Le manque de Kafka replica conception synchrone

Kafka replica conception synchrone br�ve:

chef Kafka Broker conservera sa synchronisation de liste de suiveur de piste, la liste est appel�e ISR (c.-�-synchronisation de r�plication). Si un suiveur est vers le bas, ou trop derri�re, le leader sera retir� de la RSR.

Le mode synchrone synchrone accent sur l'efficacit�, mais des performances l�g�rement moins en termes de facilit� d'utilisation:

Courtier basculent le taux de r�ussite du processus de d�clin grave

Dans le sc�nario 3 r�pliques, r�partis uniform�ment sur chaque courtier Leader, tombe en panne courtier, cela signifie que 1/3 du chef, hors ligne suiveur, le taux de r�ussite en lecture gouttes:

Pour chef hors ligne de partition, temporairement incapable de lire et d'�crire, besoin d'attendre pour r�cup�rer apr�s contr�leur �lire un nouveau chef;
Pour la partition hors ligne suiveur, temporairement aussi incapable de lire et d'�crire, il faut attendre un certain laps de temps (selon replica.lag.time.max.ms, 10s par d�faut) apr�s, suiveur de faute leader enlev� pour r�cup�rer de l'ISR.

En d'autres termes, lorsque l'un du courtier �choue, lisez le taux de r�ussite baissera � z�ro sur une p�riode de temps.

La synchronisation de retard d�termin� par le plus lent nud

Dans le sc�nario de r�plication synchrone, tous les nuds doivent attendre des retours ack.

En comparant les performances de r�pliques Kafka et Paxos, nous croyons de mani�re synchrone Paxos est un meilleur choix:

Par cons�quent, nous avons bas� sur l'ancienne file d'attente, un accord Paxos avec la transformation de la logique de synchronisation, et effectu� un certain nombre d'optimisation de synchronisation pour inclure plaque de brosse, compl�te PhxQueue.

PhxQueue Pr�sentation

PhxQueue actuellement largement pris en charge dans le salaire micro-canal micro-canal un certain nombre d'affaires importantes, plate-forme publique, moyenne quotidienne dans l'�quipe de centaines de milliards de minutes au sommet de l'�quipe de 100 millions.

Le point de d�part est la conception de haute fiabilit� des donn�es, la haute disponibilit� et un d�bit �lev� sans perte, tout en soutenant une vari�t� de caract�ristiques de file d'attente commune.

PhxQueue prend en charge les fonctionnalit�s suivantes:

plaque de brosse de synchronisation, l'�quipe est certainement pas la perte de donn�es, est livr� avec un rapprochement � temps r�el interne
acc�s strict et ordonn� � l'�quipe
Abonnez-vous � plusieurs
La limite de vitesse d'�quipe
L'�quipe de relecture
Tous les modules peuvent �tre extension parall�le
couche de stockage en vrac brosse � disque, synchrone, garantissant un d�bit �lev�
couche de stockage prend en charge le d�ploiement de la ville multi-centre
reprise apr�s incident de la couche de stockage automatique / �galiseur acc�s
Les consommateurs reprise apr�s incident automatique / �quilibrage de charge

PhxQueue Conception

Architecture globale

PhxQueue par les cinq modules suivants.

Store - stockage de file d'attente

stockage de file d'attente de magasin en tant que biblioth�que PhxPaxos pr�senter � copier protocole Paxos pour la synchronisation. Tant que le nud majoritaire et le travail d'interconnexion, la coh�rence peut fournir des services de lecture et d'�criture lin�aire.

Afin d'am�liorer la fiabilit� des donn�es, la synchronisation de la plaque de brosse activ� par d�faut et les caract�ristiques des performances en tant que disque de brosse beaucoup asynchrone.

En termes de facilit� d'utilisation, la banque une pluralit� de groupes de Paxos ind�pendants, chaque groupe de Paxos ma�tre uniquement lire et services d'acc�s en �criture, g�n�ralement r�partie uniform�ment dans les noeuds ma�tre dynamique magasin, l'acc�s de compensation de pression, les nuds ma�tres passent automatiquement � l'autre la catastrophe nud disponible.

Producteur - Producteur

Producteur en tant que producteurs de message, le message en fonction des principales d�cisions de routage des magasins. Ils les m�mes messages d'itin�raire par d�faut � la m�me file d'attente, nous nous assurons le m�me ordre et la s�quence enqueue dequeue.

Consommateur - Consommateur

Consommateurs En tant que consommateurs, de mani�re � tirer le message en vrac du tirage magasin prend en charge plusieurs de mani�re traitement par lots message coroutine.

services � la consommation comme une trame de service, de mani�re � obtenir une fonction de rappel de l'utilisateur, en fonction de diff�rents th�mes (sujet), diff�rents types de traitement (Handler) d�finissent une logique de traitement de message sp�cifique.

Planificateur - Gestionnaire des consommateurs (d�ploiement en option)

Le r�le du planificateur est que la consommation a recueilli des informations de charge globale, consommateurs pour faire la reprise apr�s incident et d'�quilibrage de charge. Lorsque l'utilisateur fait ce besoin d'�tre d�ploy� Scheduler omis, chaque poids d�termination du consommateur traitement selon la relation de configuration entre les poids de file d'attente.

Une fois d�ploy� Scheduler, dirigeant Scheduler et tout Conusmer maintenir le rythme cardiaque, tout en collectant des informations de charge du consommateur, relation inverse � la consommation avec la file d'attente de traitement de r�glage.

Lorsque le leader Scheduler est en panne, Planificateur Fiez service distribu� de verrouillage suite � l'�lection d'un nouveau chef, n'est pas disponible pendant affecte uniquement l'�quilibrage de la reprise apr�s incident � la consommation et la charge, n'affectent pas la consommation normale de la consommation.

Lock - Distribu� (D�ploiement en option)

Lock est un verrou distribu�, sa conception d'interface est tr�s universelle, l'utilisateur peut choisir de verrouiller le d�ploiement ind�pendant, fournir un service de verrouillage distribu� commun.

r�le verrouillage PhxQueue dans les deux points suivants:

�lection Scheduler en tant que chef;

traiter simultan�ment une pluralit� de files d'attente � pr�venir la consommation.

Lock est �galement le d�ploiement du module optionnel:

Si d�ploy� Scheduler, le Planificateur doit d�ployer Lock est �lu chef;
Dans le cas contraire, si le service est pas sensible � la consommation r�p�t�e, vous pouvez choisir de ne pas d�ployer Lock.

Renvoi au sc�nario de consommation est r�p�t� ici: si omis si le d�ploiement Scheduler, un ensemble de files d'attente qui peuvent n�cessiter des processus de consommation en configuration de lecture; file d'attente lorsqu'il y a un changement (par exemple, la r�duction file d'attente d'expansion), un changement de configuration de chaque machine doit Consumer l� apr�s, ce temps peut �tre diff�rent dans chaque vous en m�me temps des consommateurs voir l'�tat de configuration, ce qui conduit � une p�riode de temps les deux se consid�rent comme des consommateurs consomment la m�me file d'attente, ce qui entra�ne une duplication des d�penses. d�ploiement de verrouillage pour �viter la duplication des d�penses dans ce sc�nario. (Notez que m�me sans le d�ploiement de verrouillage, la sc�ne a provoqu� que la consommation r�p�t�e, sans provoquer la consommation de trouble)

processus de r�plication de magasin

PhxQueue R�pliques Store par accord PhxPaxos.

PhxPaxos ex�cution du projet est subdivis� en trois couches: couche d'application est responsable du traitement des demandes de service, la couche de Paxos les ex�cute le processus de synchronisation, une couche de machine d'�tat pour mettre � jour l'�tat du service.

Dans lequel, la proposition de initi�s de la couche application, paxos couche de chaque protocole de paxos de noeud termin� identifier conjointement un paxos b�che, apr�s quoi la machine d'�tat � paxos journal comme une entr�e pour la transition d'�tat, le service de mise � jour d'�tat, et renvoie les r�sultats de transition d'�tat � la couche d'application. La couche �tait �tat coh�rent, plus la contribution des paxos m�mes couches, g�n�re la m�me transition d'�tat, une pluralit� de noeuds afin d'assurer une forte uniforme.

nous PhxPaxos ici mettre en uvre une couche � base machine � �tats de file d'attente, il est n�cessaire de faire la cartographie des concepts suivants:

Ce mod�le ne comporte pas une modification de donn�es de file d'attente, il est une collection ordonn�e de donn�es et Paxos log d�finitions comme, de sorte que vous pouvez rendre les donn�es directement dans l'�quipe Paxos loch, mais l'�tat n'a besoin que d'enregistrer Paxos s�quence connecter.
id instance strictement les caract�ristiques de plus en plus de telle sorte qu'il peut �tre facilement d�plac� en file d'attente.
File d'attente avant de lire les donn�es de d�calage, les donn�es qui peuvent �tre supprim�s, ce qui est conforme � la d�finition du point de contr�le.

Queue machine d'�tat, et la rencontre d'ensemble et de Paxos.

Store Group Commit - disque brosse copie efficace et synchronis�e

Unoptimized accord Paxos n'a pas r�solu le probl�me de synchronisation du disque brosse amplification en �criture. En outre, une copie de synchronisation efficace que Kafka.

La raison en est qu'une copie de la masse de flux de synchronisation de Kafka, et le protocole Paxos est paxos connectent des unit�s synchrone, synchronisation de t�te de s�rie chaque journal de paxos est un RTT + 1 fois la plaque porte-balais.

cela conduira � un maximum th�orique TPS unique groupe Paxos de seulement 250 en sc�ne plus que le d�ploiement DC, de retard ping jusqu'� 4ms,.

Nous d�ployons un groupe multi-Paxos et Groupe COMMIT fa�on de r�soudre simultan�ment le probl�me de synchronisation du disque brosse �criture et l'amplification Paxos d�bit probl�mes.

Comme indiqu� ci-dessus, nous avons d�ploy� un groupe paxos pluralit�, Groupe engager � groupe paxos comme une unit�, correspondant � une pluralit� de files d'attente de groupe paxos, la file d'attente en une pluralit� de donn�es �quipe combin�s dans une p�riode de temps, ou lorsque le temps d'attente accumul�es consommant le nombre de donn�es atteint le seuil pour d�clencher une plaque de balai Paxos et synchrone, le blocage de la p�riode d'attente avant.

Par rapport � la logique lot de producteur Kafka dans la couche m�moire aux avantages du groupe de vrac combin�s comme suit S'engager:

Sans pr�ter attention � la fa�on d'organiser le lot de demande de couche d'affaires;

Paxos groupe dans la couche de m�moire aux unit�s de polym�risation des r�sultats de polym�risation mieux que la couche sup�rieure.

PhxQueue contraste avec Kafka

�taient la conception comparaison PhxQueue Kafka, la performance, la couche de m�moire � trois proc�dure de basculement.

conception Comparaison

Bien que l'architecture PhxQueue semblable � Kafka et d'autres files d'attente distribu�es commune, mais il y a encore beaucoup de conception unique. Afin de faire une certaine compr�hension des lecteurs Kafka � comprendre plus facilement PhxQueue, ci-dessous comparer les deux.

Note: Les comparaisons suivantes sont bas�es sur la m�me fiabilit� des donn�es Sc�ne: d�faillance d'un noeud minoritaire ne provoque pas de perte de donn�es, et l'ensemble est toujours disponible.

Comparaison des performances

Environnement de test

Rep�res et configuration

R�sultats des tests

Lot ouvert Producteur:

Fermer Producteur Lot:

Le sc�nario ci-dessus, le cpu de PhxQueue, le taux d'utilisation de 70% � 80%.

r�sum�

rendement PhxQueue et Kafka inchang�;

Dans les m�mes QPS, parce qu'ils ne sont pas comme les plus lents noeud ayant, PhxQueue l�g�rement mieux que le temps moyen Kafka;

Apr�s la fermeture de lot � la production, la plaque de la brosse dans le sc�nario synchrone, la performance PhxQueue jusqu'� 2 fois Kafka, parce que, la couche de stockage de disque PhxQueue avant d'�crire fait LOT, mais pas Kafka, cette derni�re amplification volont� d'�criture.

proc�dure de basculement de la couche de m�moire comparative

Apr�s avoir tu� une couche de stockage de noeud de contraste majeur, l'impact sur le d�bit global.

Kafka

Performance:

Au cours du basculement, les diff�rents niveaux � diff�rents stades de mise en attente succ�s de taux de 0 � 33%;
Basculement est d�termin�e par la dur�e du bail, les 10s par d�faut de longueur de location.

Le processus de test:

Replica.lag.time.max.ms des 10s � 60s r�glage (prolongation du d�lai pour faciliter l'observation), puis tuer Broker 0, Partition 3 s�lection, les changements observ�s ISR comme suit:

Dans laquelle le second / taux de r�ussite en trois �tapes de dommages � l'�quipe:

Au cours de la deuxi�me phase, la partition 96/97/98 ne peut pas �tre �crit, le taux de r�ussite succ�s de l'�quipe a chut� � 0%.
Au cours de la troisi�me �tape, la partition 96 peut continuer � �crire, mais la partition 97/98 ne peut pas �tre �crit, parce que l'�criture attendre Broker 0 retour ack, mais d�j� Broker 0 tuer, le taux de succ�s de l'�quipe est tomb� � 33%.

L'observation r�elle, pas compl�tement au cours de la seconde / d�bit � trois �tages, � cause de l'outil de mesure de pression des �checs de connexion d�j� signal�s, l'�criture d'arr�t.

Outil de mesure de la pression de sortie:

Les moyens de pression connect� b�che de d�faillance Broker:

analyse:

Kafka est �lu chef courtier par le contr�leur, la liste ISR est un chef de file maintenu.

Contr�leur ancien de location est d�finie, ce qui est la configuration Broker replica.lag.time.max.ms bail sp�cifi�s.

Par cons�quent, la dur�e plus courte de la deuxi�me �tape, le contr�leur du temps de location d�termin�, plus longue dur�e de la troisi�me �tape, est la d�cision de replica.lag.time.max.ms.

Lorsque Broker 0 est tuer, l'impact aurait �t� l'ancien courtier 0 est le chef d'�quipe du taux de r�ussite de 1/3 partitions qui affectent Broker 0 comme le taux de r�ussite de l'�quipe 2/3 partitions de suiveurs.

PhxQueue

Performance:

Au cours de Failover, l'�quipe, le taux de succ�s a chut� � 66%;
Basculement est d�termin�e par la dur�e du bail, le bail par d�faut � long 5s.
Apr�s le changement d'ouverture, les caract�ristiques de la file d'attente de nouvelle tentative (car il n'y a pas d'exigence absolue afin d'am�liorer la disponibilit� des services), au cours de la Failover encore 90 +% de r�ussite dans l'�quipe.

Le processus de test:

La dur�e du bail de 10s � 60s R�glage ma�tre Store (prolongation du d�lai pour faciliter l'observation), puis tuer magasin 0, l'�quipe a observ� un taux de r�ussite Producteur:

Fermer transducteur Retry Caract�ristiques: File d'attente

Ouvrir transducteur Retry Caract�ristiques file d'attente:

r�sum�

Dans la couche de stockage lors de la reprise, PhxQueue Kafka et enqueues les taux de r�ussite ont refus� de certaine dur�e, PhxQueue taux de r�ussite en file d'attente de 66% ~ 100%, le taux de r�ussite Kafka de mis en file 0% � 33%;

Apr�s nouvelle tentative d'ouverture de la file d'attente PhxQueue changement de caract�ristique, le processus de basculement taux de r�ussite en file d'attente est maintenue � 90 +%;

PhxQueue et Kafka peuvent changer automatiquement le ma�tre, dans l'�quipe de r�ussite finale de r�cup�ration compl�te.

�crit dans la derni�re

couche de m�moire PhxQueue a fait beaucoup d'efforts pour: r�aliser ma�tre de commutation automatique, et d'assurer toujours lin�aire constante, toujours au cours de la disponibilit� de transfert, le d�bit des garanties plaque de balai de synchronisation, le disque de performance inf�rieure de la brosse asynchrone.

En plus d'obtenir les caract�ristiques de la file d'attente les plus pratiques, comme une �quipe coh�rente hors d'usage, et plus d'abonnements, vitesse, rediffusion de messages, etc., pour une vari�t� de sc�narios d'affaires.

� l'heure actuelle PhxQueue �t� utilisation � grande �chelle dans les micro-lettre interne, officiellement ouverte.

Nous serons coh�rents PhxQueue version open source et construire, a accueilli le public pour essayer de commentaires.

Open Source Adresse:

https://github.com/Tencent/phxqueue

Les auteurs introduisent

Liang Junjie, un micro-canal d'ing�nieur senior, actuellement en charge des syst�mes de messagerie micro-canaux, middleware de messagerie et d'autres le d�veloppement et l'optimisation. En 2011, la Chine du Sud Dipl�m� de l'Universit� normale, a �t� impliqu� dans et menant microblogging lettre priv�e, anti-syst�me, ainsi que des projets d'optimisation de l'architecture micro-canaux multiples. Et plus, comme l'un des PhxQueue membres cr�ateurs du micro-canal architecture distribu�e de file d'attente importante transformation l'ann�e derni�re, nous nous sommes engag�s � fournir une haute disponibilit�, un d�bit �lev� et une grande fiabilit� des services de middleware de messagerie.

texte recommand� aujourd'hui

Cliquez ci-dessous pour lire l'image

Distributed Systems Solutions coh�rence transactionnelle grand contraste

Route de la soie

Apprenez � conna�tre la Chine

Micro-canal ouvert PhxQueue: haute disponibilit�, une fiabilit� �lev�e, � haute performance file d'attente distribu�e