Ctrip le comportement des utilisateurs dans les syst�mes en temps r�el pratique

le comportement des utilisateurs Ctrip en service en temps r�el comme un service de base, maintenant largement utilis� dans de nombreux sc�narios, comme vous devinez comme (Ctrip syst�me recommand�), la publicit� dynamique, portraits des utilisateurs, l'historique de navigation, et ainsi de suite.

Aimez-vous deviner, par exemple, vous pouvez �galement vous proposer des options pour des applications potentielles dans l'utilisateur, d'am�liorer l'efficacit� des transactions. Est-ce un besoin de voyage complet, les utilisateurs ont souvent besoin de plus d'un produit. En tant que guichet unique plate-forme de services de Voyage, des lignes crois�es recommand�es d'affaires, en particulier la recommandation en temps r�el, pour r�pondre aux besoins r�els des utilisateurs, fournissant ainsi ouvrir les donn�es de comportement des utilisateurs en amont entre les diff�rents secteurs d'activit� sont tr�s n�cessaires.

Il y a des probl�mes, y compris le comportement Ctrip utilisateur � temps r�el d'origine du syst�me: 1) la couverture incompl�te des donn�es; 2) il n'y a pas de format de sortie de donn�es uniforme pour de nombreux consommateurs pour am�liorer les co�ts d'acc�s; 3) log module de traitement est un service web, plus difficile � supporter une vari�t� de strat�gies de traitement des donn�es et obtenir une extension facile � faire face � la demande de pointe du trafic.

Mais ces derni�res ann�es, la croissance rapide du march� du tourisme, ce qui augmente la quantit� de donn�es, et continuera � cro�tre rapidement. Il y a un nombre croissant de besoins, syst�me en temps r�el, la stabilit� a �galement mis en avant des exigences plus �lev�es. Dans l'ensemble, la demande actuelle sur le syst�me de temps r�el / disponibilit� / performances / �volutivit� tr�s forte demande.

Tout d'abord, l'architecture

Dans ce contexte, nous avons modifi� la structure selon les syst�mes suivants:

Figure 1: l'utilisateur en temps r�el voir le comportement de la logique du syst�me

Selon la nouvelle architecture, il y a deux flux de donn�es, sont trait�es et les flux de sortie.

Dans le flux de processus, les journaux de comportement seront t�l�charg�es � partir du client (App / ligne / H5) sur le c�t� service du Service Collector. Collector service envoyer un message � une file d'attente distribu�e. module de traitement de donn�es est compl�t�e par le cadre du calcul flux, les donn�es sont lues � partir de la file d'attente distribu�e, les donn�es d'�criture apr�s que la couche de traitement, une grappe de bases de donn�es et cache distribu�.

Le flux de sortie est relativement simple, arri�re-plan de service Web extraire des donn�es de la couche de donn�es, et la sortie � l'appelant, certains appels de service internes, un tel syst�me de recommandation, mais aussi une sortie � l'avant, comme l'historique de navigation. la mise en uvre du syst�me Java + applications + Kafka + Temp�te Redis + Mysql + Tomcat + pile de technologie Spring.

Java: Java est actuellement au sein de l'entreprise de l'atmosph�re relativement forte, et Java est plus mature gros composants de donn�es
Kafka / Storm: la file d'attente de messages Kafka comme une application distribu�e a �t� relativement mature, cadre de calculs de flux temp�te a atterri dans l'entreprise, et il y a un meilleur environnement de soutien exploitation et la maintenance.
Redis: HA, SortedSet et l'expiration des fonctionnalit�s telles que Redis est pr�f�rable de satisfaire aux exigences du syst�me.
MySQL: deux indicateurs comme base pour la stabilit� du syst�me et la performance du syst�me est la principale option contraste de NoSQL, tels HBase et ElasticSearch, MySQL ont de meilleures performances dans les deux milliards de niveau de donn�es, et est con�u pour avoir une bonne le niveau d'�volutivit�.

Le syst�me est en cours de traitement quantit� de donn�es par jour d'environ 20 millions, � partir du moment de la ligne de donn�es disponibles � environ 300 millisecondes. Service de suivi d'environ 80 millions de demandes par jour, avec un d�lai moyen d'environ 6 millisecondes. Les �l�ments suivants du temps r�el / disponibilit� / performances / d�ployer plusieurs dimensions pour illustrer la conception du syst�me.

En second lieu, en temps r�el

En tant que syst�me en temps r�el, les performances en temps r�el est le principal indicateur. syst�me en ligne fait face � une vari�t� de circonstances inhabituelles. Par exemple, les situations suivantes:

pic de trafic Bursty, la fa�on de traiter;

d�faillance du module ou de d�faut, comment faire en sorte que le processus de nouvelle tentative de donn�es d'�chec tout en assurant les nouvelles donn�es;

Les questions environnementales ou bug provoque l'arri�r� de donn�es, la rapidit� de la digestion;

bug du programme, le besoin de retraiter les anciennes donn�es, la fa�on de traiter rapidement avec en m�me temps veiller � ce que les nouvelles donn�es;

Syst�me de l'examen de la conception initiale de la situation ci-dessus.

La premi�re est une temp�te pour r�soudre le probl�me du pic de trafic �clat�. temp�te pr�sente les caract�ristiques suivantes:

Figure 2: Caract�ristiques de temp�te

Comme une trame de calcul du d�bit et la trame ant�rieure des donn�es de grandes traitement par lots clairement distingu�. cadre de lot est termin� pour effectuer une t�che � la fin de la course, et le cadre de traitement de flux a continu� � courir, en th�orie, n'a jamais cess�, et la granularit� de traitement est le niveau de message, tant que la capacit� de calcul suffisante du syst�me, nous pouvons garantir � chaque message peut �tre le premier un temps pour �tre trouv�e et trait�e.

Les syst�mes actuels, le ch�ssis de processus d'assaut, le message peut �tre trait� millisecondes apr�s l'entr�e kafka. En outre, la temp�te avec une forte capacit� � l'�chelle sur. Tant que le nombre de param�tres � modifier par travailleur arri�re-plan, et la topologie de red�marrage (nom de la t�che de temp�te), vous pouvez �tendre la puissance de calcul imm�diatement, facile � traiter avec un pic de trafic inattendu.

temp�te manipulation du message prend en charge une vari�t� de strat�gie d'assurance de donn�es, au moins une fois, au plus une fois, une seule fois. le comportement des utilisateurs en temps r�el, la premi�re est de veiller � ce que les donn�es sont peu perdu que possible, en plus de soutien, y compris nouvelle tentative et de d�classement d'une vari�t� de donn�es strat�gie de traitement, et ne peut pas tirer profit d'exactement une fois, mais r�duira les performances, car le support des transactions, l'utilisateur si en temps r�el au moins une fois un comportement politique du syst�me utilis�. Les messages peuvent r��mettre cette strat�gie, les outils du programme de la puissance de traitement et d'autres supports.

temp�te la lib�ration de relativement simple, t�l�chargez le package de mise � jour et red�marrez le pot pour compl�ter la t�che une fois lib�r�, il n'y a malheureusement pas de support pour la version multi-niveaux de gris publi�.

Figure 3: Architecture Storm

Dans certains cas, vous devez recommencer le traitement des donn�es, telles que le temps de sortie de connexion de base de donn�es, ou non connect�. D�lai de connexion d�pass� pourrait bient�t �tre en mesure de r�cup�ration de nouvelle tentative, mais ne peut pas se connecter prennent g�n�ralement plus de temps � attendre pour le programme de traitement r�seau de r�cup�ration ou base de donn�es ne peut pas toujours attendre que cette situation, sinon il causera la latence des donn�es. le comportement des utilisateurs en temps r�el de la conception du syst�me utilise une double file d'attente pour r�soudre ce probl�me.

Figure 4: Conception file d'attente bis

Les producteurs effectueront des �crits enregistrement Queue1 (principalement pour maintenir la fra�cheur des donn�es), la consommation des travailleurs de nouvelles donn�es de Queue1. Si l'apparition des donn�es anormales, les donn�es anormales est �crit Queue2, travailleur (tenu des donn�es anormales primaire).

Un tel travailleur de la consommation Queue1 n'affectera pas les progr�s des donn�es anormales peuvent conserver les donn�es de consommation fra�ches. RetryWorker �coute Queue2, les donn�es de consommation anormale, si la fonction d'une certaine strat�gie de traitement n'a pas �t� couronn�e de succ�s, (comme illustr� ci-dessous) ou d'attente pour les donn�es re-exception est �crit Queue2.

Figure 5: la strat�gie de nouvelle tentative de compensation

De plus, lorsque le carnet de donn�es se produit, vous pouvez ajuster le curseur � la consommation des travailleurs, la consommation re-d�marrage des donn�es les plus r�centes, afin d'assurer que les derni�res donn�es sont trait�es. La section centrale de donn�es non trait�es est d�marr� backupWorker, sp�cifier le d�but et la fin curseur, apr�s un intervalle sp�cifi� de donn�es de consommation finis, backupWorker s'arr�tera automatiquement. (Voir ci-dessous)

Figure 6: Digestion arri�r� de donn�es

En troisi�me lieu, la disponibilit� de

En tant que service de base, les exigences de disponibilit� est beaucoup plus �lev� que le service moyen, parce que les services d�pendants en aval plus d'une fois l'�chec se produit, il peut provoquer une cascade affecter beaucoup d'affaires. Projet de la conception fait un accord avec les questions suivantes, syst�me de garantie la disponibilit�:

Le syst�me a un seul point?

extension / maintenance DB / �chec, comment faire?

entretien Redis / patch de mise � niveau, comment faire?

Service en cas li� � la fa�on de r�cup�rer rapidement? Comment minimiser l'impact sur les applications en aval?

La premi�re est de faire un niveau du syst�me de cluster pile compl�te. kafka et temp�te elle-m�me est mature relativement op�ration de cluster de support et d'entretien; le traitement de supports de service Web et la r�alisation de regroupement par l'�quilibrage de charge; Redis et DB respecter Ctrip a un support d�ploiement de veille, l'utilisation du proc�d� en cas de d�faillance h�te, la sauvegarde automatiquement de prendre en charge le service, pas un seul point par le syst�me de support de cluster pile compl�te.

disponibilit� plus d�grad� par le syst�me de traitement pour prot�ger l'ensemble du syst�me dans un module partiel ne sont pas disponibles. V�rifiez les donn�es normales du traitement des flux :( ci-dessous)

Figure 7: Donn�es flux normal

Dans l'�tat normal du syst�me, de lire les donn�es de Storm kafka et sont �crits dans le mysql Redis. Service Redis de la traction (le temps pris de la db moins de compensation), la sortie au client. DB d�grad� cas, le flux de donn�es change �galement (voir ci-dessous)

. Figure 8: d�gradation du syst�me -DB

Lorsque MySQL indisponible, db d�grad� par interrupteur d'ouverture, Temp�te Redis normalement �crite, mais pas l'�criture de donn�es MySQL. Les donn�es peuvent �tre saisies reids utilisent le service de requ�te, fourni au client. De plus TEMPETE �crire des donn�es � une kafka la file d'attente de nouvelle tentative, apr�s mysql service normal, db d�grad� en fermant l'interrupteur, le consommateur de donn�es sera d'assaut la file d'attente de nouvelles tentatives de donn�es d'�criture dans le mysql. Redis et les donn�es mysql seront incoh�rentes lors de la r�vision � la baisse, mais le syst�me sera de retour � la normale par la nouvelle tentative finale de garantir la coh�rence des donn�es. Proc�d� de d�gradation Redis est similaire (voir ci-dessous)

Figure 9: d�classement -Redis

La seule diff�rence est que les capacit�s de service d'un peu d�passent de loin mysql. Ainsi, lorsque le syst�me Redis d�bit downgrade est en panne. Ensuite, nous surveillerons db pression, si la pression trouv� mysql, arr�tera temporairement l'�criture des donn�es, ce qui r�duit le mysql de pression, assurant ainsi des services de renseignements stables.

Afin de r�duire l'impact sur l'�tat de d�faut en aval, supporte les requ�tes en mode de soufflage assemblage de Netflix Hystrix (voir ci-dessous).

Figure 10: Circuit Breaker Motif

Dans ce mode, lors d'une d�faillance de la demande de service est sup�rieure � une valeur de seuil dans un d�lai donn�, le fusible va ouvrir le commutateur. Dans le cas o� le commutateur est activ�, la r�ponse de d�faillance du service de retour direct � la demande ult�rieure, la demande ne sera pas laisser passer le module de service, afin d'�viter une nouvelle augmentation de la pression provoqu�e par le serveur d'avalanche, il ne sera pas glisser sur les temps de r�ponse de l'appelant.

Commence � compter apr�s que l'interrupteur est ouvert, apr�s le d�lai d'attente entrera dans un �tat de entrouvertes, dans cet �tat sera autoris� par une demande d'entrer dans le module de traitement de service, si le commutateur de retour normal est ferm�, sinon le commutateur reste ouvert jusqu'� ce que le d�lai d'attente suivant. service normal sera en mesure de reprendre ses activit�s apr�s cette demande.

De plus, afin d'�viter l'impact sur les appels de service appelant unique ill�gal, le service prend en charge �galement de limiter les dimensions multiples, y compris l'appelant AppId / ip limite et services limitant, comme la limitation de l'interface.

Quatri�mement, la performance et prolong�e

En raison de la croissance rapide de l'industrie Voyage en ligne au cours des derni�res ann�es, en tant que leader de l'industrie en plein essor Ctrip aussi, et par cons�quent la quantit� de trafic de donn�es a augment� de fa�on spectaculaire. Les entreprises ont besoin des services est 10 fois l'expansion de la capacit� peut �tre prise en charge, en partie la plus difficile de la couche de donn�es �tendue, comme li�e � la migration des donn�es sur les stocks.

En temps r�el syst�me de couches de donn�es de comportement des utilisateurs comprend Redis et Mysql, Redis � obtenir un hashage coh�rent, quand il suffit d'ajouter la machine d'expansion, et les donn�es pour la nouvelle partition allou�e � la compensation peut �tre lu.

Mysql, nous avons fait un niveau de segmentation comme une extension de la pr�paration, tranche le nombre d'options � consid�rer pour le n-i�me puissance de 2, ce qui a des avantages �vidents lorsque l'expansion. Parce que la base de donn�es Cheng MySQL est maintenant largement utilis� d'une mani�re principale, lorsque la machine d'expansion peut �tre directement pr�par� dans une deuxi�me station de nivellement (groupe) h�te. En supposant que les points originaux des deux biblioth�ques, d0 et d1, sont plac�s sur le serveur s0, machine de pr�paration s0 s1 tout. L'expansion ne n�cessite que les �tapes suivantes:

Assurez-vous s0 - > �s1 synchrone en douceur, sans retard significatif

s0 autorisations en lecture et �criture temporairement ferm�

Confirmer s1 s0 mise � jour a �t� enti�rement synchronis�

s1 l'acc�s en lecture-�criture

d1 est commut� de s0 s1 � dns

s0 un acc�s en lecture-�criture

Le processus de migration en utilisant les caract�ristiques de distribution de r�plication MySQL, en �vitant le processus de synchronisation manuelle fastidieuse et sujette aux erreurs, ce qui r�duit consid�rablement le temps et le co�t de la migration. L'ensemble du processus peut �tre fait en quelques minutes, fonction de liaison d�grad�e DB, l'exception de transfert de quelques secondes est g�n�r�.

dans une certaine mesure, l'exploitation plus faible et la charge de l'entretien, l'ensemble du processus relativement simple, peut �galement r�duire la possibilit� de causer exploitation excessive trag�die similaire de style gitlab ce.

V. d�ploiement

le d�ploiement de la temp�te a �t� mentionn� pr�c�demment est assez facile, il suffit de t�l�charger le red�marrage pour terminer le d�ploiement. Depuis le red�marrage du programme apr�s la perte de d�ploiement de leur contexte, peuvent �tre trait�es par l'enregistrement de la position du curseur avant de trouver Kafka, le processus de restauration.

En outre, il y a des cas peuvent avoir besoin d'ex�cuter plusieurs versions, telles que le comportement des versions multiples temporairement record, auquel cas nous allons ajouter une backupJob, la version historique d'ex�cution dans backupJob.

Route de la soie

Apprenez � conna�tre la Chine

Ctrip le comportement des utilisateurs dans les syst�mes en temps r�el pratique