Cet article de Ctrip grand profils de plate-forme de donn�es, conception de l'architecture et le processus de mise en uvre pour les atteindre et est intervenu pour remplir la fosse � ciel, d�taill� en temps r�el calcul des sc�narios d'applications, ainsi que des plans futurs dans cinq domaines �nonc�s architecture de plate-forme Ctrip et calcul en temps r�el de la pratique, et je esp�re n�cessit� de construire la soci�t� de plate-forme de donn�es en temps r�el et ont les �l�ves apprennent.

Tout d'abord, l'architecture globale de la grande plate-forme de donn�es Ctrip

Ctrip grande structure de plate-forme de donn�es est divis� en trois couches:

Couche d'application: Plat Zeus (divis� en syst�me de planification, le syst�me de transmission de donn�es Datax, syst�me de donn�es de base, les syst�mes de qualit� des donn�es), plateforme de recherche (syst�me de rapports ArtNova, la requ�te Adhoc), l'apprentissage machine (d�velopp� � base tensorflow, �tincelle comme cadre ouvert, nuage internet le GPU bas� r�alisation K8S), la plate-forme de calcul en temps r�el Muise;

Couche interm�diaire: Sur la base open source grande infrastructure de donn�es dans un cadre de stockage et de calcul distribu�, cadre informatique en temps r�el;

Offline principalement bas� Hadoop, HDF stockage distribu�, calcul distribu� hors ligne sur la base de la ruche et Spark, le stockage de la base KV HBase, Presto Kylin et un syst�me de notification et de Adhoc;

calcul en temps r�el est bas� sur le syst�me de mise en file cadre sous-jacent de message encapsul� Kafka Hermes, Qmq Ctrip de la file d'attente de messages RECHERCHE, syst�me commercial de l'ordre Qmq est principalement utilis� pour faire en sorte que aucune donn�e ne soit perdue pour cr�er la file d'attente de messages.

En bas: Ressources de surveillance et le fonctionnement et la surveillance de l'entretien, le fonctionnement automatique et syst�me d'entretien est divis� en grande trame de donn�es de surveillance installation, grande surveillance du trafic de donn�es.

En second lieu, la conception de l'architecture et de mise en uvre

1.Muise Plate-forme Pr�sentation

Qu'est-ce que 1) Muise est

Muise, tir� de la mythologie grecque, les muses du nom litt�raire, plate-forme Ctrip pour l'analyse des donn�es en temps r�el et le traitement; Muise plate-forme sous-jacente bas�e sur la file d'attente de messages open source et le syst�me de traitement en temps r�el JStorm, Spark en streaming et Flink, pour soutenir la deuxi�me �tape, m�me est en continu le traitement de retard milliseconde donn�es.

2) fonction Muise

Source de donn�es: Hermes Kafka / Mysql, Qmq;

Traitement des donn�es: Fournir Muise JStorm / Spark / FlinkCore API Hermes ou les donn�es de consommation Qmq, en utilisant la Jstorm sous-jacente, Spark ou donn�es de process en temps r�el, et de fournir leur propre package API aux utilisateurs. API d'amarrage tous les syst�mes source, l'utilisateur directement;

Gestion des travaux: Portail pr�voit JStorm, Spark en streaming et la gestion des op�rations Flink, y compris de nouveaux emplois, paquet jar de t�l�chargement et la production �ditoriale et d'autres fonctions;

Suivi et alerte: CADRE DE R�F�RENCE Metrics Jstorm, Spark et Flink ont fourni un appui pour des mesures personnalis�es, les param�tres de gestion des centres d'information, op�rations d'acc�s et de surveillance du syst�me d'alarme pour assurer un suivi et un soutien complets d'alarme aident les utilisateurs � surveiller le travail la premi�re fois en cas de probl�me.

Statut plateforme 2.Muise

plate-forme d'�tat:

Jstorm 2.1.1, 2.0.1 Spark, Flink1.6.0, Kafka 2,0;

Taille de cluster:

13 p�les, la machine 200 + 150 + Jstorm, 50 + fil, 100 + Kafka;

�chelle de l'op�ration:

11 secteurs d'activit�, 350 + emploi Jstorm, 120 + SS / Flink emploi;

Taille du message:

Sujet 1300+, incr�mentale 100T + PD, Avg 200K TPS, Max 900K TPS;

retard du message:

Hermes 200ms ou moins, � l'int�rieur de 20ms temp�te;

Un message de r�ussite Handling:

99,99%.

Evolution de la route de la plate-forme 3.Muise

2015 Q2 ~ 2015 Q3: Temp�te sur le d�veloppement de la plate-forme de calcul en temps r�el;

2016 Q12016 Q2 ~: migration temp�te JStorm, constitu�e StreamCQL;

2017 Q1 Q2 ~ 2017: Spark en streaming la recherche et l'acc�s;

Q32017 ~ 2018 Q1: Flink d'enqu�te et d'acc�s.

l'architecture de la plate-forme 4.Muise

1) Muise Plate-forme d'architecture

Couche d'application: Portal Muise soutient principalement la temp�te et Spark en streaming types d'emplois, le soutien nouvel emploi, version de pack de pot, l'op�ration et l'arr�t d'une s�rie de fonctions;

Couche interm�diaire: Infrastructure fait � l'ensemble sous-jacent, pour fournir aux utilisateurs en fonction Storm, Spark, Flink API de services correspondant et aspects;

En bas: Hermes & Qmq est la source de donn�es, Redis, HBase, HDFS, DB et similaires en tant que stockage de donn�es externe, Graphite, Grafana, ES est utilis� principalement pour la surveillance.

2) Proc�d� de calcul en temps r�el Muise

fin du producteur: Les utilisateurs sont valables pour le sujet de Kafka, et �crit ensuite les donn�es en temps r�el dans Kafka;

Portail fin Muise: Nous fournissons des API bas�e sur l'utilisateur de faire le d�veloppement, le d�veloppement futur de la configuration compl�te via le portail Muise, t�l�charger et commencer le travail, le travail a commenc�, paquet de pot sera distribu� � chaque donn�e de consommation Kafka sous-munitions correspondantes;

fin de stockage: Une fois les donn�es r��crites au consommateur peut QMQ ou Kafka, peut aussi �tre stock� � un syst�me externe Redis, HBase, HDFS / Ruche, DB.

La conception de la plate-forme - facilit� d'utilisation

Tout d'abord: En tant que plate-forme con�ue pour �tre le premier point est simple � utiliser, nous offrons un portail complet, il est facile pour les utilisateurs de g�rer leurs nouveaux emplois, faciliter le d�veloppement de l'emploi en temps r�el la premi�re fois pouvoir en ligne;

deuxi�me: Nous emballons beaucoup d'API de base, En charge plusieurs ensembles de temps r�el cadre informatique:

Soutien HermesKafka / MySQL, QMQ;

Jstorm int�gr�e, Spark Streaming, Flink;

Ressource de commande de fonctionnement;

Fournir DB, Redis, composants de sortie Hbase et HDFS;

Sur la base d'un certain nombre d'op�rations syst�me m�trique m�trique int�gr� sur mesure effectu� une surveillance d'alerte pr�coce;

Les utilisateurs peuvent personnaliser m�trique pour la surveillance et l'alerte pr�coce;

Une fois et appuyer AtLeast Exactement Une fois la s�mantique.

La plate-forme mentionn�e ci-dessus con�u pour �tre facile � utiliser, par exemple la plate-forme tol�rante aux pannes suivantes, assurant que les donn�es ne doivent pas se tromper.

6. plate-forme - Tol�rance aux pannes

Jstorm: Bas� sur le m�canisme Acker assure au moins une fois;

Spark en streaming: Sur la base Checkpoint obtenir exactement une fois, bas�e sur la mise en uvre de Kafka Offset retours en arri�re au moins une fois;

Flink: D'apr�s la phase Flinktwo + commit Kafka 0.11 support transactionnel pour atteindre une seule fois.

Une fois 7.Exactly

1) Approche directe

La plupart prennent Spark en streaming la consommation actuelle Kafka, puis, utilisent mani�re approche directe:

avantages: Chaque consommation record de lot offset, les travaux peuvent �tre compens�s par retours en arri�re;

inconv�nients: stockage de donn�es asynchrone et le stockage de d�calage:

les donn�es enregistr�es avec succ�s, les temps d'arr�t de l'application, le d�calage non enregistr� (entra�nant la duplication des donn�es);

d�calage enregistr� avec succ�s, les temps d'arr�t de l'application, les donn�es de sauvegarde ayant �chou� (entra�nant une perte de donn�es);

2) CheckPoint

avantages: L'�tat par d�faut de l'op�ration d'enregistrement pour chaque lot les donn�es sources peuvent �tre r�cup�r�es � partir du r�pertoire vers le bas cp;

inconv�nients:

1. non garantis 100% ExactlyOnce;

https://www.iteblog.com/archives/1795 ne garantit pas exactement une fois d�crit la sc�ne;

https://issues.apache.org/jira/browse/SPARK-17606 il se produit une perte lorsque le bloc doCheckPoint;

2. Activez l'impact cp apporter des performances suppl�mentaires;

3. Des changements logiques de fonctionnement en streaming ne peuvent pas �tre r�cup�r�s � partir de cp.

sc�ne applicable: Plus sc�ne de calcul de l'�tat appropri�;

utilisation: Programme recommand� lui-m�me est stock� compens�, lorsque les temps d'arr�t se produit, si la logique de code d'allumage n'a pas chang�, selon la cr�ation du r�pertoire de point de contr�le StreamingContext. En cas de changement, selon cr�er un contexte pour r�aliser leur CONSERVE d�calage et la mise en place d'un nouveau point de contr�le.

8. la conception de la plate-forme - la surveillance et l'alarme

Comment la premi�re fois aux utilisateurs d'aider � trouver des emplois est une question priorit� absolue.

Surveillance de cluster

Surveillance du serveur: examen des indicateurs m�moire, CPU, disque IO, Net IO;

surveillance Plate-forme: Ganglions;

Job Monitor

Syst�me m�trique natif bas� sur le cadre calcul�;

L'�tat du travail de r�action personnalis�e Metrics;

Collection de mesures natives et personnalis�es pour le suivi et d'alerte;

Stockage: graphite montrer maintenant: Grafana alarme: AppMon;

Nous en sommes maintenant beaucoup de mesures personnalis�es parmi les plus fr�quents sont les suivants:

Fail: Le temps p�riodique, Jstorm le nombre de traitement de donn�es a �chou�, la t�che Spark Num�ro Fail;

ack: Le temps p�riodique, la quantit� de donn�es trait�es;

Lag: Le temps p�riodique, la consommation de la temporisation de g�n�ration de donn�es interm�diaires (kafka 2,0 sur la base vient bornTime).

Ctrip a d�velopp� son propre syst�me d'alarme, les alarmes bas�es sur des r�gles font apr�s que le syst�me de substitution Metrics. travail Kanban fait par des indicateurs de suivi li�s � la surveillance et l'examen, nous indexe Flink Metrics comme plus pr�occup�, tous import�s dans la base de donn�es de graphite � l'int�rieur, puis faire le spectacle sur le front Grafana. En surveillant les panneaux d'affichage de fonctionnement, on peut voir directement Kafka � Flink Delay (GAL), correspond aux donn�es provenant de l'exploitation de la consommation Flink, le retard interm�diaire est de 62 ms, la vitesse relativement rapide. En second lieu, nous surveillons la vitesse de chacun pour obtenir des donn�es de Kafka. Depuis l'acquisition de donn�es de Kafka est bas�e sur de petites pi�ces � acqu�rir, nous avons mis la quantit� de donn�es � chaque fois 2 billions de traction. Kanban peut �tre surveill�e en surveillant un travail � chaque prise de donn�es de temps de retard moyenne est de 25 ms tir� de Kafka, Max est de 760 millisecondes.

Ensuite, nous avons pos� le pied sur parler de certains de la fosse au cours des derni�res ann�es et la fa�on de remplir la fosse.

En troisi�me lieu, et de la fosse � gradins fosse remplie

Pit 1: HermesUBT grande quantit� de donn�es, de nombreuses informations de points Enfoui, les services et le client sont sous une �norme pression;

solution: Fournir une op�ration shunt unifi�e, les donn�es sont d�tourn�es vers un sujet diff�rent en fonction des r�gles sp�cifiques et la configuration.

Pit 2 : Kafka ne peut pas garantir l'ordre mondial;

solution: Si, pour forcer une sc�ne mondiale, en utilisant une seule partition, si elle est partiellement ordonn�e dans un cas, pour un champ en fonction de la Hash, la partition interne ordonn�e assurer.

Pit 3 : Kafka pas les donn�es � une certaine p�riode de temps en fonction du temps pr�cis;

solution: Plate-forme assure un filtrage, le temps de filtration est plus t�t que les donn�es de temps de jeu (donn�es apr�s kafka 0,10 chacune avec son propre horodatage, de sorte que le probl�me apr�s la mise � niveau kafka naturellement r�solu).

Pit 4 : Dans un premier temps, Ctrip Tous Spark Streaming, op�rations Flink sont ex�cut�s dans le groupe ci-dessus l'h�te, est un grand groupe Hadoop est actuellement plusieurs milliers �chelle, en temps r�el et hors ligne sont en tissu mixte, une fois un excellent travail quand hors connexion l'impact de l'emploi en temps r�el, d'autre part des clusters Hadoop font souvent une mise � niveau, il peut red�marrer le nom du nud ou Node Manager, qui peut conduire � parfois le travail se bloque;

solution: Nous utilisons un d�ploiement s�par�, mis en place un groupe distinct en temps r�el, autonome travail en temps r�el. Hors ligne aller en ligne, cluster retour en temps r�el de r�el, en temps r�el avec une seule course Spark streaming travail fil, ex�cutez une des op�rations hors ligne sp�ciales hors ligne.

Lorsqu'ils sont d�ploy�s s�par�ment, rencontrent de nouveaux probl�mes, un certain besoin d'aller hors ligne pour travail en temps r�el faire le travail ou de faire fonctionner une partie de la fonction d'inscription, c'est �galement n�cessaire d'acc�der aux donn�es du groupe h�te. Cela �quivaut � un probl�me d'acc�s � travers le cluster.

Pit 5 : Groupe Hadoop en temps r�el � travers le cluster pour acc�der au groupe h�te;

solution: configuration hdfs-site.xml ns ns-prod, � double espace de noms, respectivement, le point au groupe d'h�te local;

configuration Spark spark.yarn.access.namenodes ou hadoopFlieSystems

6 hang : Que Jstorm Storm rencontrer des probl�mes ou prendre un CPU preemption, quand vous arrivez sur un gros travail, en particulier le genre de consommation CPU particuli�rement puissant, je pourrais lui donner un travailleur ind�pendant, une unit� centrale de traitement de base, mais il Enfin, il est possible de me donner d'utiliser trois ou m�me quatre;

solution: Activer cgroup utilisation cpu limite.

Quatri�mement, les sc�narios d'application

1. Les statistiques des rapports en temps r�el

rapports en temps r�el et les statistiques montrent �galement une Spark sc�ne utilisation en streaming plus de donn�es peuvent �tre bas�es sur le temps de processus statistique, temps de l'�v�nement peut �galement �tre bas� sur les statistiques. En raison de leur Spark en streaming diff�rents lots de travail peut �tre consid�r� comme l'un de la fen�tre de d�filement, une fen�tre s�par�e qui contient les donn�es pour des p�riodes multiples, qui utilise SparkStreaming il y a des restrictions fond�es sur les statistiques de temps de l'�v�nement. En r�gle g�n�rale fa�on plus commune est une valeur d'accumulation statistique dans diff�rentes �chelles de temps pour chaque lot et introduit dans un syst�me externe, comme les ES, puis en fonction du temps de faire une polym�risation compl�te de la deuxi�me valeur cumul�e de la valeur finale obtenue lors de la polym�risation montrent le rapport. La figure suivante montre l'IBU Ctrip base en temps r�el Kanban Spark mise en uvre en streaming.

2. en temps r�el Num�ro d'entrep�t

1) Diffusion Spark pr�s de stockage de donn�es en temps r�el

Il y a maintenant toutes sortes d'outils donn�es de consommation Kafka en temps r�el et, �ventuellement filtr�s atterrissage au syst�me lav� de stockage correspondant, tels que: Camus, comme Flume. Par rapport � ces produits, Spark en streaming r�side l'avantage d'abord et avant tout pour soutenir la logique de traitement plus complexe, d'autre part le syst�me de planification des ressources � base de fil permet l'allocation Streaming Spark des ressources plus flexibles et adoption par les utilisateurs Spark streaming des donn�es en temps r�el est �crit � HDFS ou l'�criture ruche d'aller � l'int�rieur.

2) sur la base de diverses r�gles pour d�tecter la qualit� des donn�es

Sur la base Spark Streaming, quantit� de donn�es de fonction personnalis�e m�trique de donn�es, le nombre de champs, le format de donn�es des donn�es et le contr�le de la qualit� des donn�es r�p�t�es et de surveillance.

3) sur mesure m�trique bas�e sur l'alerte rapide en temps r�el

Identifier des r�gles bas�es sur les paquets m�triques que nous offrons syst�me d'enregistrement, puis effectuer un contr�le chaque lot en fonction de ces r�gles, renvoie un r�sultat. Les r�sultats seront bas�s sur �vier m�trique pour cracher, cracher sur la base des r�sultats d'une surveillance des param�tres font. Nous utilisons le mod�le actuel Flink charge pr�visions make tensorflow en temps r�el. Les informations d'alarme de respect des d�lais de base de donn�es peut lui faire rapport dans les deux secondes, une fois qu'il atteint une tr�s bonne exp�rience utilisateur.

Cinqui�mement, la planification de l'avenir

1.Flink sur K8S

Il y a un certain nombre de diff�rents cadres de l'informatique au sein de Ctrip, l'informatique en temps r�el, l'apprentissage machine, ainsi que des calculs hors ligne, et donc la n�cessit� d'un cadre sous-jacent unifi� pour la gestion, � l'avenir Flink d�plac� vers le K8S, unifi� la gestion des ressources et le contr�le.

acc�s plate-forme SQL 2.Muise Flink

Bien que l'acc�s � la plate-forme Muise Flink, mais les utilisateurs ont toujours un code �crit � la main, nous avons d�velopp� une fonction de plate-forme en temps r�el, les utilisateurs ne doivent �crire SQL, qui est bas� sur le mod�le SQL Flink qui peuvent �tre collect�es ou les fonctions utilis�es les utilisateurs ont besoin en temps r�el. Apr�s Poss�dera plate-forme temps r�el avec la plate-forme de calcul en temps r�el pour la fusion, les utilisateurs ont seulement besoin de SQL d'�criture peuvent enfin r�aliser tous le travail en temps r�el � atteindre.

3.Jstorm CGroup pleinement op�rationnel

Dans le cadre des raisons historiques actuelles que beaucoup d'emplois en cours d'ex�cution dans Jstorm ci-dessus, ce qui entra�ne une r�partition in�gale des ressources, le plus tard sera enti�rement activ� CGroup.

4. mod�le de formation en ligne

Ctrip certains minist�res ont besoin mod�le de formation en ligne en temps r�el, gr�ce � une formation suivie mod�le Spark, puis utilisez le mod�le Spark en streaming, faire une interception en temps r�el ou le contr�le, le contr�le des applications et d'autres sc�nes dans le vent.

Wen | Guo plate-forme PAN-qing Ctrip pour les grandes donn�es en temps r�el informatique plate-forme leader

Route de la soie

Apprenez � conna�tre la Chine

l'architecture de plate-forme informatique Ctrip temps r�el et la pratique Shu DataPipeline

Tout d'abord, l'architecture globale de la grande plate-forme de donn�es Ctrip

En second lieu, la conception de l'architecture et de mise en uvre

En troisi�me lieu, et de la fosse � gradins fosse remplie

Quatri�mement, les sc�narios d'application

Cinqui�mement, la planification de l'avenir