la pratique Flink seulement la volont� du produit

Le contenu principal sont les suivantes:

statut en temps r�el de la seule plate-forme de produits
la pratique Flink seulement la volont� du produit
Flink Sur K8S
Planification de la rel�ve

Tout d'abord, le statut sera le seul produit est actuellement une plate-forme en temps r�el cadre informatique unifi�e dans les produits CD sera plate-forme en temps r�el, mais comprend Storm, Spark, Flink, y compris les trois principaux cadre informatique. Pour des raisons historiques, le nombre d'emplois actuellement sur la plate-forme Storm est le plus grand, mais depuis l'ann�e derni�re, l'accent d'affaires mis progressivement � Flink ci-dessus, il a �t� une augmentation substantielle du nombre de demandes cette ann�e Flink ci-dessus.

Les grands panneaux d'affichage promotion des indicateurs statistiques, y compris les diff�rentes dimensions (par exemple, des recommandations en temps r�el en tant que fournisseur cl� de l'�lectricit� d'affaires, plus de fonctionnalit�s en temps r�el comprennent :: diverses dimensions de l'ordre, les UV, les taux de conversion, l'activit� de la plate-forme � temps r�el entonnoir noyau se compose de huit parties etc.), pour la direction, les op�rations, les d�cisions de ce produit � l'utilisation, le nettoyage des donn�es en temps r�el, enterr� � partir du point d'utilisateur des donn�es collect�es, nettoy�es et associ� en temps r�el, fournir de meilleures donn�es pour chacune des activit�s en aval, en plus des services bancaires d'Internet, la s�curit� du vent contr�le, et les amis de parit� et d'autres services, ainsi que Logview, Mercure, Titan servant de syst�me de contr�le interne, les syst�mes de synchronisation de donn�es VDRC en temps r�el.

Les responsabilit�s comprennent la plate-forme en temps r�el pour les plates-formes de calcul en temps r�el et la base de donn�es en temps r�el. plate-forme de calcul en temps r�el sur la base du cadre de calcul Temp�te, Spark, Flink et ainsi de suite, de surveiller, la stabilit� a fourni une garantie pour fournir des donn�es d'entr�e et de sortie pour le d�veloppement des affaires. base de donn�es en temps r�el contenant la d�finition et la normalisation du point en amont enterr�, les donn�es de comportement des utilisateurs, les journaux de donn�es MySQL de nettoyage Binlog, jouant un traitement tel que large, fournir l'assurance de la qualit� pour les donn�es en aval.

Dans la conception du cadre, y compris les deux sources de donn�es. On est enterr� dans les donn�es de point App, micro-lettres, H5 et d'autres applications, apr�s kafka envoy�s � la collecte de donn�es primaires, l'autre est une ligne de journal MySQL Binlog donn�es en temps r�el de. Pour le calcul des donn�es de trame qui ne association de nettoyage, les donn�es brutes fournissant plus facile � utiliser par les applications d'entreprise en temps r�el en aval ETL (y compris la largeur de la table en ligne, etc.).

Deux, sc�ne Flink pratique d'un produit CD sera: Dataeye en temps r�el Kanban

Dataeye en temps r�el Kanban est les donn�es pour appuyer la n�cessit� pour tous le point enterr�, lorsque les commandes donn�es calcul�es en temps r�el, avec une grande quantit� de fonctionnalit�s de donn�es et n�cessitent dimension statistique il y a beaucoup, comme station totale, deux plates-formes, cat�gorie, calendrier, foule activit�s, telles que la dimension temporelle, augmentent la complexit� des calculs, l'indice de production de donn�es statistiques a atteint des centaines de milliers par seconde.

UV pour calculer, par exemple, d'abord, les donn�es de Kafka Buried lav�es, puis les donn�es associ�es � Redis, de bonnes donn�es de corr�lation sont �crites dans Kafka, les t�ches de calcul Flink donn�es associ�es � la consommation ult�rieure de Kafka. Les r�sultats des calculs sont g�n�ralement t�che est grande (en raison notamment des dimensions de calculer et de mesures, peuvent atteindre des dizaines de millions), la sortie de donn�es par aussi par Kafka comme un tampon, t�che de synchronisation de l'utilisation finale pour synchroniser HBase, comme l'affichage des donn�es en temps r�el. t�che de synchronisation �crirait limite de donn�es HBase et le m�me type de fusion de l'indice, la protection des HBase. En m�me temps, il y a une autre fa�on de calculer comme un plan de reprise apr�s incident.

Lorsque le calcul de temp�te pour calculer le moteur est n�cessaire d'utiliser comme un stockage REDIS �tat interm�diaire, mais apr�s le passage � Flink, Flink lui-m�me comprend un stockage d'�tat, �conomisant de l'espace de stockage; Redis parce qu'aucun acc�s, mais aussi d'am�liorer les performances, la ressource globale la consommation est r�duite � 1/3 de l'original.

Dans le processus de t�ches informatiques migrent progressivement de Storm � Flink, les deux programmes doivent migrer en m�me temps pour s�parer les t�ches informatiques et la synchronisation des t�ches, les donn�es sont �crites pour att�nuer la pression sur la HBase.

Apr�s le passage � Flink aussi besoin de suivre et d'am�liorer un certain nombre de questions. Pour FlinkKafkaConsumer, pour des raisons d'affaires � kafka dans AOTU Commit � modifier, et le r�glage du d�calage, il est n�cessaire de r�aliser son soutien commutation de cluster de kafka. Pour les donn�es d'�tat sans la n�cessit� de nettoyer manuellement la fen�tre. Il existe un cadre informatique probl�me commun - les probl�mes de donn�es doivent �tre pris en compte. En m�me temps, le nombre de t�ches pour probl�me de poursuite synchrone, la temp�te peut prendre des valeurs des Redis, Flink ne peut attendre.

Sc�ne deux: Kafka Shuojuluode HDFS

Avant de r�aliser tout au long de Spark Streaming, maintenant il est progressivement mis � Flink ci-dessus, le tableau de donn�es Buried Ruche OrcBucketingTableSink sur le sol pour les HDFS. Flink en mono processus d'�criture des t�ches jusqu'� 3,5K / s ou plus, apr�s utilisation Flink consommation de ressources r�duite de 90%, tout en r�duisant le retard dans les ann�es 30 � 3. � l'heure actuelle faire encore un soutien Flink pour le tableau Bucket Spark de.

Troisi�me sc�ne: ETL-temps r�el

Pour le traitement ETL, la pr�sence est un point de mal � HDFS, et est en constante �volution de stockage de table dictionnaire, et les besoins de flux de donn�es en temps r�el pour se joindre � la table dictionnaire. Changement dans le tableau dictionnaire est caus�e par une t�che de traitement par lots hors ligne, la pratique actuelle est d'utiliser ContinuousFileMonitoringFunction et ContinuousFileReaderOperator le moniteur de synchronisation HDFS changements de donn�es, les nouvelles donn�es continueront dans les broussailles, les donn�es les plus r�centes ne rejoignent les donn�es en temps r�el.

Ensuite, nous pr�voyons de faire d'une mani�re plus g�n�rale, � la table de soutien et Hive Stream, joindre, mettre en uvre des changements de donn�es de table Hive, les donn�es sont automatiquement pouss� effet.

Trois, Flink Sur K8S

Il y a un certain nombre de diff�rents cadres de l'informatique � l'int�rieur du seul produit avec calcul en temps r�el, il y a un apprentissage de la machine, ainsi que des calculs hors ligne, et donc la n�cessit� d'un cadre sous-jacent unifi� pour la gestion, et donc migrera Flink au K8S.

Utiliser des composants de r�seau Cisco sur K8S, chaque conteneur de docker a sa propre adresse IP, l'ext�rieur est visible. Fusion plate-forme temps r�el architecture globale, comme indiqu� ci-dessous.

Les diff�rences dans la mise en uvre du programme seront fournis sur la communaut� K8S Flink et le produit n'est encore tr�s important. CD produits utiliseront le mode de d�ploiement K8S StatefulSet, la mise en uvre interne d'un certain nombre d'interfaces li�es cluster. Un travail correspondant � un mini cluster et supports HA. Pour Flink, la plus grande raison d'utiliser StatefulSet une nacelle de nom d'h�te est ordonn�e, de sorte que les avantages potentiels sont les suivants:

1.hostname de pod -0 -1 et peut �tre sp�cifi� directement JobManager, peut �tre utilis� pour d�marrer une statefulset un cluster, le d�ploiement doit �tre de 2, ind�pendamment l'un de TaskManager Jobmanager et le d�ploiement.

2. pod apr�s pour diverses raisons �chouent, en raison StatefulSet tirer � nouveau la nacelle du m�me nom d'h�te, le cluster r�cup�rer le rapport de vitesse peut th�oriquement un d�ploiement plus rapide (d�ploiement chaque nom d'h�te al�atoire).

Environnement miroir variable docker script qui entrypoint doit �tre r�gl� instructions d'installation:

grappes Flink correspondant � compter sur d'autres configurations telles que HDFS, � travers la cr�ation de ConfigMap pour g�rer et maintenir.

kubectl cr�er ConfigMap hdfs-conf --from-file = hdfs-site.xml --from-file = core-site.xml

En quatri�me lieu, le plan de suivi

syst�mes � temps r�el en cours, la plate-forme d'apprentissage de la machine pour les donn�es � traiter dans une vari�t� de composants de stockage de donn�es distribu�es, comme Kafka, Redis, Tair et HDFS ainsi de suite, comment un acc�s pratique et efficace, le traitement, le partage des donn�es est un grand d�fi pour le courant acc�s aux donn�es et la d�termination prend souvent beaucoup d'�nergie, un des points de douleur principaux comprennent:

Pour Kafka, Redis, Tair en binaire des donn�es (format PB / Avro), les utilisateurs ne peuvent pas comprendre rapidement et directement le sch�ma et les donn�es de contenu, les co�ts d'acquisition de donn�es de contenu et de communication sont �lev�s et l'�crivain.

�tant donn� que l'absence d'un ensemble de donn�es des services de syst�me ind�pendant unifi�, l'acc�s aux donn�es binaires � Kafka, Redis, Tair et comme le besoin de compter sur les informations fournies par l'auteur, tels que la g�n�ration de classe proto, les d�finitions de format de donn�es wiki, les co�ts de maintenance �lev�s, sujettes � erreur.

L'absence de sch�ma relationnel afin que l'utilisateur ne peut pas directement bas�e sur une utilisation plus efficace SQL ou une entreprise de d�veloppement API couche LINQ.

Un des services pratiques distinctes pour publier et partager des donn�es ne peuvent pas passer.

donn�es en temps r�el ne peuvent �tre fournis directement au lot moteur SQL.

De plus, pour la plupart de la source de donn�es actuelle est aussi un manque de v�rification d'acc�s, la gestion des droits, contr�le d'acc�s, le suivi et d'autres caract�ristiques.

UDM (Unified Data Management System) comprend un emplacement gestionnaire, le sch�ma Metastore et des modules client proxy, principales caract�ristiques comprennent:

1. Fournir un nom au service de mappage d'adresses de l'utilisateur pour acc�der aux donn�es par nom plut�t que l'adresse sp�cifique abstraite.

2. Les utilisateurs peuvent facilement via l'interface GUI Web facilement visualiser les donn�es de sch�ma, le contenu des donn�es d'exploration.

3. Fournir un soutien pour l'audit, le suivi, l'API client proxy fonctionnalit�s suppl�mentaires telles que la tra�abilit�.

4. Spark / Flink / Storm comme cadre, l'encapsulation des sources de donn�es fournissant la forme la plus appropri�e.

UDM structure globale tel que repr�sent� sur la Fig.

les utilisateurs UDM, y compris les producteurs et les utilisateurs de temps r�el, la plate-forme d'apprentissage automatique et les donn�es hors ligne. Lorsque vous utilisez l'API SQL ou l'API de table, d'abord terminer l'enregistrement du sch�ma, puis utiliser le d�veloppement Sql, ce qui r�duit la quantit� de d�veloppement de code.

Tableau de calage de l'allumage pour acc�der aux donn�es d�crit Kafka PB processus internes de l'UDM

Dans Flink, un UDMExternalCatalog de pont entre l'ouverture et le cadre de calcul UDM Flink, en mettant en oeuvre ExternalCatalog chaque interface, et de mettre en uvre la TableSourceFactory de source de donn�es respective, l'accomplissement des fonctions de contr�le d'acc�s, etc. Sch�ma

Route de la soie

Apprenez � conna�tre la Chine

la pratique Flink seulement la volont� du produit