Lien complet de suivi: Aper�u du programme et comparaison

probl�me de fond

Avec la popularit� de l'architecture micro-services, divisions de services sur diff�rentes dimensions, une demande ont souvent besoin d'impliquer plusieurs services. applications Internet construites sur un autre ensemble de modules logiciels, des modules logiciels, il peut �tre mis au point par des �quipes diff�rentes, peuvent �tre mises en uvre en utilisant diff�rents langages de programmation, il est possible tissu en milliers de serveurs � travers plusieurs donn�es diff�rentes centre. Nous avons donc besoin d'une aide � comprendre le comportement du syst�me, des outils d'analyse des probl�mes de performance, de sorte que le cas d'�chec de localiser rapidement et de r�soudre les probl�mes.

composante de surveillance de lien complet se pose dans ce contexte du probl�me. Le plus c�l�bre est des documents publics Google Dapper Google mentionn�s. Vous voulez comprendre le comportement des syst�mes distribu�s dans ce contexte, il est n�cessaire de surveiller les applications � travers diff�rentes actions associ�es entre diff�rents serveurs.

Par cons�quent, l'architecture micro-services dans les syst�mes complexes, presque toutes les demandes de fin avant sont distribu�s pour former un lien d'appel de service complexe. Vous pouvez demander une cha�ne d'appel complet comme indiqu� ci-dessous:

Ainsi, dans l'�chelle de l'entreprise augmente, et le nombre croissant de services et de fr�quents changements de circonstances, face � un lien d'appel complexe apportera une s�rie de questions:

Comment trouver rapidement le probl�me?
Comment d�terminer la port�e de l'�chec?
Comment trier le service et le caract�re raisonnable de la confiance d�pend?
Comment analyser le lien en temps r�el les probl�mes de performance et de la planification des capacit�s?

En m�me temps, nous sommes pr�occup�s par les indicateurs de performance au cours du traitement des demandes de chaque appel, comme: Throughput (TPS), le temps de r�ponse et la journalisation des erreurs.

Certains topologie calcul�e composant correspondant, la plate-forme, le dispositif physique en fonction du d�bit en temps r�el.
Temps de r�ponse, temps de r�ponse, y compris le temps de r�ponse global de chaque appel et de service et ainsi de suite.
enregistrement d'Erreurs, le rendement par unit� de temps en fonction des temps d'exception de services statistiques.

performance lien complet affichage surveillance de la dimension � la dimension locale des indicateurs sera appliqu�e sur toutes les informations la performance cha�ne d'appel expression concentr�e, peut facilement mesurer la performance globale et locale, et facile � trouver la source du d�faut produit, peut production consid�rablement raccourcir le temps de d�pannage.

Avec l'outil de suivi complet de lien, nous avons pu r�aliser:

Demande de suivi des liens, la localisation rapide des d�fauts: Vous pouvez localiser rapidement les informations du journal d'erreur en appelant la cha�ne de regroupement d'entreprises.
Visualisation: les diff�rentes �tapes du temps et de l'analyse des performances.
Optimisation d�pendante: la disponibilit� des diff�rents aspects de l'appel, le cardage et l'optimisation des d�pendances de service.
L'analyse des donn�es, optimiser le lien: l'utilisateur peut obtenir le chemin de comportement, analyse group�e utilis�s dans de nombreux sc�narios d'entreprise.

1 objectifs et exigences

Comme mentionn� ci-dessus, nous s�lectionnons la composante surveillance lien complet qui cible l'exigent? Google Dapper a �galement mentionn�, sont r�sum�s comme suit:

1. Sonde de consommation de performance

APM affectent les composants du service devraient faire assez peu. appel de service Buried lui-m�me apportera une perte de performance, qui ont besoin d'appeler le tra�age � faible perte, mais aussi par la configuration r�elle du mode de fr�quence d'�chantillonnage, s�lectionnez la partie de la demande d'analyser le chemin de la requ�te. Dans un service hautement optimis�, m�me un peu de perte sera tr�s facile � d�tecter, et peut forcer l'�quipe de d�ploiement du syst�me de suivi des services en ligne a d� fermer.

2. Code invasif

Qui est aussi un volet commercial, il devrait �tre peu ou pas d'intrusion d'intrusion que d'autres syst�mes d'entreprise pour la transparence des consommateurs, r�duire le fardeau des d�veloppeurs.

Pour les programmeurs ne demande pas besoin de savoir qu'il ya une telle chose comme un syst�me de suivi. Si vous voulez un syst�me de suivi prenne effet, il est n�cessaire de compter sur les d�veloppeurs d'applications prendre l'initiative de coop�rer, le syst�me de suivi est trop fragile, souvent en raison du syst�me de suivi de n�gligence ou d'un bogue utilis� dans les implants causent les probl�mes de code d'application, ce n'est pas ce syst�me de suivi pour r�pondre � la demande de � d�ploiement omnipr�sent �.

3. Evolutivit�

Un syst�me de suivi bon appel doit prendre en charge le d�ploiement distribu�, une bonne �volutivit�. Plus le meilleur cours aux composants de soutien. Ou fournir plug-in API de d�veloppement pratique, pour certains il n'y a pas de suivi des composants, les d�veloppeurs d'applications peuvent �galement d�velopper leurs propres moyens.

4. Analyse des donn�es

Analyser les donn�es plus rapide, analyse dimensionnelle, autant que possible. Syst�me de suivi peut fournir des informations de retour assez rapide, vous pouvez faire une r�ponse rapide � une situation anormale dans un environnement de production. Une analyse compl�te, afin d'�viter le d�veloppement secondaire.

2 modules de fonction

plein syst�me g�n�ral de contr�le des liens, peut �tre divis� en quatre blocs fonctionnels:

Et g�n�rer journal 1. Buried

Enterr� dans le cadre du syst�me d'information qui est le nud actuel, il peut �tre divis� en points enterr� client, enterr� points d'extr�mit� de service, ainsi que le point bi-enterr� client et le serveur. Buried journal de temps de d�marrage contient g�n�ralement le traceId suivant, spanId, appel, type de protocole, ip de l'appelant et le port, les demandes de nom de service, appelez le temps, le r�sultat de l'appel, des informations d'exception, etc., et peut �tre r�serv� pour le champ �tendu pour l'�tape suivante pour se pr�parer � l'expansion;

Non Cause frais g�n�raux de performance: une valeur n'a pas �t� v�rifi�e, mais elle aura une incidence sur la performance des choses, il est difficile de promouvoir l'entreprise!
Parce que le journal d'�criture, d'affaires QPS plus, l'impact des performances plus s�v�res. R�solus par �chantillonnage et le journal asynchrone.

2. collecte et enregistre les journaux

Le support principal distribu� programme de collecte de journal, tout en augmentant MQ comme une m�moire tampon;

Il y a un deamon journal pour faire de recueillir sur chaque machine, entreprise traite sa propre trace envoy� au d�mon, d�mon d'envoyer une collection Trace;
collecteur multicellulaires pub similaire / sous architecture, �quilibrage de charge;
L'analyse en temps r�el des donn�es agr�g�es et le stockage hors ligne;
analyse hors-ligne doit �tre agr�g�es ensemble pour connecter une cha�ne d'appel du m�me;

3. Analyse statistique et lien appel de donn�es, et l'actualit�

Suivi analyse de la cha�ne d'appel: le m�me TraceID de Span, tri�es par temps est la ligne de temps. ParentID consiste � encha�ner la pile d'appel.

Jeter une exception ou un d�lai d'attente, impression TraceID dans le journal. requ�te TraceID en utilisant la cha�ne d'appel, le probl�me de positionnement.

mesure d�pendante:

La forte d�pendance: un appel direct n'a pas r�ussi � interrompre le flux principal
d�pendant fortement: un lien pour appeler une forte probabilit� d'une personne � charge
Souvent, il repose sur: un lien avec un appel � compter le plus souvent

Analyse hors ligne: r�sum� de TraceID, par Span ID et appel ParentID restaurer les relations, sous forme d'analyse des liens.

Analyse en temps r�el: analyse directe d'un journal unique, pas un r�sum�, la restructuration. Obtenez le QPS actuel, retard.

4. spectacle et aide � la d�cision

3 Google Dapper

3.1 Span

L'unit� de base de travail, un appel de liaison (qui peut �tre pas RPC, DB restriction particuli�re comme) pour cr�er une p�riode, il est identifi� par un ID 64 bits, uuid plus pratique, il existe d'autres donn�es de port�e telles que les informations de description, l'horodatage , l'information d'�tiquette (Annotation) de paires de valeurs de cl�, l'parent_id analogue, dans lequel la dur�e peut repr�senter un identifiant de source de liaison parent d'appel.

La figure illustre la port�e est en quelque sorte dans un grand processus de suivi. Les noms de port�e enregistr� dapper, et chaque ID de port�e et l'ID de parent, de reconstruire la relation entre la dur�e diff�rente au cours d'une piste. Si la dur�e est pas un ID parent est appel� dur�e de racine. Tous dur�e sont accroch�s sur une piste particuli�re, partager aussi un identifiant de suivi.

Structure de donn�es Span :

Span de type struct { TraceID int64 // utilis� pour identifier un identifiant de demande compl�te cha�ne nom ID int64 // L'appel en cours span_id ParentID // int64 appel haut span_id du service parent_id de service sup�rieur est nul Annotation Annotation // pour le timbre marquage bool d�bogage }

3,2 Trace

SIMILAR Span ensemble structure d'arbre Repr�sentant une piste compl�te, commence par une requ�te au serveur, le serveur renvoie une fin de la r�ponse, du temps piste appel rpc � chaque fois il y a un trace_id d'identification unique. Par exemple: un grand stockage de donn�es distribu�es, vous ex�cutez une trace sur votre premi�re demande de la composition.

Chaque note de couleur une dur�e marqu�e, un lien est identifi� de mani�re unique par TraceId informations de requ�te identifiant Span initi�e. Le noeud de l'arbre est l'unit� de base de la structure enti�re, et chaque noeud est � son tour une r�f�rence � la dur�e . dur�e repr�sente la connexion entre le noeud et sa dur�e parent une relation directe. Alors que la dur�e dans le fichier journal repr�sente tout simplement le d�but et la dur�e de l'heure de fin, leur structure d'arbre entier est relativement ind�pendante.

3.3 Annotation

Annotation, la demande d'enregistrement d'une information li�e � la manifestation particuli�re (par exemple le temps), il y aura une pluralit� de dur�e d'annotation d�crit annotations . composent habituellement de quatre notes des informations:

(1) cs : D�marrer client, repr�sente client envoie une demande (2) sr : Recevoir le serveur, repr�sente le serveur re�oit la demande (3) ss : Serveur Envoyer, repr�sente le serveur de traitement de finition, et envoie les r�sultats au client (4) cr : Re�u client, repr�senter le client au serveur pour obtenir des informations de retour

structure de donn�es d'annotation :

Type struct {Annotation timestamp int64 valeur cha�ne Point final h�te dur�e int32 }

3.4 Exemple d'appels

1. La demande d'appel exemplaire

Quand un utilisateur lance une demande, il atteint d'abord le service d'extr�mit� avant A, le service B, puis C, respectivement service d'appel RPC;

B r�pond � la fonction transform�e A, le service demand�, mais le C et D apr�s le service et le E d'interaction de service et sont ensuite retourn�s � l'extr�mit� arri�re du service A, et finalement de A � r�pondre � l'utilisateur demande au service;

2. Processus de suivi des appels

Appelez le suivi de l'ensemble du processus:

Demande arrive g�n�rer une TraceID globale, � travers toute la s�rie de TraceID peut appeler la cha�ne, un TraceID au nom d'une demande.
En plus de TraceID, mais aussi vous devez les relations entre parents et enfants des appels record. Chaque service enregistre id parent et span id, ils peuvent organiser les relations parent-enfant par une cha�ne compl�te d'appel.
Sans un ID parent de la dur�e pour devenir dur�e de la racine, on peut voir que l'entr�e de la cha�ne d'appel.
Tous ces �l�ments sont disponibles ID unique au monde entier de 64 bits;
Le processus d'appel entier chaque demande doit passer par TraceID et SpanID.
Les temps pour chaque demande de service et d'accompagnement TraceID accompagnant SpanID comme record id parent, et l'SpanID auto-g�n�r� �galement enregistr�.
Pour afficher un temps d'appel complet pour d�tecter des appels tant que dossiers selon TraceID, l'appel entier de la relation parent-enfant par ID parent et organisation span id.

3. Appelez le travail de base de la cha�ne

g�n�ration de donn�es de la cha�ne d'appel , Toutes les demandes ont �t� enterr�es point entier du processus d'appel et la sortie du journal.

la collecte de donn�es de la cha�ne d'appel Chaque journal des applications d'acquisition de donn�es.

stockage appel de donn�es de la cha�ne et de recherche Les donn�es recueillies sont stock�es, en raison de la quantit� de donn�es de journal est g�n�ralement importante, non seulement pour son stockage, doivent �galement �tre en mesure de fournir requ�te rapide.

calcul d'index, le stockage et la recherche Le calcul des donn�es de journal des indicateurs collect�s, le r�sultat du calcul est enregistr�.

Fonction d'alarme Il offre une vari�t� de la fonction d'avertissement de seuil.

4. L'architecture globale de d�ploiement

architecture de d�ploiement globale

Par AGENT g�n�re une cha�ne de journal des appels.

En recueillant logstash journal � kafka.

kafka responsable de la fourniture des donn�es � la consommation en aval.

r�sultat du calcul de la convergence des temp�tes et l'indice de chute es.

l'extraction des donn�es de trace et la temp�te tombe es, ce qui est des requ�tes plus complexes afin de fournir . Par exemple, la cha�ne d'appels de requ�te par la dimension temporelle, vous pouvez v�rifier rapidement toutes les traceID correspondant, Selon ces traceID vont v�rifier les donn�es sur le je�ne Hbase .

Les donn�es brutes logstash kafka HBase � tirer dans. HBase de RowKey est traceID, selon requ�te traceID est rapide .

5. Agent de d�ploiement non invasive

AGENT MANDATAIRE par le d�ploiement non-invasive, la mesure du rendement et la s�paration compl�te de la logique de service, toute m�thode permet de mesurer le temps d'ex�cution de toute classe, de cette fa�on augmente consid�rablement l'efficacit� de la collecte et de r�duire les co�ts op�rationnels. Selon la dur�e de service divis� en deux cat�gories AGENT :

a. au sein de l'agent de service De cette fa�on, le niveau d'appel de m�thode donn�es d'information de service interne recueillies par les m�canismes d'agent de Java, telles que l'invocation de la m�thode de temps, le S�nat, le ginseng et d'autres informations.

b. AGENT Croix service Cette situation doit int�grer le cadre RPC apporte un soutien sans faille pour les plug-ins. Sp�cification en fournissant des trames de donn�es standard pour accueillir RPC personnalis�:

(1) support Dubbo; (2) support d'appui; (3) personnalis� support RPC; 6. Appel avantages surveillance de la cha�ne

Une connaissance pr�cise du d�ploiement des applications de ligne de production ;

D'un point de performance d'appeler l'ensemble de la cha�ne de processus, Identification de la cha�ne d'appel cl� et l'optimisation ;

Fournir la tra�abilit� des donn�es de performance , Quantifier la valeur commerciale du service d'exploitation et de maintenance informatique;

Trouvez rapidement les probl�mes de performance de code Pour aider les d�veloppeurs � optimiser la continuit� de code;

Aider les d�veloppeurs � tests bo�te blanche , R�duire la stabilit� du syst�me en ligne;

4 Comparaison des plans

La plupart de suivi complet-Link mod�les th�oriques sur le march� sont Google Dapper tirage sur papier, ce document se concentre sur les trois �l�ments suivants APM:

Zipkin: par Twitter Open Company Source, distribu� syst�me de suivi open source pour les services de collecte r�guli�re de donn�es, afin de r�soudre le probl�me de retard microarchitecture-service, y compris: la collecte de donn�es, le stockage, la recherche et du spectacle.
Pinpoint: outil d'APM pour une grande �chelle des syst�mes distribu�s en Java, open source distribu� par le composant de suivi cor�en.
Skywalking: APM composants internes en cours, il est suivi, syst�mes d'alerte et d'analyse pour clusters application distribu�e op�ration commerciale JAVA.

Ceux-ci doivent comparer les �l�ments extraits trois programmes de surveillance tout lien:

Performance de la sonde

Le principal effet de l'agent pour un d�bit de service, le processeur et la m�moire. taille micro et de la dynamique des services rend le co�t de la collecte des donn�es grandement am�lior�e.

l'�volutivit� du collecteur

Il peut �voluer horizontalement pour soutenir les clusters de serveurs � grande �chelle.

Une analyse compl�te de la liaison de donn�es d'appel

Fournir une visibilit� au niveau du code pour localiser facilement le point de d�faillance et les goulets d'�tranglement.

Pour le d�veloppement d'un transparent, facile � changer

Ajouter de nouvelles fonctionnalit�s sans avoir � modifier le code, facilement activ� ou d�sactiv�.

L'application de la topologie de la cha�ne d'appel compl�te

D�tection automatique de la topologie de l'application, pour vous aider � d�terminer l'architecture d'application

4,1 sonde de performance

Plus pr�occup� par la performance de la sonde, apr�s tout, le positionnement de l'outil APM ou, si un lien est �tabli pour permettre le suivi, un r�sultat direct du d�bit inf�rieur � la moiti�, ce qui est inacceptable. Pour skywalking, Zipkin, la pression ponctuelle a �t� mesur�e, et compar�e � la situation de r�f�rence (sonde non utilis�e).

A choisi un commun des applications � base de printemps, il comprend Spring Boot, Spring MVC, Redis client, mysql. Contr�le de l'application, chacun de la trace, la sonde 5 extractions port�e (1 Tomcat, 1 SpringMVC, 2 Jedis, 1 Mysql). Voici les applications de base et de test skywalkingtest presque.

Trois simul� utilisateurs simultan�s: 500,750,1000. Jmeter test d'usage, chaque fil 30 transmet des demandes de r�gler les 10ms de temps de r�flexion. Une fr�quence d'�chantillonnage utilis�e, � savoir 100%, et le c�t� de production peuvent �tre diff�rents. localiser avec pr�cision la fr�quence d'�chantillonnage par d�faut de 20, � savoir 50%, en r�glant le profil de l'agent � 100%. Zipkin d�faut est 1. Ensemble, un total de 12 esp�ces. Le regard de tableau r�capitulatif ci-dessous:

Comme on peut le voir dans le tableau, les trois modules de surveillance liaison, avec un impact minimal sur le d�bit sonde skywalking, centr�e d�bit Zipkin. l'impact sur le d�bit Pinpoint sonde plus �vidente � 500 utilisateurs simultan�s, le d�bit est r�duit de services de d�pistage 1385-774, un grand impact. Et puis regardez sous l'influence de la CPU et de la m�moire, des mesures de pression effectu�es dans la m�moire du serveur et de l'impact du processeur sont similaires � 10%.

Extensibilit� de 4,2 collecteur

�volutivit� de collecteur, ce qui permet � l'�chelle horizontalement pour soutenir les clusters de serveurs � grande �chelle.

Zipkin

D�veloppement Zipkin-serveur (en fait, hors de la bo�te qui est fourni avec le package), Zipkin-agent et Zipkin-serveur via http ou mq communiquer, communication http aurait une incidence sur l'acc�s normal, il est donc recommand� communication asynchrone bas�e mq, Zipkin -Server pour la consommation en vous inscrivant � un sujet sp�cifique. Bien s�r, cela peut �tre �tendu, plusieurs informations de surveillance de l'instance Zipkin-serveur consommation asynchrone de mq.

skywalking

skywalking le collecteur prend en charge deux options de d�ploiement: autonome et le mod�le de cluster. communication de l'agent entre le collecteur et l'utilisation GRPC.

Pinpoint

De m�me, les clusters et Pinpoint prend �galement en charge le d�ploiement autonome. �pargne agent ponctuelle par trame de communication, transmet un lien vers des informations au collecteur.

4.3 Analyse compl�te de liaison de donn�es d'appel

Une analyse compl�te de la liaison de donn�es d'appel, en offrant une visibilit� du niveau de code afin de localiser facilement le point de d�faillance et les goulets d'�tranglement.

Zipkin

lien Zipkin surveillance granularit� relativement moins fine Sur la carte vous pouvez voir la sp�cifique de la cha�ne d'appel au niveau de l'interface, des informations d'appel ne participe pas.

skywalking

skywalking �galement middleware, supports 20+ cadres, des biblioth�ques, telles que: Dubbo grand public, Okhttp, ainsi que DB et middleware de messagerie. La figure skywalking analyse des liens d'appel est relativement simple service d'appel d'utilisateur de la passerelle d'interception, en raison du soutien de nombreux middleware, skywalking si l'analyse des liens d'appel plus Zipkin complet.

Pinpoint

APM devrait identifier ces trois composants, Les plupart des composants d'analyse de donn�es compl�te . Fournir une visibilit� au niveau du code pour localiser facilement le point de d�faillance et les goulets d'�tranglement sur la carte, vous pouvez voir l'ex�cution de l'instruction SQL, il a �t� enregistr�. Il peut �galement les r�gles d'alarme configure, la personne en charge de chaque ensemble correspondant � l'application, selon les r�gles d'alarme configur�es, cadre middleware pris en charge et aussi plus compl�te.

4.4 pour le d�veloppement d'un transparent, facile � changer

Pour le d�veloppement de la transparence, facile de changer, ajouter de nouvelles fonctionnalit�s sans avoir � modifier le code, facilement activ� ou d�sactiv�. Nous attendons la fonction avant ne peut pas modifier le code du travail et que vous voulez obtenir la visibilit� du niveau de code.

Pour cela, Zipkin utiliser la biblioth�que modifi�e et sa propre fonction conteneur (Finagle) pour fournir le suivi des transactions distribu�es. Cependant, il n�cessite des modifications de code n�cessaires. skywalking et sont bas�es sur l'am�lioration bytecode Pinpoint mani�re, les d�veloppeurs ne ont pas besoin de modifier le code, et peut recueillir des messages de donn�es plus pr�cises, car il y a plus de codes d'octets.

4.5 topologie de la cha�ne d'appel compl�te d'application

D�tection automatique de la topologie de l'application, pour vous aider � d�terminer l'architecture de l'application.

Les trois photos ci-dessus ont �t� expos�es leurs composants APM de la topologie d'appel, peut atteindre une topologie de cha�ne d'appel d'application compl�te. Relativement parlant, les �crans d'interface Pinpoint plus riche, sp�cifique � l'appel du nom DB, topologie Zipkin un service limit� entre le service.

4.6 Pinpoint comparer et affiner Zipkin

4.6.1 Pinpoint les diff�rences Zipkin

Pinpoint est une solution de surveillance compl�te de la performance: il y a de la sonde, collecteur, syst�me de stockage � une interface Web compl�te et ainsi de suite, et Zipkin se concentrer uniquement sur le service de collecte et de stockage, bien qu'il existe une interface utilisateur, mais sa fonction est tout � fait diff�rente avec Pinpoint . Au lieu de cela, il est pr�vu Zipkin l'interface de requ�te, l'interface utilisateur plus puissant et des capacit�s d'int�gration de syst�me, bas� sur le d�veloppement secondaire de l'interface.

l'interface officielle Zipkin a fond� le cadre Finagle (langage Scala), tandis que l'autre interface cadre par les contributions de la communaut�, prend actuellement en charge Java, Scala, Noeud, Go, Python, Ruby et C # et d'autres langues de d�veloppement grand public et des cadres, mais Pinpoint actuellement seulement sondes Java Agent fournies par le fonctionnaire, l'autre � la demande de soutien communautaire (voir # 1759 et # 1760).

Pinpoint fournit sonde Java Agent par bytecode pour r�aliser des appels d'interception et la collecte de donn�es, le code peut �tre vraiment non-invasive, seulement besoin d'ajouter des param�tres lors du d�marrage du serveur, vous pouvez compl�ter le d�ploiement de la sonde; le Zipkin Java Interface Brave, � condition que l'API des op�rations de base, ou si vous avez besoin d'int�grer le cadre du projet, vous devez ajouter manuellement le fichier de configuration ou ajouter du code.

stockage back-end � base Pinpoint HBase et Zipkin bas� sur Cassandra.

4.6.2 similitude avec Pinpoint Zipkin

Pinpoint et Zipkin que le papier reposent sur Google Dapper, donc les fondements th�oriques de la m�me. Les deux sont divis�s en plusieurs appels de service Span relation en cascade, la relation entre les appels en cascade dans SpanId et ParentSpanId, puis toutes derni�re cha�ne d'appel Span passe par une convergence de trace, rapport� au service mettre fin � collecteur pour la collecte et le stockage.

M�me � ce stade, le concept adopt� par Pinpoint pas tout � fait conforme � ce document. Par exemple, il utilise TransactionId pour remplacer TraceId, alors que le vrai TraceId est une structure qui contient TransactionId, SpanId et ParentSpanId. Dans ce qui suit Pinpoint et Span SpanEvent ajout� une structure utilis�e pour enregistrer un appel Span des d�tails internes (tels que l'appel de m�thode particuli�re, etc.), de sorte enregistrement de donn�es par d�faut Pinpoint plus de trace Zipkin.

Mais la th�orie n'est pas la taille des particules limit�e Span, de sorte qu'un appel de service peut �tre une p�riode, puis les appels de m�thode pour chaque service peut aussi �tre un Span, donc, en fait, Brave peut aussi �tre attribu�e au niveau d'appel de m�thode, mais la mise en uvre sp�cifique et Je ne le faisais pas.

4.6.3 bytecode vs appels API

Pinpoint a r�alis� la sonde Java Agent � base bytecode et Zipkin le cadre Brave ne fournit que l'API niveau de l'application, mais � la r�flexion, le probl�me est loin d'�tre simple. l'injection de bytecode est une solution simple et brute, en th�orie, ind�pendamment des appels de m�thode, d'interception peut �tre obtenue au moyen d'injection de code, qui est impossible � r�aliser, ne pas atteindre. Mais Brave est diff�rent, API niveau d'application qui fournit un cadre pour les facteurs sous-jacents ont �galement besoin de soutien pour r�aliser l'interception.

Par exemple, le pilote JDBC MySQL, il est pr�vu une m�thode injection intercepteur, et donc seulement besoin de mettre en uvre l'interface StatementInterceptor et configurer la cha�ne de connexion, vous pouvez la mise en uvre tr�s simple de l'interception pertinente, tandis que d'autre part, la version basse MongoDB conducteur ressort donn�es MongoDB ou la r�alisation d'une telle interface ne veulent pas r�aliser la fonction aux requ�tes d'interception, il est plus difficile.

Donc, � ce stade, Brave est erron�e, peu importe la fa�on dont bytecode difficile, mais au moins il est possible de r�aliser, mais il n'y a aucun moyen de d�marrer le Brave possible, mais si vous pouvez injecter, dans quelle mesure peut injecter plus en fonction de l'API-cadre au lieu de leurs propres capacit�s.

4.6.4 difficult� et le co�t

Apr�s un simple, lire le code Pinpoint et Brave widget peut �tre trouv� difficile � obtenir � la fois une grande diff�rence. Dans les deux cas l'absence de toute documentation � l'appui au d�veloppement de la pr�misse, Brave facile � utiliser que Pinpoint. Brave petite quantit� de code, les fonctions de base sont concentr�s dans ce module courageux-core, un d�veloppeur de niveau interm�diaire, vous pouvez lire son contenu en un jour, et peut avoir une compr�hension tr�s claire de la structure de l'API.

paquet de code Pinpoint est �galement tr�s bon, en particulier pour le paquet sup�rieur de l'API bytecode est tr�s bon, mais il faut encore du personnel de lire bytecode combien ont une certaine compr�hension, bien qu'il utilis� pour injecter du code et l'API de base pas beaucoup, mais � une compr�hension approfondie de l'agent de code correspondant probablement la profondeur, comme il est difficile de comprendre un coup d'oeil la diff�rence entre addInterceptor et addScopedInterceptor, qui est situ� � environ deux m�thodes de type agent.

Parce que l'injection Brave repose sur le cadre sous-jacent fournit une interface pertinente, et n'a donc pas besoin d'avoir une compr�hension globale du cadre, il suffit de savoir o� injecter en mesure, quelles donn�es peuvent �tre acquises au moment de l'implantation sur elle. Comme dans l'exemple ci-dessus, on n'a pas besoin de conna�tre le pilote JDBC MySQL est comment atteindre peut faire pour intercepter les capacit�s SQL.

Mais PinPoint pas, parce que �pinglent tout code peut �tre inject� en tout lieu, ce qui oblige les promoteurs � base de code inject n�cessaire pour obtenir une compr�hension approfondie de MySQL en regardant et r�aliser Http client plug-in divin bien s�r, cela montre aussi la capacit� de Pinpoint peut �tre tr�s puissant en effet d'une autre dimension, et sa mise en uvre par d�faut des plug-ins ont fait beaucoup d'interception � grain tr�s fin.

En l'absence de cadre sous-jacent pour l'API ouverte, en fait, Brave ne fait pas tout � fait rien, on peut prendre le mode AOP, le cas �ch�ant pour intercepter peut �tre inject� dans un code sp�cifique et des applications apparemment AOP beaucoup plus simple que bytecode.

Ces co�ts directement li�s � la r�alisation d'un moniteur, dans la documentation technique officielle de Pinpoint, compte tenu des donn�es de r�f�rence. Si l'int�gration d'un syst�me, les co�ts de d�veloppement 100 est prise Pinpoint int�gr� dans le syst�me, le co�t de ce plug-in est 0, mais courageux, plug-ins co�t de d�veloppement seulement 20, 10 et les co�ts d'int�gration. De ce point, on peut voir que le co�t des donn�es de r�f�rence est donn�e officielle 5: 1.

Mais le fonctionnaire a �galement soulign� que, s'il y a 10 syst�mes doivent �tre int�gr�s, le co�t total est de 10 * 10 + 20 = 120, il est au-del� du frais de d�veloppement Pinpoint 100, et plus la n�cessit� d'int�grer les services, l'�cart sera.

4.6.5 polyvalence et �volutivit�

De toute �vidence, cela est tout � fait un d�savantage sur Pinpoint, d�velopp� � partir de l'interface d'int�gration communautaire peut �tre vu.

interface de donn�es Pinpoint manque de documentation, mais aussi moins standard (voir le fil du forum de discussion), vous devrez peut-�tre lire beaucoup de code pour r�aliser sa propre sonde (tel que le nud ou PHP). Et l'�quipe d'envisager d'utiliser la performance Thrift que les normes de protocole de transmission de donn�es, en termes de HTTP et JSON par rapport � beaucoup plus difficile.

4.6.6 Soutien communautaire

Il est �galement inutile de dire, Zipkin d�velopp� par Twitter, il peut �tre consid�r� comme une �quipe d'�toiles, alors que l'�quipe de Naver est juste une petite �quipe inconnue (de la discussion # 1759 peut �tre vu). Bien que ce projet ne risque pas de dispara�tre ou la mise � jour d'arr�t � court terme, mais apr�s tout, que le premier est plus � l'aise avec eux.

Et il n'y a pas plus d�velopp� plug-in communautaire, laissez l'�quipe Pinpoint � ne compter que sur ses propres forces, il est difficile d'achever l'int�gration de nombreux cadres, et leur objectif actuel est encore sur l'am�lioration des performances et de la stabilit�.

4.6.7 Autres

Pinpoint au d�but pour atteindre un probl�me de performance, la fin arri�re du site www.naver.com certains services et traite plus de 20 milliards de requ�tes par jour, donc ils choisiront Thrift longueur variable binaire format de codage, et utiliser UDP comme le transport lien, �galement possible d'utiliser une r�f�rence de dictionnaire de donn�es lors de la transmission constante, au lieu de transmettre directement une transmission num�rique comme une cha�ne. Ces optimisations augmente �galement la complexit� du syst�me comprennent: la difficult� d'utiliser l'interface Thrift, la transmission de donn�es UDP question et des constantes de donn�es des probl�mes d'enregistrement du dictionnaire et ainsi de suite.

En revanche, Zipkin utilisant des interfaces famili�res Restful, plus JSON, les co�ts presque pas d'apprentissage et des difficult�s d'int�gration, il suffit de savoir que la structure de transmission de donn�es, vous pouvez facilement un nouveau cadre pour d�velopper l'interface appropri�e.

De plus Pinpoint manque la possibilit� de demander des �chantillons, apparemment dans un grand environnement de production de flux, tous les dossiers ne sont pas susceptibles � toutes les demandes, ce qui exige que les �chantillons de demande afin de d�terminer quelle est ma demande � enregistrer. Pinpoint et Brave soutiennent le pourcentage d'�chantillonnage, qui est, quel est le pourcentage de demandes seront enregistr�es. Mais en plus Brave fournit �galement l'interface Sampler, vous pouvez personnaliser la strat�gie d'�chantillonnage, en particulier quand un test A / B de temps, cette fonction est tr�s significative.

4.6.8 r�sum�

Dans les objectifs � court terme, Pinpoint n'ont un �norme avantage: pas besoin d'apporter des modifications au code du projet peuvent �tre des sondes d�ploy�es, les donn�es de suivi � grains fins au niveau d'appel de m�thode, puissante interface utilisateur et le cadre presque plus complet pour soutenir Java . Mais � long terme, l'apprentissage interface de d�veloppement Pinpoint, ainsi que le co�t de mise en uvre future de l'interface est diff�rents cadres sont encore inconnus.

Au contraire, il est relativement facile de saisir les braves et les communaut�s Zipkin plus forte et plus susceptibles de d�velopper des interfaces plus � l'avenir. Dans le pire des cas, on peut aussi ajouter leur propre chemin � travers l'AOP est adapt� � la surveillance de notre propre code et n'a pas besoin d'introduire trop de nouvelles technologies et de nouveaux concepts. Et quand les changements d'affaires � l'avenir, si les rapports officiels Pinpoint r�pondent aux exigences ne disent pas, l'ajout de nouveaux rapports apportera pas de pr�dire la difficult� du travail et de l'effort.

5 diff�rence Tracing et moniteur

Le moniteur peut �tre divis� en surveillance de suivi et d'application. Le syst�me surveille les donn�es telles que la CPU, m�moire, r�seau, du disque et de sorte que la charge globale du syst�me, et peut affiner le sp�cifique de donn�es correspondant � chaque processus. Ce type d'information peut �tre obtenu directement � partir du syst�me. Applications Surveillance des applications qui n�cessitent un soutien, expose les donn�es appropri�es.

l'application QPS tels que la demande interne, le retard de traitement de demande, le num�ro d'erreur de demandes trait�es, la longueur de file d'attente de la file d'attente de messages, des accidents, des informations de proc�d� de collecte des ordures et analogues. Surveiller l'objectif principal est d'alarme inhabituelle et en temps opportun.

Tracing la base et le coeur de toute la cha�ne d'appel. La plupart sont li�s au syst�me m�trique analyse de la cha�ne d'appels pour se d�placer. Tracing principal objectif est d'analyser le syst�me. Avant de trouver des probl�mes que pour r�soudre les probl�mes et ensuite mieux.

Il y a beaucoup de points communs sur le tra�age et le niveau d'application pile de technologie Moniteur. Nous avons une acquisition de donn�es, l'analyse, le stockage et la formule d'exposition. Juste diff�rentes dimensions de la collecte de donn�es sp�cifiques, l'analyse ne sont pas les m�mes.

Route de la soie

Apprenez � conna�tre la Chine

Lien complet de suivi: Aper�u du programme et comparaison | vraiment sec