Architecture haute disponibilité Jingdong Mall plateforme de trading route

Auteur | Wang Zhong

Modifier | anneau en bois, Guo Lei

fournisseur d'électricité Jingdong dans l'ensemble du système, le système commercial qui occupe la moitié du panier, la facturation, l'inventaire, les prix et d'autres liens connexes sont inclus, on peut dire système d'échange de capacité haute disponibilité déterminent en grande partie le grand ensemble Jingdong Mall capacité disponible. L'année dernière, le système commercial Jingdong et faire ce que l'optimisation itérative? Quelle est l'innovation cette année là? la planification du système commercial global est un peu comment?

Les répondants invités Description

Wang Zhong Fournit un système pour assurer que le noyau de la transaction, à la barre, directeur senior de la plateforme de trading Jingdong Mall, or processus de transaction Jingdong et la commercialisation de la sagesse des écosystèmes, des produits et des équipe de recherche et de développement en tant que Jingdong Mall.

InfoQ: la plate-forme de négociation globale peut introduite dans le système-cadre actuel?

Wang Chung: Plateforme de Trading responsable de produit, le prix, l'utilisateur, l'inventaire, les commandes, et d'autres fournisseurs d'électricité de la fondation de base de l'information de gestion centralisée, ainsi que des services de contrôle et de plate-forme pour les caddies, la page de facturation, des coupons / cartes-cadeaux, des centres de commandes et d'autres processus de négociation d'or. Plateforme de trading dédiée à la technologie qui change la vie pour créer la commercialisation de la plate-forme de trading de sagesse. Pour fournir aux utilisateurs des processus de négociation de l'or, de fournir aux clients des solutions de marketing sagesse comprennent des suggestions publicitaires, le positionnement des stocks, des outils de marketing de sagesse intelligente, les services commerciaux pour l'équipe de recherche et de développement pour fournir un environnement stable et fiable.

  • canal L'entrée est des transactions source de trafic, principalement comprend plusieurs parties, PC, APP, micro-canal, la main-Q et ainsi de suite. APP actuellement entrée a occupé plus de 70% du trafic global.

  • paquet intégration abstraite et complète des services de base existants, les ressources existantes de services à un large éventail de façons de montrer au monde extérieur, l'organisation flexible et prend en charge plusieurs protocoles d'interaction, et, finalement, le système est modulaire, la plate-forme de services et de ses fonctions de. Réduire au minimum les composants externes couplés à la logique interne afin d'obtenir une réponse rapide à la demande.

  • Les services de base Situé au fond du processus d'or, le cur de sa plate-forme commerciale rôle de l'acteur. Lorsque des biens et services, services de prix, le service d'inventaire, le service à la clientèle, panier d'achat et donc est au cur du noyau.

  • Middleware, infrastructure Il est la pierre angulaire des services de base, offrant des performances élevées, une haute disponibilité du soutien technique pour les systèmes d'entreprise.

  • InfoQ: Au cours de la dernière année, la plate-forme de négociation en termes d'une base solide pour assurer que la plate-forme sous-jacente de faire ce que les choses? Quel est le point le lecteur peut se référer à apprendre?

    Wang Chung: En plus de cela que nous avons fait, il est devenu un travail de routine, telles que la mesure de pression de ligne, optimisation des performances, l'expansion, la reprise, limitation de courant, la rétrogradation, au cours de la dernière année, nous avons travaillé de bien en termes de système de maintien de la stabilité .

  • Le noyau surveillance de la chaîne d'appel . Chaque point d'entrée de service dans le commerce de l'or et les processus liés au service dépendent, comme appelant un suivi conjoint. Lorsque la performance du service, la disponibilité baisse, peut localiser rapidement le point de défaut. Les solutions de surveillance et de dépannage liées ensemble, comme un interrupteur à clé, la dégradation du service, limitation de courant, vous pouvez identifier et résoudre rapidement les problèmes.

  • passer automatiquement . Pour la procédure de transfert mature, comme la base de données de poste client, le cache et le service, lorsqu'un défaut est détecté, il peut être automatiquement commuté en fonction de la politique à la santé du nud, et passer automatiquement après une récupération du nud défaillant, ce qui réduit les erreurs à commande manuelle et temps, augmenter la disponibilité du système.

  • mode de programmation asynchrone . Une partie des services asynchrones par une transformation en profondeur pour améliorer le débit, il y a quelques effets. Cependant, en raison du asynchrone pur pour la modernisation des systèmes existants ou grand, il tente encore à l'étape de l'avant.

  • pool de ressources partagées . Préparer à l'avance une partie des ressources partagées piscine, chaque combinaison de services, généralement fixé un poids inférieur. Lorsque le manque de ressources conventionnelles pour un groupe de services, a augmenté sa part dans la bonne piscine du poids, de sorte que vous pouvez utiliser rapidement des ressources, plutôt qu'une extension temporaire.

  • Mesure Lien pression . Démarrez la simulation du comportement des utilisateurs de la mesure de la pression d'entrée, le débit à travers les dépendances transitif, de parcourir, rechercher et soumettre des ordres à la production finale, couvrir automatiquement tous les aspects du lien. Avec la surveillance chaîne d'appel de base mentionné ci-dessus, la pression mesurée dans le passé pour adresse seulement un service unique couvrant les problèmes d'insuffisance de surface.

  • À mesure que votre entreprise se développe, la complexité de la fonction est également de plus en plus, localiser la panne devient difficile, parce que plusieurs fois la ligne échoue la plupart du temps à localiser le problème, résoudre le problème tant qu'il ya des plans peuvent traiter rapidement . suivi d'appel de la chaîne est très importante, nous pouvons passer du point de vue d'ensemble, localiser rapidement les problèmes, et les plans d'échecs de manutention combinés peuvent résoudre nos points de douleur.

    Avec l'expansion continue des services, le nombre de machines augmente, en cas de problèmes, bugs ralentissements de correctifs, le basculement automatique peut débloquer manuellement pour gérer des choses plus importantes, de sorte que nous ne pouvons pas toujours faire face à l'échec au milieu de la nuit .

    InfoQ: service de plate-forme de négociation est actuellement à diviser en fonction de quelles dimensions?

    Wang Chung: négocie actuellement la plate-forme basée principalement sur la capacité opérationnelle des services de diviser: panier, pages de facturation, les promotions, les prix, les stocks, matières premières et d'autres utilisateurs pour PC, téléphone mobile, micro-canal et d'autres canaux pour fournir un support et un grand bureau très fiable.

    Cet avantage est le mode divisé:

  • Architecture stable, parce que la capacité opérationnelle relativement stable et indépendante de l'autre.

  • L'équipe de développement est autonome, organisé autour plutôt que les caractéristiques techniques pour offrir une valeur commerciale.

  • La coopération entre les services, faiblement couplés.

  • InfoQ: Pouvez-vous parler des solutions de chaque système de surveillance de l'entreprise, les systèmes, les infrastructures, trois niveaux?

    Wang Chung: Face à la grande échelle des systèmes distribués tels que Jingdong, tout le serveur de temps peut être en panne, probablement dans le réseau à tout gigue de temps, un grand nombre de l'interface appelle le volume moyen quotidien de milliards de dollars, alors que les ventes ont un effet d'agrégation du trafic, il y aura plusieurs vagues tous les jours, Si vous ne disposez pas d'un système de surveillance forte, comme nous venons de analphabète. Après des années d'efforts, Jingdong a formé plusieurs ensembles de systèmes de surveillance, mis en place un système de surveillance relativement complet pour surveiller en permanence l'état de santé du système, et la première fois l'alerte rapide en cas de problèmes sont les suivants:

    1) surveiller le niveau opérationnel, le noyau principal des indicateurs d'activité, tels que le volume des commandes en temps réel de chaque dimension, et les canaux de presse, les provinces, les opérateurs, salle informatique, catégorie, et d'autres événements répartis, donc en même temps pour détecter les changements dans les paramètres d'activité de base, vous pouvez localiser rapidement, les problèmes de dépanner et faire des interventions d'urgence.

    2) la surveillance de niveau du système, la principale méthode consiste à appeler la quantité de blocs de code, le taux de succès et le temps de réponse. En même temps, il existe différents indicateurs de suivi de la plate-forme spécifiques de langue, telles que les applications Java, nous sommes également très préoccupés par les conditions JVM GC. Ces indicateurs seront progressivement agrégés on calcule par grappes instance, la salle des machines et ainsi de suite. Pour le temps de réponse, nous sommes plus préoccupés par TP99 TP999 même un indice inférieur à un seuil prédéfini déclenche une alarme. Sur la base des données de performance collectées sur une interface unique, nous demanderons une série de la chaîne de sous-accès par des appels à la chaîne ensemble, y compris entre les services RPC, l'accès à la cache, l'accès base de données, etc., pour atteindre les faiblesses de la chaîne d'appels de découverte rapide, solution rapide.

    3) l'infrastructure de surveillance, principalement à la qualité du réseau de surveillance et de la santé de la machine, comme la bande passante conventionnelle, la perte de paquets, la retransmission, la connectivité, CPU, mémoire, disque, et ainsi de suite. Dans le réseau, en plus du réseau interne, nous sommes également très préoccupés par la qualité du réseau public, une fois que l'opérateur ou d'un problème régional se trouve, il fera immédiatement un plan d'intervention, 7 * 24 heures pour faire en sorte que les utilisateurs du shopping expérience.

    Dans les indicateurs de suivi parfaits, nous surveillons plus dans la résolution de leur retard. Jingdong propre Sheremetyevo, donc sans affecter leur performance commerciale pour améliorer la surveillance du retard, il est un défi en soi. Nous sommes actuellement au niveau opérationnel, au niveau du système ont fait secondes granularité, un indicateur important dans l'infrastructure a également été données au deuxième niveau. Dans l'avertissement, en plus de courrier traditionnel, la messagerie texte, nous intégrons des outils internes Jingdong IM, ainsi qu'un appel téléphonique vocal.

    Ce grand nombre d'indicateurs, les données devant une telle amende, le tableau de bord de surveillance traditionnelle nous fait aussi perdu à nouveau, nous avons donc développé l'oeil dans le ciel chaque système de surveillance sera encore sous-systèmes intégrés, combinée à la chaîne d'appel mentionné ci-dessus, et plus sur un grand écran divers aspects des processus de base principaux, chacun appellent les niveaux actuels de santé en bref, en cas d'échec, nous pouvons réagir rapidement et de récupérer dans un court laps de temps.

    InfoQ: Pour le trafic d'attaque malveillante, Jingdong prêt à faire ce travail? Préparer la façon de prévenir?

    Wang Chung: attaques de trafic malveillant, est le problème chaque entreprise Internet doit faire face. À l'heure actuelle, nous avons une attaque de trafic divisé en deux catégories: la couche de protocole de réseau et la couche logique d'application.

    couches de protocole réseau, principalement SynFlood, UDPFlood, DNSFlood, HTTPFlood ces 4 couches ou couche 7 attaques diverses accords de trafic, principalement dans la bande passante du service ou la consommation de ressource. À l'heure actuelle, nous sommes en mesure de se défendre contre les attaques de l'analyse des flux de trafic malveillant grand public et un système d'auto-nettoyage de la plate-forme cloud de recherche Jingdong. En outre, les services de sécurité de l'information procéderont également à des forces extérieures communes flux de centaines d'exercices offensifs et défensifs de G, pour assurer la coopération et la capacité de combat de liaison.

    La portée et l'impact de la couche logique d'application de trafic malveillant est plus vaste. Dans un sens étroit, les exploits de logiciels malveillants flux système d'application, font des attaques par déni de service, un sens large, peut tirer profit des lacunes dans les règles à mettre en uvre la logique ou de l'application, illégale parvenir à une variété d'intérêts commerciaux, quelle que soit la taille du flux, sont toutes les attaques de trafic malveillant. Ce type d'attaque avec une grande défense par le nombre total des départements Jingdong.

    1) les services de sécurité de l'information exécuteront par voie de l'auto-examen et le rapport de la vulnérabilité de coopération en matière de sécurité extérieure, par la mise en uvre du service de développement des affaires pour éliminer les failles de sécurité, telles que l'injection SQL, l'exécution de code, le niveau de fuites d'informations non autorisées et ainsi de suite. 2) département de contrôle du vent passera l'analyse des données, la mise en place de différents niveaux de modèle de contrôle des risques, former un pool dynamique des différents niveaux de risque pour le système d'entreprise. 3) R & D des entreprises est basée sur les caractéristiques du service, les utilisateurs niveau de risque, la pression du système et d'autres facteurs, les différentes politiques fournissent un débit limité atteint.

    InfoQ: les prix en temps réel des produits, par exemple, vous parlez de la lecture et de l'écriture flux logique logique?

    Wang Chung: Prix en temps réel Jingdong face à plusieurs défis majeurs: Tout d'abord, de grands volumes de données, des milliards de marchandises, le second est d'appeler une grande quantité de milliards de pointe par jour, en troisième lieu, les besoins en temps réel, et enfin la grande complexité des affaires, pas un seul prix Jingdong, non seulement de calculer toutes sortes de règles de promotion globales, mais aussi sur PC, téléphone mobile, ainsi que des canaux tiers des zones de coopération des opérations différenciées. Ici, nous utilisons lecture séparée et écriture, stratégie asynchrone, choisir de soutenir un grand concurrent, haute performance des composants open source conçus pour assurer la stabilité horizontale évolutive, haute.

    1) Flux logique d'écriture: Lors de la vente pour l'ajustement des prix dans le back-end ou créer des promotions, la base de données synchrone écriture, puis mettre à jour simultanément les prix des timbres de temps écoulé par Redis principale promotions de mise à jour asynchrones de travail des principales données Redis, et en se copiant Redis mécanisme, les données se propagent à partir du noeud. 2) processus de lecture logique: lorsqu'un utilisateur navigue sur l'extrémité avant de la liste des produits, et d'autres détails page, accès aux services asynchrones aux prix en temps réel, cette fois embarqué programmes Lua directement lire les données de prix Redis local (Nginx de) n'est pas expiration directement renvoyée à l'utilisateur, périmé ou n'existe pas, puis de nouveau aux services de calcul source accès prix en temps réel, le dernier prix est retourné immédiatement à l'utilisateur. 3) à la source de logique d'écriture: le prix du service de calcul en temps réel lit le primaire Redis, au plus tard le retour de prix promotionnel à l'utilisateur en même temps, le prix de la principale écriture asynchrone grappe Redis, prix synchronisation des données de base Redis à partir du noeud aux noeuds avant Nginx Redis.

    InfoQ: plateforme de trading Jingdong cette année, 618 ont fait les améliorations techniques ou l'innovation, ainsi que ce que l'avenir examinera l'optimisation et l'amélioration de l'orientation?

    Wang Chung: En plus de la transformation technologique est principalement utilisé pour maintenir la stabilité du système que mentionné ci-dessus, la plate-forme de négociation cette année a également mis plus d'efforts pour améliorer ainsi l'expérience utilisateur, d'améliorer et d'améliorer le travail novateur de GMV. Par exemple, l'utilisation des technologies Big Data et des modèles d'apprentissage de la machine pour fournir des milliers de milliers de prix, des milliers de milliers d'expérience pro.

    Nous essayons également de tirer profit des grandes données et systèmes d'apprentissage de la machine à faire des travaux sur le maintien de la stabilité, tels que:

    1) l'injection SQL et le code malicieux aspects d'exécution de l'introduction de modèles d'apprentissage de la machine, le comportement agressif par l'apprentissage existant, fonction de formation. L'introduction de l'apprentissage semi-supervisé, de sorte que le modèle peut apprendre, la découverte automatique de nouvelles attaques. améliorer considérablement la capacité d'identifier les attaques a révélé que l'efficacité et de nouvelles attaques. L'indice a été complètement au-delà des règles traditionnelles de reconnaissance.

    2) l'utilisation doit être traçable pour détecter les attaques malveillantes dirigées modèle de graphique, l'analyse de traçabilité plus précise et rapide réalisée, et a obtenu de très bons résultats.

    Ensuite, nous allons continuer à essayer de faire une innovation dans ce sens, comme:

    1) est optimisé en termes de détection de comportements humains. Et en utilisant un modèle de regroupement NLP scalper reconnaissance de comportements malveillants, d'améliorer le niveau d'authentification du comportement malveillant de pinceau, ce qui réduit considérablement la pression de fond dans l'interface.

    2) Commentaires modèle d'évaluation pour identifier les commentaires réels et des commentaires sur la brosse. Faire des commentaires pour générer une plus grande valeur.

    3) Nous allons explorer les échecs du renseignement de prévision. À l'heure actuelle, beaucoup sont la surveillance ex post et d'alerte rapide, nous espérons le faire à l'avance. En analysant les données de défauts historiques, cycliques, combinés à la santé actuelle du temps réel, identifier rapidement les machines « mourir », des exemples de surveillance et d'alerte précoce vraiment de la sagesse.

    Conférence sur la technologie recommandée

    Baidu Conférence AI développeurs - 5 Juillet, Baidu Créer 2017 AI Baidu Developers Conference se tiendra à la Convention nationale de Beijing Center. Baidu fondateur, président et chef de la direction Robin Li, président et chef de l'exploitation Baidu Lu Qi, libéreront programme important pour les développeurs et les partenaires de l'écosystème. DuerOS ouvrir un important développement commercial stratégique, technique, Baidu AI plate-forme écologie, Apollo solutions open plate-forme, sera également la première fois pour les développeurs et les partenaires de l'industrie d'expression concentrée, la libération du potentiel écologique. Pour plus de détails, s'il vous plaît percez « lire l'original »!

    texte recommandé aujourd'hui

    Cliquez ci-dessous pour lire l'image

    Columbia Road: ma vie, il y a deux options, car ils sont la même chose

    Eason était en vacances avec sa femme et rencontre fille, heureuse fille âgée de 14 ans avec les passants agita pull-over rouge
    Précédent
    Rappelle à mort! top mission idole de jour de l'année, mais maintenant comme mission a-été-jour, avec des amis de chant cry
    Prochain
    L'expérience des surfaces élégantes, AOC C27V1QD incurvées affiche pour commencer
    DC « de sable de Thunder comme » Réalisateur: coeur fatigué, ne veulent pas faire un autre film comme courir un marathon tournage Chaoying
    190323 Xi Yi avait une odeur d'un millier de tendances de la mode regarder tenue beau sport
    Sous la supervision de la haute pression, activité de négoce « licence » est devenu un nouveau bloc de chaîne
    Année il y a exposition Katherine Hung pardonne Zhang Danfeng porter deux couples voyageant ensemble chaussures apparemment harmonieux
    enfant basé sur la musique ventre de femme enceinte très difficile à faire du yoga, elle a donné des ensembles de vêtements pour un bon esprit de pleine
    Je suis un des étudiants en pharmacie potentiels de poudre de fruits est venu chatteurs ennuyeux
    « Il est l'un des plus de gens intéressants du monde, personne ne peut atteindre sa hauteur par « | livres préférés
    « Ne connaissant rien » Mère Forêt et sa fille et ses conséquences tragiques: Lin Niang en arrière grand-mère de graisse, sa fille est née Cymbidium dégoûté
    « Complexe avec 4 » tarifs montent en flèche! pré-vente record au box office chinois histoire du cinéma le plus rapide des centaines de millions de disques!
    ThinkPad X1 Carbon 2018 Expérience: plus proche d'un parfait pôle super d'affaires
    2018 troisième Rotten Tomates fraîches Vidéos actuelles open 0 né! Comédie « Elementary » grande