Pourquoi les applications Big Data ont-elles besoin d'agilité ? Méthodologie Agile Big Data

Il y a quelque temps, il a été signalé que certains universitaires remettaient en question la théorie des « mégadonnées », et certains dirigeants d'entreprises de la Silicon Valley remettaient en question l'effet des applications de mégadonnées. Combiné avec une conclusion d'une enquête Gartner de 2011 selon laquelle 70 % à 80 % des applications BI (Business Intelligence) échouent (l'échec ici est exagéré, ou plus précisément, il ne devrait pas produire l'effet escompté), Cet article explique pourquoi de tels problèmes se produisent et quels sont les goulots d'étranglement dans la mise en uvre des applications Big Data ? Pourquoi les applications Big Data sont-elles sujettes à l'échec ? Pourquoi les applications Big Data ont-elles besoin d'agilité ? Qu'est-ce que la méthodologie agile Big Data, y compris ces technologies clés, comment concevoir l'architecture du système, etc. J'espère fournir des références précieuses pour la mise en uvre d'applications Big Data dans l'industrie.

Quels sont les principaux goulots d'étranglement dans la mise en uvre d'applications Big Data ?

Comme je l'ai mentionné dans l'article précédent "Sur la bulle, la valeur et le piège des applications du Big Data", le phénomène du Big Data découle de notre peur de l'incertitude future et du fait que le logiciel avale rapidement le monde (le logiciel devient de plus en plus complexes, et les opérations deviennent de plus en plus complexes.Plus il y a d'automatisation, plus les données sont de plus en plus riches, mais la plupart des gens connaissent peu ses principes et ses caractéristiques) Le problème de la gestion hors de contrôle dans ce contexte. La prévisibilité des lois du Big Data a créé un nouveau système de connaissances et une nouvelle pensée managériale, mais la boîte noire du modèle d'analyse et l'automatisation des opérations ont affaibli la capacité de l'homme à comprendre et à explorer ses lois profondes. dans un court laps de temps. Les applications Big Data ne manquent pas de modèles prédictifs, de ressources informatiques et de spécialistes des données, mais manquent de la capacité de poser les bonnes questions et d'utiliser les outils Big Data pour résoudre les problèmes. C'est comme utiliser un canon pour ne pas toucher un moustique. Vous ne pouvez pas dire que le canon est inutile, mais que la méthode de l'homme est mauvaise.

Ici, je veux toujours recommander la jupe à boucle d'échange d'apprentissage du big data que j'ai construite moi-même : 957205962, les jupes sont toutes développées en apprenant le big data. Si vous apprenez le big data, l'éditeur vous invite à vous joindre, tout le monde est une partie de développement de logiciels, Je partagerai de temps en temps des marchandises sèches (uniquement liées au développement du Big Data), y compris les dernières informations avancées sur le Big Data de 2018 et un didacticiel de développement avancé compilé par moi-même. Bienvenue aux petits partenaires avancés et avancés qui souhaitent approfondir le Big Data

"Entre 70 % et 80 % des projets d'informatique décisionnelle échouent" - Gartner, février 2011

L'objectif principal de l'analyse des mégadonnées est de faire face au passé, de découvrir les lois des données et de résumer le connu ; de faire face à l'avenir, d'explorer les tendances des données et de prédire l'inconnu. Par conséquent, grâce à l'analyse des mégadonnées, la capacité de comprendre les choses et de prendre des décisions peut être améliorée, et enfin l'intelligence peut être réalisée. Qu'il s'agisse d'intelligence économique, d'intelligence artificielle, d'intelligence artificielle ou de service client intelligent, de questions et réponses intelligentes, de recommandations intelligentes, de traitements médicaux intelligents, de transports intelligents et d'autres technologies et systèmes connexes, leur essence est d'évoluer vers cet objectif. Avec le développement rapide des plates-formes de cloud computing et des systèmes de big data open source (tels que Hadoop, Spark, Storm, etc.), il devient de plus en plus facile d'obtenir des technologies et des supports liés à la construction d'infrastructures de big data. Dans le même temps, les capacités complètes de collecte de données des technologies de l'Internet mobile et de l'Internet des objets ont objectivement favorisé l'accumulation et l'explosion des mégadonnées. Cependant, afin de mettre en uvre des applications Big Data, en plus de la capacité mentionnée ci-dessus de poser les bonnes questions et d'utiliser des outils Big Data pour résoudre les problèmes, je pense personnellement qu'il existe également des goulots d'étranglement majeurs dans les aspects suivants :

1) La transformation de l'informatique vers les génériques de la technologie DT (Data Technology, DT) a posé des défis aux architectures technologiques matérielles et logicielles traditionnelles, telles que l'informatique parallèle à grande échelle, les ordinateurs quantiques, les puces de réseau neuronal profond, les systèmes de stockage distribués, les GPU à grande échelle. l'informatique à grande échelle, etc. Les deux sont des subversions de l'architecture traditionnelle de la technologie informatique. À ce stade, diverses technologies et systèmes open source liés à l'analyse des mégadonnées fleurissent, l'écosystème technologique des mégadonnées est complexe et le seuil technique est élevé, ce qui illustre également indirectement ce point. Il faut du temps aux chercheurs et au personnel de R&D pour suivre cette vague de changements technologiques, en particulier la combinaison de l'université et de l'industrie, qui est cruciale pour les applications du big data. La percée dans le domaine du deep learning en est un exemple. Comment effectuer rapidement des recherches d'applications de mégadonnées et des applications d'atterrissage sous la condition de maîtriser une technologie limitée (ou sous réserve de talents techniques de base) nécessite une discussion, une analyse et une évaluation approfondies du point de vue de la sélection de la technologie.

2) Il y a trop de leçons à tirer de l'échec des applications de business intelligence (BI) traditionnelles, le cycle de projet est long, la patience du client est mise à l'épreuve, le coût d'entrée de l'application est élevé et le résultat final est surtout des rapports de luxe coûteux, qui ne pas atteint les résultats escomptés. De plus, dans le cadre de l'architecture traditionnelle d'entrepôt de données et de magasin de données, les problèmes tels que la capacité de stockage, la capacité d'extension et la faible capacité de concurrence des données massives ne peuvent pas être fondamentalement résolus. Comment l'analyse du Big Data résume-t-elle les leçons des échecs et tire-t-elle de l'expérience des projets BI ? Les applications Big Data sont-elles intégrées ou remplacées par les systèmes BI traditionnels ? Comment le cadre de la technologie Big Data d'entreprise s'unifie-t-il organiquement avec le cadre de la technologie Big Data grand public créé par les géants de l'Internet ? Il reste encore de nombreux problèmes qui doivent être résumés en profondeur.

3) Standardisation et productisation des applications Big Data. Selon les caractéristiques d'hétérogénéité multi-sources, de dynamisme et de corrélation des données volumineuses, normalisez la gestion des processus et des applications d'analyse de données volumineuses, intégrez l'analyse hors ligne, l'analyse en ligne, l'analyse en temps réel, l'analyse de la mémoire et d'autres cadres informatiques, texte , vidéo, audio, pages Web, bases de données relationnelles et autres données hétérogènes multi-sources pour la modélisation intermodale, afin de quantifier et d'évaluer l'effet d'application des résultats d'analyse de données volumineuses. Que ce soit du point de vue de la sélection technique ou de l'accompagnement des entreprises, de nombreux problèmes nécessitent encore l'accumulation et l'accompagnement d'une expérience pratique, et il est irréaliste de les résoudre une fois pour toutes.

4) En plus des défis rencontrés par l'application Big Data évoqués ci-dessus, les problèmes clés suivants doivent être résolus du point de vue technique de l'architecture Big Data elle-même : Évolutivité élevée, peut prendre en charge la croissance des données à grande échelle et l'expansion rapide d'un grand nombre d'analyses commerciales, etc.; tolérance aux pannes et stabilité élevées, peut prendre en charge l'échec de l'analyse des données volumineuses et de la récupération automatique, etc.; haute performance et prise en charge parallèle, peut être utilisé en massif Terminer rapidement une variété de modèles informatiques et de traitement d'analyse dans des conditions de données ; prise en charge d'environnements hétérogènes multi-sources, peut traiter des données multimodales et diverses tâches d'analyse ; prise en charge de l'ouverture et du partage, peut fournir des interfaces de données et de développement standard, prendre en charge l'intégration des données et du système ; le contrôle de l'efficacité et des coûts, l'amélioration des performances du système dans des délais, des ressources humaines et financières limités, etc., imposent des exigences plus élevées pour la conception de l'architecture du système de données volumineuses.

5) La déconnexion entre la réflexion sur la gestion des mégadonnées et le développement et la mise en uvre d'applications, les mégadonnées renforcent le statut de la science quantitative et des méthodes objectives, Mais dans les faits, à ce stade, le traitement et l'utilisation du big data par de nombreux chefs d'entreprise, y compris les techniciens, reste encore subjectif, et face à la boîte noire du machine learning, il est difficile d'en saisir à fond les défauts. et le champ d'application du modèle. Les résultats de l'analyse et de la quantification de l'exploration de mégadonnées peuvent ne pas être plus conformes aux faits objectifs. Les mégadonnées ne sont pas égales à de bonnes données. Comment aider efficacement la prise de décision est la clé.

De plus, le big data est très fragmenté. Le big data ne se limite pas aux sociétés Internet telles que Google, Amazon, BAT. Chaque industrie et entreprise a des traces de son attention aux données : données de capteurs en temps réel sur une chaîne de production, et données données de détection, données sur l'état de fonctionnement des équipements ferroviaires à grande vitesse, données de surveillance des services de trafic, etc. ; d'autre part, l'architecture et les outils actuels du système de données massives open source proviennent des géants de l'Internet, et cette architecture technique n'est pas nécessairement adaptée aux applications traditionnelles. entreprises et institutions liées au gouvernement. Parce que les types de données et les structures détenues par différentes organisations peuvent être très différentes ; encore une fois, du point de vue du processus d'application et des caractéristiques des mégadonnées, l'essence de la science des données est l'itération, tout comme l'apprentissage de a baby, input-response-feedback-learning- La réintroduction, la formation continue et l'apprentissage généreront de l'intelligence. Il en va de même pour les systèmes d'analyse de données volumineuses. L'optimisation adaptative et l'amélioration continue sont des caractéristiques essentielles des systèmes de données volumineuses. Par conséquent, cela nécessite que l'architecture de la technologie Big Data ait une forte flexibilité, évolutivité ou agilité.

Pourquoi les applications Big Data ont-elles besoin d'agilité ?

À partir de l'analyse des goulots d'étranglement des applications Big Data dans les cinq aspects ci-dessus, nous pouvons voir qu'il reste encore un long chemin à parcourir avant que les applications Big Data puissent réellement être mises en uvre et générer une valeur due. Bien sûr, cela dépend de nos attentes. Dans l'article, il y a une définition claire. L'effet de l'application du Big Data ne peut pas être facilement nié, et bien sûr, il ne peut pas être trop optimiste. La clé dépend du stade, de la maturité de la technologie, des capacités de conception et de développement, et bientôt. Pourquoi le big data a besoin d'agilité, ou pourquoi je propose le big data agile, est principalement basé sur le jugement du goulot d'étranglement mentionné ci-dessus de l'application du big data : l'application du big data se heurte à de nombreux problèmes pratiques, tout d'abord, regardons le processus d'application et caractéristiques des mégadonnées (Figure 1), ce que les mégadonnées doivent accomplir est d'organiser diverses données sources (données dispersées et liées autour d'une certaine industrie ou d'un certain thème d'analyse) en données thématiques via ETL, extraire les caractéristiques d'information du thème Il s'agit d'un processus de traitement de l'information en boucle fermée de vérification répétée, d'optimisation et d'itération continue en retournant au système de données volumineuses pour une vérification répétée, une optimisation et une itération continue.

Figure 1 Modèle pyramidal d'application Big Data

Deuxièmement, existe-t-il une architecture et un processus généraux d'application Big Data ? D'une manière générale, différentes industries, différentes entreprises et différents scénarios d'application adopteront différentes architectures techniques et processus d'analyse.Troisièmement, de nombreux problèmes pratiques se posent lors de la mise en uvre d'applications Big Data.Le cycle de projet est long, ce qui met à l'épreuve la patience des clients. et l'écologie technique. Il y a trop de talents complexes, peu de talents composés, et il est difficile de trouver un avenir. Il n'y a pas de norme pour quantifier l'effet de l'application. La participation des utilisateurs est faible, et il est difficile d'atteindre les résultats attendus. L'architecture du système, les technologies clés et la méthodologie d'application présentent des exigences plus élevées. Voyons si le big data agile peut résoudre certains problèmes.

Méthodologie Agile Big Data

(1) Qu'est-ce que l'agilité ?

Qu'est-ce que l'agile, examinons d'abord quelques concepts :

Le développement agile prend l'évolution des besoins des utilisateurs comme noyau et adopte une méthode itérative et étape par étape pour le développement de logiciels. Dans le développement agile, un projet logiciel est divisé en plusieurs sous-projets au début de la construction, et les résultats de chaque sous-projet ont été testés et ont les caractéristiques de visibilité, d'intégration et d'exploitation. En d'autres termes, il s'agit de diviser un gros projet en plusieurs petits projets qui sont interconnectés mais qui peuvent aussi fonctionner indépendamment, et de les compléter séparément.Pendant ce processus, le logiciel est toujours dans un état utilisable.

Gestion agile. La gestion agile est une approche itérative de la planification et de la direction des processus de projet. Comme le développement logiciel agile, les projets agiles sont réalisés dans de petits départements appelés itérations. Chaque itération est examinée et jugée par l'équipe de projet, et les informations obtenues à partir du jugement de l'itération sont utilisées pour décider des prochaines étapes du projet. En raison du cycle de développement court et de la gestion appropriée des exigences, la gestion agile s'étend de l'industrie de la R&D logicielle à la plupart des industries qui ont adopté la gestion de projet.

Lean Production, appelé « Lean », est une philosophie de gestion dérivée du Toyota Production System au Japon. P Grâce à l'enquête et à l'analyse comparative de plus de 90 usines de fabrication d'automobiles dans 17 pays à travers le monde dans le cadre du « Programme automobile international (IMVP) », des experts tels que Womack estiment que la méthode de production de la société japonaise Toyota Motor Corporation est la plus adaptée au marché moderne. entreprises manufacturières.Organisation et gestion, la production allégée passe par des changements dans la structure du système, l'organisation du personnel, le mode de fonctionnement, l'offre et la demande du marché, etc., de sorte que le système de production puisse s'adapter rapidement aux besoins changeants des utilisateurs, et tous inutiles et redondants les choses dans le processus de production peuvent être rationalisées, une méthode de gestion de la production qui obtient finalement les meilleurs résultats dans tous les aspects de la production, y compris l'approvisionnement du marché et les ventes.

Le Lean Thinking et le Lean Management sont issus de la production au plus juste. Le management au plus juste a été étendu avec succès à partir de la pratique de gestion initiale dans le système de production, et s'est progressivement étendu à divers métiers de gestion de l'entreprise, et est également géré par la méthode métier initiale spécifique, s'élevant à un concept de gestion stratégique. Le Lean management exige que toutes les activités de l'entreprise utilisent le "Lean Thinking". Le cur de la "pensée Lean" est de créer autant de valeur que possible avec un minimum de ressources, y compris la main-d'uvre, l'équipement, le capital, les matériaux, le temps et l'espace, et de fournir aux clients de nouveaux produits et des services en temps opportun.

Figure Dans l'ingénierie logicielle moderne, la pile d'outils technologiques de base est très mature, le développement agile de type bloc de construction et la fabrication au plus juste ont des concepts similaires

Comme on peut le voir dans les définitions de concepts ci-dessus, agile et lean sont des surs jumelles, et les mots clés impliquent évolution des exigences, itération, visualisation, étape par étape, intégrable et opérationnel, lean, investissement minimal en ressources, etc. Dans la construction d'un système d'application unique, l'ingénierie logicielle traditionnelle n'a pas un besoin urgent d'idées de développement agile et de gestion allégée, mais face à la conception, à la recherche et au développement et à la mise en uvre de projets d'architecture de système de données volumineuses multi-sources, hétérogènes et collaboratives. , agile et lean Le concept de design est très important, pourquoi dites-vous cela ? La figure ci-dessous est une comparaison entre l'architecture traditionnelle typique des technologies de l'information et l'architecture du système Big Data. Des amis expérimentés devraient pouvoir y voir quelques indices.

Figure 2 Comparaison de l'architecture entre le système d'information traditionnel et le système de données volumineuses

Ici, je veux toujours recommander la jupe à boucle d'échange d'apprentissage du big data que j'ai construite moi-même : 957205962, les jupes sont toutes développées en apprenant le big data. Si vous apprenez le big data, l'éditeur vous invite à vous joindre, tout le monde est une partie de développement de logiciels, Je partagerai de temps en temps des marchandises sèches (uniquement liées au développement du Big Data), y compris les dernières informations avancées sur le Big Data de 2018 et un didacticiel de développement avancé compilé par moi-même. Bienvenue aux petits partenaires avancés et avancés qui souhaitent approfondir le Big Data

La partie gauche de la figure ci-dessus représente l'architecture traditionnelle des technologies de l'information et la partie droite l'architecture commune du système Big Data. Bien entendu, la sélection de composants techniques spécifiques varie en fonction des différents besoins. Cette architecture n'est pas figée et chaque composant a au moins quelques remplacements et peut être prolongé au besoin. De cette figure, nous pouvons tirer la conclusion que le système d'information traditionnel peut être conquis par une seule personne, mais l'idée centrale du système de données volumineuses est la coopération distribuée et unie.Ce n'est pas aussi puissant que l'intégration efficace d'un groupe de personnes, et l'architecture du système Big Data est responsable de l'intégration de nombreux aspects (il en va de même pour Hadoop, Spark et d'autres architectures système de base Big Data, comme le montre la figure 3-Schéma d'architecture système Hadoop), en d'autres termes, cette Par exemple, gestion agile et allégée dans la R&D logicielle ou le processus de production, le maître de l'entreprise (Master) attribue les tâches et alloue le personnel.Chaque employé (esclave) s'efforce d'accomplir le petit travail cible dont il est responsable, et les superviseurs à tous les niveaux effectuent tâches horizontales et verticales. La collaboration et l'intégration efficace sont les principaux objectifs de l'entreprise. On peut voir que l'évolution de l'architecture du système de données volumineuses est très proche de l'idée de collaboration de la société humaine. Pour prendre en charge efficacement les capacités de collaboration distribuée de l'architecture du système Big Data, les idées de conception agiles et allégées sont des références nécessaires.

Figure 3 Diagramme schématique de l'architecture du système Hadoop

(2) Définition du Big Data Agile

Alors, qu'est-ce que le big data agile ? La technologie, la conception allégée de l'architecture du système de données volumineuses et la collaboration des composants clés, etc., réalisent progressivement le traitement de fusion de données à plusieurs niveaux, l'expansion et la gestion efficace de divers cadres et modèles informatiques, répondent rapidement aux besoins d'analyse de données volumineuses et construisent rapidement de grandes systèmes de production de données, pour itérer rapidement les capacités d'analyse de données volumineuses, améliorant ainsi l'efficacité de l'analyse des systèmes de données volumineuses et la valeur de la prise de décision en matière de données volumineuses. Les éléments de base du big data agile suivent les principes de SFV (Small, Fast, Validation, SFV) : l'un est petit, l'autre est rapide et le troisième est une preuve, les objectifs d'analyse des petites entreprises sont coupés, des prototypes rapides sont produits et rapides des itérations sont faites. Dans une certaine mesure, bon nombre des échecs des projets de BI traditionnels sont dus à l'incapacité de saisir ces trois principes, tandis que le succès des systèmes de big data des entreprises Internet et l'essor des technologies de big data open source sont dus à la saisie de ces trois principes. .

Le big data agile doit résoudre les problèmes clés suivants : comment réaliser une architecture de big data unifiée, standardisée, modulaire et configurable pour résoudre le problème de la difficulté à intégrer efficacement différents types de sous-systèmes hétérogènes. Les fonctions d'application peuvent être composées de composants fonctionnels existants et les coûts peuvent être réduits grâce à la réutilisation des services. La forme des données échangées entre les composants doit être standardisée et interfacée ; la combinaison des composants peut être complétée avec seulement une petite quantité de programmation ou de configuration. modèles et L'intégration et la normalisation des outils, comment simplifier l'utilisation, peuvent fournir aux non-programmeurs des capacités d'exploration et d'analyse de données prêtes à l'emploi ; l'ensemble du processus des applications de données volumineuses (collecte, stockage, analyse, gestion) est visualisé. Sur la base de la nature itérative de la science des données et de l'utilisation d'outils composants à haute efficacité, les sous-systèmes fonctionnels (modules) du Big Data sont composants, le modèle est standardisé et le système prototype Big Data peut être rapidement sélectionné, configuré et rapidement Itérer rapidement sur les résultats d'analyse de données volumineuses et s'adapter à l'évolution des besoins pour transformer les prototypes en systèmes de production le plus rapidement possible. Dans le processus d'itération rapide, de rétroaction rapide et de vérification en boucle fermée, laissez les clients terminer progressivement la transformation de la pensée système et de la pensée de gestion de l'analyse du Big Data.

Figure 4 Diagramme schématique du développement itératif agile

(3) Optimisation agile des processus Big Data

Selon les principes de SFV rapide, petit et éprouvé pour le Big Data agile, nous avons amélioré le processus standard intersectoriel traditionnel pour l'exploration de données (CRISP-DM) et proposé une solution basée sur les microservices et les conteneurs (agile ultérieur The Agile Le traitement du Big Data basé sur les Micro-services sera présenté en détail dans le chapitre sur les technologies clés du Big Data), comme indiqué ci-dessous :

Figure 5. Processus CRISP-DM et processus agile de traitement du Big Data

Par rapport au processus d'exploration de données traditionnel, le processus de traitement agile des mégadonnées est étendu à deux niveaux : premièrement, l'architecture est prise en charge par la technologie de microservice basée sur des conteneurs ; selon la nature itérative de la science des données, la mise à niveau itérative adaptative et l'aide à l'évolution des décisions intelligentes sont respectivement réalisées pour les deux processus de système modèle et de retour de décision réel. Grâce à cette expansion, la méthodologie agile du Big Data et les techniques traditionnelles d'exploration de données, ainsi que les cadres émergents du Big Data grand public, peuvent se compléter et s'intégrer dans l'architecture et les processus. Pour mettre en uvre les principes Agile Big Data SFV, la conception d'une architecture Big Data Agile est cruciale. L'architecture Agile Big Data nécessite un support de conception scientifique et efficace à plusieurs niveaux, tels que la gestion par composants, la fusion de données, la planification des ressources, l'abstraction de service, le déploiement, l'exploitation et la maintenance, les modèles informatiques orientés services et les ensembles de données standard, ainsi que les processus agiles de traitement Big Data. . L'objectif principal est de réaliser le service, la standardisation et la processisation des fonctions de traitement et d'analyse de la fusion de données volumineuses. Basé sur la technologie de fusion de données et de microservices, concevoir une plate-forme d'analyse de données volumineuses modulaire et configurable, et réaliser la construction et la gestion de microservices. Rapide mise en uvre, à travers la division, la combinaison, l'orchestration et la configuration dynamique de divers microservices, pour former un système d'analyse de données volumineuses réutilisable, évolutif et flexible, afin d'atteindre l'objectif de données volumineuses agiles.

4. Technologies clés du big data agile

À l'ère des mégadonnées, diverses technologies émergentes et cadres informatiques émergent dans un flux sans fin, associés aux exigences d'analyse en constante évolution, comment faire en sorte que l'architecture des mégadonnées puisse être ajustée à tout moment pour s'adapter aux besoins de l'entreprise et suivre le rythme de la Le rythme des mises à jour technologiques est un problème clé à résoudre par les applications Big Data, c'est aussi la raison essentielle pour laquelle une architecture agile Big Data est proposée. Face à des dizaines ou des centaines de systèmes d'information dans les grandes entreprises, la manière d'assurer la cohérence, l'interopérabilité et la portabilité entre les environnements cloud physiques, virtuels, publics et privés est un grand défi pour l'infrastructure informatique. Par conséquent, les technologies de microservices et de conteneurs ont vu le jour.Les microservices réalisent la constitution de composants et le fonctionnement autonome indépendant des modules système.Les conteneurs peuvent réaliser une virtualisation légère et utiliser complètement le mécanisme de bac à sable sans aucune interface entre eux. La combinaison naturelle des microservices, des conteneurs et des technologies de cloud computing, ainsi que les avantages d'une R&D, d'un déploiement et d'une maintenance rapides, font des applications Big Data agiles basées sur des microservices et des conteneurs un énorme potentiel.

Ici, je veux toujours recommander la jupe à boucle d'échange d'apprentissage du big data que j'ai construite moi-même : 957205962, les jupes sont toutes développées en apprenant le big data. Si vous apprenez le big data, l'éditeur vous invite à vous joindre, tout le monde est une partie de développement de logiciels, Je partagerai de temps en temps des marchandises sèches (uniquement liées au développement du Big Data), y compris les dernières informations avancées sur le Big Data de 2018 et un didacticiel de développement avancé compilé par moi-même. Bienvenue aux petits partenaires avancés et avancés qui souhaitent approfondir le Big Data

(1) Technologie des microservices

L'essence du service est l'abstraction du comportement. La méthode orientée objet consiste à décrire le monde à partir de la dimension des entités objets, tandis que la méthode orientée service (SOA) consiste à décrire le monde à partir de la dimension du mode de comportement, qui est essentiellement une description de deux dimensions différentes.

Figure 6. Processus de développement du logiciel en tant que service

En raison de la nature itérative de la science des données, l'analyse de données volumineuses en tant que service est devenue une application en vogue, et les microservices et les technologies de conteneurs peuvent prendre en charge efficacement les principes fondamentaux de la SFV agile de données volumineuses proposés dans cet article. Ces dernières années, les microservices (idées de conception issues de la loi de Conway, comme le montre la figure 7) sont devenus un point chaud de recherche et de conception pour les entreprises Internet et de mégadonnées.Des entreprises telles que Google, Amazon, Facebook, Baidu, JD.com et Ctrip adoptent tous la théorie et la technologie des microservices pour la conception, le développement et le déploiement de produits. Adrian Cockcroft de Netflix appelle les microservices "Service Oriented Architecture (SOA)" et les considère comme une nouvelle architecture révolutionnaire. Martin Fowler, le père de l'agilité, a donné la définition des microservices dans son article "Micro services".En général, l'idée de conception de microservices est une méthode de développement d'applications énormes utilisant plusieurs petits services, chacun fonctionnant de manière indépendante. processus, les informations sont échangées via un mécanisme de communication léger. La granularité de chaque microservice est construite en fonction de la capacité métier et peut être implémentée par différents langages de programmation. La chaîne de services construite peut être automatiquement déployée via des technologies telles que les conteneurs.

Figure 7. Loi de Conway, la structure d'un système est limitée par la structure de communication de l'organisation qui a conçu le système. Étant donné que la structure du système peut changer au fur et à mesure que la conception progresse, la conception doit rester légère et flexible.

Comme le montre la définition ci-dessus des microservices, des fonctionnalités telles que la décentralisation, l'atomisation, l'indépendance et l'autonomie, la composition rapide et le déploiement automatique sont les éléments essentiels de la technologie des microservices. Les fonctions de la couche application sont divisées en modules de microservices avec plus petite granularité, et la base de données est également prise en charge par la division correspondante en fonction des unités fonctionnelles de micro-service (comme illustré à la figure 8). La technologie de conteneur basée sur le cloud est utilisée pour exécuter ces modules de service indépendamment. Le mécanisme de communication léger relie ces modules de service décomposés ensemble pour former des clusters et des réseaux de microservices pour effectuer des tâches importantes et complexes. En divisant le système complexe en plusieurs petits modules de microservice, il est distribué et à faible couplage. L'architecture peut s'adapter considérablement aux caractéristiques de traitement distribué des données volumineuses.

Figure 8 La différence entre l'architecture d'application monolithique traditionnelle et l'architecture de microservice

(2) Technologie des conteneurs

La technologie des microservices adopte une méthode de construction similaire aux blocs de construction, de sorte que les services ne s'affectent pas les uns les autres, et les microservices d'un même système peuvent utiliser différents langages de développement et technologies de base de données. Cependant, face à des dizaines ou des centaines de systèmes d'information dans les grandes entreprises, comment parvenir à la cohérence, l'interopérabilité et la portabilité entre les environnements cloud physiques, virtuels, publics et privés est un grand défi pour l'infrastructure informatique. . Par conséquent, la technologie des conteneurs a émergé au fil des temps. Les conteneurs ont d'abord été proposés par Docker et appliqués à leur propre plate-forme de services cloud PaaS. Ces dernières années, ils ont été largement reconnus. De nombreuses grandes entreprises ont commencé à micro-entretenir leurs systèmes d'application uniques et à les déployer. dans des conteneurs. Les conteneurs basés sur le système d'exploitation peuvent réaliser une virtualisation plus légère que les technologies de virtualisation traditionnelles (telles que VMware) et utiliser complètement le mécanisme de bac à sable sans s'interfacer les uns avec les autres. Kubernetes, un sous-système de Hadoop, a été en mesure de prendre en charge le développement et le déploiement de microservices basés sur le cloud computing et la technologie des conteneurs Docker. La combinaison naturelle de la technologie des conteneurs et du cloud computing et ses avantages en termes de R&D, de déploiement et de maintenance rapides sont idéales pour microservices et architectures de données agiles La conception et la mise en uvre jouent un rôle de soutien important.

Figure 9 Diagramme de l'architecture du conteneur Docker

(3) Technologie de fusion de données

Le stockage, l'exploration, l'analyse et la compréhension des mégadonnées sont confrontés à de grands défis en raison des caractéristiques de pertinence, de dynamique et d'hétérogénéité multi-sources présentées par les mégadonnées. Comment standardiser et intégrer uniformément les données dans différents formats et formats est un problème clé à résoudre par le Big Data agile. Différent des objectifs généraux de fusion de données volumineuses, ce document se concentre principalement sur la fusion multi-granularité de données volumineuses du point de vue de la création d'ensembles de données standard, et prend en charge la fusion de fonctionnalités multimodales et divers types et structures en créant des unités de données unifiées (UDU ). Fusion de paquets d'ensembles de données. L'extraction, la fusion et l'intégration de données hétérogènes multi-sources dans des ensembles de données UDU qui prennent en charge le traitement par différents modèles informatiques est l'objectif principal de la technologie de fusion d'informations multi-granularité. Les unités de données unifiées sont des ensembles indépendants et flexibles de données d'entité qui peuvent être rapidement réorganisées, ajustées et mises à jour à mesure que les sources de données et les besoins analytiques changent. L'ensemble de données standard UDU formé par la fusion d'informations est la base du traitement agile des mégadonnées.

Ici, je veux toujours recommander la jupe à boucle d'échange d'apprentissage du big data que j'ai construite moi-même : 957205962, les jupes sont toutes développées en apprenant le big data. Si vous apprenez le big data, l'éditeur vous invite à vous joindre, tout le monde est une partie de développement de logiciels, Je partagerai de temps en temps des marchandises sèches (uniquement liées au développement du Big Data), y compris les dernières informations avancées sur le Big Data de 2018 et un didacticiel de développement avancé compilé par moi-même. Bienvenue aux petits partenaires avancés et avancés qui souhaitent approfondir le Big Data

Selon les caractéristiques d'adaptation des données de divers modèles d'apprentissage automatique, nous proposons une définition standard d'ensemble de données : l'unité de données unifiée (UDU) fusionne les informations à plusieurs niveaux et granularités de données volumineuses. En particulier pour les données multimodales, l'optimisation du stockage des données et la standardisation des entrées de données du modèle d'apprentissage automatique peuvent être réalisées grâce à la méthode de conception d'unité de données unifiée. Analyser l'adaptabilité et l'agilité des modèles et des algorithmes pour améliorer les capacités de traitement du Big Data. La conception de fusion d'informations multi-granularité est illustrée dans la figure suivante.

Figure 10 Conception de fusion d'informations multi-granularité Big Data

L'unité de données unifiée UDU dans la figure ci-dessus peut prendre en charge au moins trois niveaux de fusion de données volumineuses.Le premier est la fusion au niveau des fonctionnalités, qui prend en charge le traitement de modèles informatiques de données volumineuses avec des fonctionnalités intermodales (telles que des fonctionnalités temporelles + spatiales); l'autre est la fusion au niveau des données, qui prend en charge la fusion de schémas de données et de structures de données telles que le cube de données multidimensionnel (Data Cube), le magasin de données (étoile, schéma en flocon de neige); le troisième est la fusion au niveau du modèle, à partir de différentes tâches de modèle (tels que la classification, le regroupement, la prédiction, l'association et d'autres modèles) Angular prend en charge la gestion des unités de données correspondantes. Pour concevoir et construire une unité de données unifiée de données volumineuses, les trois étapes suivantes sont nécessaires.

1) Extraction de fonctionnalités : Effectuer l'intégration de données et l'extraction de caractéristiques sur des données structurées, des données semi-structurées et des données non structurées, extraire diverses caractéristiques dans les données, y compris des caractéristiques temporelles, des caractéristiques spatiales ou d'autres caractéristiques globales, etc., pour réaliser les attributs de localisation liés aux données. , propriétés de corrélation spatio-temporelle et autres propriétés d'observation.

2) Forfait Fusion : Toutes sortes de caractéristiques de données extraites, ou de données après prétraitement préliminaire, sont regroupées dans des unités de traitement de données avec une structure et un format unifiés en fonction des caractéristiques de traitement des données et des exigences des différents modèles informatiques pour former des ensembles de données d'analyse standard, qui servent l'exploitation minière de niveau supérieur. services informatiques Fournit une adaptation rapide des données. Différents types de définitions d'unités de données unifiées peuvent être réalisés grâce à des méthodes et des technologies de définition de métadonnées telles que XML/JSON, et des informations de base et divers attributs de chaque type d'unité de données unifiée peuvent être définis et décrits, y compris l'ID d'identification, les attributs de base, les attributs sémantiques , et structure, propriétés, etc. 3) Interface de service : l'ensemble de données d'unité de données unifiées encapsulées réalise une adaptation rapide des données pour différents modèles de service informatique minier, conçoit une interface d'appel d'unité de données unifiée, analyse l'unité de données encapsulée via la définition de l'interface et le paramétrage, et analyse l'unité de données encapsulée. Diverses caractéristiques d'attributs et informations structurelles de l'ensemble de données sont extraites.

Architecture de système de Big Data agile

Selon l'analyse ci-dessus des technologies clés du big data agile, comment concevoir et mettre en uvre une architecture de système de big data agile efficace est le contenu clé des applications de big data agiles. Prenant comme exemple le traitement du big data du trafic, une conception préliminaire de son architecture de traitement agile est réalisée. En raison de la complexité du big data de trafic et de la diversité des cibles d'analyse, les modes d'analyse traditionnels de data mining et les architectures technologiques du big data sont remis en question. Par exemple, pour les données statiques historiques de trafic massif, une technologie de traitement par lots hors ligne est requise, tandis que les données de trafic dynamiques en temps réel en continu nécessitent un cadre informatique en continu pour le traitement. En outre, les données multimodales telles que le texte, les images, les vidéos et les capteurs doivent être traitées par différents modèles d'apprentissage automatique.Comment effectuer une analyse de calcul de fusion intermodale est également une difficulté d'application. En réponse à l'évolution et à l'expansion des exigences d'analyse des données volumineuses sur le trafic, la manière de répondre rapidement aux systèmes de données volumineuses et d'étendre et d'ajuster les fonctions et les modèles est un problème clé à résoudre dans la conception d'une architecture de données volumineuses agile pour le trafic.

En d'autres termes, pour être en mesure de concevoir une architecture de traitement flexible pour prendre en charge différentes exigences d'analyse de données volumineuses sur le trafic, l'architecture de données volumineuses doit être en mesure de répondre au changement ou à l'expansion de différentes exigences d'analyse à partir de plusieurs niveaux de collecte, de stockage, de calcul et application. Basée sur l'analyse et la recherche de la méthodologie agile big data et de ses technologies clés, l'architecture agile big data est conçue à partir de quatre niveaux : intégration d'acquisition de données, stockage de données à grande échelle et fusion de données, microservices informatiques multimodaux/multimodaux, et applications de données. Grâce à l'intégration et à la fusion de données volumineuses multi-granulaires, une unité de données unifiée est construite pour former un ensemble de données standard, et l'exploration de données volumineuses de transport agile et orientée service est réalisée grâce à l'abstraction du modèle informatique basé sur les microservices et le traitement au niveau de la couche d'agrégation. À l'aide d'interfaces standard et de méthodes de développement de plug-ins, la gestion unifiée de la configuration peut être effectuée sur les principaux frameworks de traitement de données volumineuses (tels que Hadoop, Spark, Storm, etc.) Selon la cible d'analyse, effectuez une sélection rapide, une configuration flexible, construisez des prototypes et les mises à niveau itératives (comme le montre la figure ci-dessous, selon les différents chemins de conception des deux lignes pointillées, vous pouvez configurer rapidement l'analyse par lots des données historiques de la base de données, ou l'analyse du traitement par flux des données collectées sur le réseau public), l'architecture globale La conception de Big Data Agile est illustrée dans la figure suivante.

Figure 11 Conception globale de l'architecture du big data agile pour le trafic

1) Couche d'acquisition de données : Elle s'appuie sur trois niveaux de technologies de collecte. Le premier est la collecte et l'intégration des bases de données des systèmes d'entreprise traditionnels et des données semi-structurées et structurées. Par exemple, la technologie Sqoop est utilisée pour extraire et échanger des données entre les bases de données relationnelles et les systèmes Hadoop ; le second est le transport. La collecte de données de diffusion en temps réel comprend des données de capteur en temps réel, des données de trajectoire de positionnement et d'autres données de diffusion en temps réel ; la troisième est la collecte de données de transport public, y compris l'exploration de données du réseau public, les interfaces de données de plates-formes ouvertes et échange de données des bases de données publiques de l'industrie. Les données collectées doivent être extraites, transformées et chargées (extraction-transformation-chargement, ETL), y compris l'extraction de données, la transformation, le nettoyage et la désensibilisation de la confidentialité et d'autres travaux de prétraitement, et les données prétraitées et intégrées entrent dans le stockage en nuage de données volumineuses. centre.

2) Couche de stockage des données : L'échelle des données dans le domaine des transports est énorme et la couche de stockage des données doit concevoir un système de stockage en nuage distribué basé sur l'informatique en nuage pour prendre en charge l'expansion du stockage de données massives. Fournir des capacités de stockage en colonnes basées sur le cloud, de stockage NoSQL ou de stockage d'entrepôt de données ; selon les besoins de l'entreprise et une configuration rapide, le mode de stockage distribué correspondant peut être commuté, et l'entrepôt de données et le magasin de données des systèmes de BI traditionnels peuvent être intégrés selon les besoins. Le cluster Hadoop est utilisé pour fournir une extension de la capacité de stockage au niveau PB, et les cadres de gestion des ressources du cluster tels que Hadoop YARN et Spark Mesos peuvent prendre en charge une variété de modes de stockage et de modes de calcul (gèrent principalement les ressources de stockage et de calcul, comme le montrent les deux- flèches directionnelles dans la figure. ) pour la planification des ressources cloud. Sur cette base, une fusion d'informations multi-granularité est effectuée sur divers types de données stockées, une unité de traitement de données unifiée est construite et un ensemble de données d'analyse standardisé est fourni pour la couche de service informatique.

3) Couche de calcul des données : Compte tenu des caractéristiques des mégadonnées multisources, hétérogènes et à trafic massif, les modèles informatiques traditionnels sont difficiles à traiter directement. La couche de calcul des données doit répondre à la réalisation de divers modèles et méthodes informatiques des cadres de traitement de données volumineuses traditionnels, tels que le cadre parallèle de cloud computing, pour réaliser une exploration de données et un apprentissage automatique efficaces basés sur le traitement par lots Hadoop, le traitement de flux Storm et la mémoire Spark. En traitement. La couche de calcul des données adopte un cadre d'analyse de données volumineuses basé sur des unités de traitement de données et des modèles informatiques unifiés, ainsi que sur des microservices de modèles. modèles et méthodes (tels que la classification, le clustering, la séquence, etc.) sous divers modes de calcul tels que MapReduce, Storm et Spark ; Sur la base des exigences d'analyse des données et des caractéristiques des données, une commutation rapide et une gestion flexible de divers services peuvent être effectuées sur la base de technologie de configuration des composants et de gouvernance des services.

4) Couche d'application des données : La couche d'application de données doit d'abord répondre aux diverses exigences d'analyse de données volumineuses du transport intelligent, y compris la visualisation et la requête de base, l'affichage, l'exploration, etc. Les résultats de l'analyse peuvent être combinés avec la base de connaissances pour l'aide à la décision. De plus, en termes de gestion du système Big Data lui-même, pour la conception de composants et de microservices, il est nécessaire de concevoir des middlewares associés pour réaliser des fonctions telles que la gouvernance des services, la configuration des composants, la sécurité et l'interface, afin de prendre en charge le stockage. couche et couche informatique de divers microservices.Gestion agile.

Ici, je veux toujours recommander la jupe à boucle d'échange d'apprentissage du big data que j'ai construite moi-même : 957205962, les jupes sont toutes développées en apprenant le big data. Si vous apprenez le big data, l'éditeur vous invite à vous joindre, tout le monde est une partie de développement de logiciels, Je partagerai de temps en temps des marchandises sèches (uniquement liées au développement du Big Data), y compris les dernières informations avancées sur le Big Data de 2018 et un didacticiel de développement avancé compilé par moi-même. Bienvenue aux petits partenaires avancés et avancés qui souhaitent approfondir le Big Data

Outre le niveau UDU de fusion de données, le contenu clé de l'architecture agile de mégadonnées est la conception de micro-services de divers cadres de mode de calcul et modèles de calcul, y compris les cadres de calcul, les micro-services de modèles et d'algorithmes, les données Obtenez les microservices de l'appel et les microservices du processus d'analyse. Son cur est constitué de microservices informatiques, tels que les services de traitement par lots MapReduce, les services de traitement de flux Storm et les services de traitement de la mémoire Spark. SAV), etc... Étant donné que la technologie détaillée des microservices implique un large éventail, y compris l'enregistrement, le positionnement, la découverte et la recherche de microservices (basés sur l'algorithme de consensus distribué Paxos et le cadre Zookeeper, etc.), les mécanismes de communication légers des microservices tels que REST (Representational State Transfer ), RPC (Remote Procedure Call Protocol), IPC (Inter-Process Communication), etc., traitement tolérant aux pannes des microservices (fusion, limitation de courant, équilibrage de charge, etc.), conteneurisation des microservices, test et déploiement de services. Pour des raisons d'espace, les détails techniques de divers aspects ne seront pas répétés ici, et vous pouvez vous référer aux données professionnelles pour la compréhension. Sur la base de l'architecture agile Big Data et de l'unité de données unifiées de fusion de données, la conception de microservices de la couche d'analyse Big Data est effectuée, comme illustré dans la figure suivante.

Figure 12 Conception de microservices d'analyse de données volumineuses orientées trafic

Le concept de base des microservices pour l'analyse de données volumineuses est qu'un service se concentre uniquement sur un type ou une analyse, la granularité du service et la taille et les limites de la fonction d'analyse doivent correspondre, le côté service (microservices informatiques) et le côté consommateur (fonction d'analyse basée sur les microservices)) doit être découplée, c'est-à-dire que l'ajustement ou la mise à niveau d'un microservice ne peut pas affecter les autres microservices. Le contenu principal de la conception de microservices d'analyse de données volumineuses comprend les aspects suivants.

1) Division de l'abstraction commerciale et des microservices d'analyse de données volumineuses : Selon le cadre de calcul multimode, il existe le cadre de traitement par lots MapReduce, le cadre de traitement de flux Storm, le cadre de traitement de la mémoire Spark, le cadre de calcul graphique, etc.; selon le modèle d'exploration de données, il existe la classification, le clustering, la séquence, le multimodal, le multitâche , etc. Type de modèle de calcul. Selon diverses exigences d'analyse et caractéristiques de traitement des données du trafic Big Data, effectuez une analyse commerciale Big Data et une modélisation abstraite, et sélectionnez les modèles informatiques et les cadres informatiques correspondants pour le support, puis décidez quels microservices sont nécessaires et réalisez la division et la combinaison de microservices. , définir l'objectif de conception global du réseau de microservices et passer des appels via l'interface de microservices unifiée (Microservices API Gateway).

2) Conception du cluster de microservices et définition de l'interface contractuelle : Selon les caractéristiques du traitement des mégadonnées, les microservices de la couche de service sont divisés en trois catégories pour la planification et la conception.Le cluster de microservices de données est responsable de l'acquisition de données, de la synchronisation des données et des opérations de mise à jour à partir de l'ensemble de données standard UDU ; le microservice de calcul le cluster est le traitement agile des données volumineuses. Au cur, la conception globale des services d'exploration et d'analyse est réalisée selon les deux dimensions du cadre de calcul multimode et du modèle de calcul multi-type ; le cluster de microservices de processus est responsable du traitement collaboratif de microservices de données et de microservices informatiques, et prend en charge la gestion de la configuration et la planification des composants du système. . Divers microservices interagissent et communiquent avec des services de messagerie tels que MessageBroker via des mécanismes de communication légers tels que REST et RPC, créent un réseau de clusters de microservices et effectuent une gestion et une planification unifiées via le routage des services.

3) Gouvernance des microservices et déploiement des conteneurs : La coordination efficace d'un réseau de microservices connectés par divers clusters de microservices est indissociable de la technologie de gouvernance des microservices et de la technologie de gestion des conteneurs. Grâce au routage et à la gouvernance des services, il est responsable de l'enregistrement, de la recherche, de la découverte, de la communication et de la configuration unifiée de divers microservices petits et grands, et enfin du déploiement automatique et de la gestion dynamique des microservices basés sur le cloud computing et la technologie des conteneurs.

Examen des applications Agile Big Data

L'architecture agile de données volumineuses proposée dans cet article réalise le service, la normalisation et la transformation du traitement de fusion de données volumineuses et de l'informatique minière dans une certaine mesure. Sur la base de l'idée de conception d'une unité de données unifiée et d'un micro-service de calcul et de processus, la construction et la gestion d'un micro-service peuvent être rapidement réalisées.Grâce à la division, la combinaison, l'arrangement et la configuration dynamique de divers micro-services, modulaires, configurable et réutilisable peut être construit. , Système d'analyse de données volumineuses agile et évolutif. Par rapport à l'architecture traditionnelle de traitement des mégadonnées, l'architecture agile des mégadonnées présente des avantages évidents dans les aspects suivants (voir tableau 1).

Tableau 1 Analyse comparative de l'architecture Big Data agile et de l'architecture Big Data traditionnelle

À partir de l'analyse comparative des caractéristiques ci-dessus, on peut voir qu'en plus de soutenir la croissance des données à grande échelle, l'architecture agile des mégadonnées est plus importante pour s'adapter à l'expansion et aux changements des activités d'analyse des mégadonnées. il a une tolérance élevée aux pannes.Il peut prendre en charge le traitement des pannes et la récupération automatique de l'analyse de données volumineuses, peut compléter rapidement divers modèles informatiques et le traitement d'analyse dans des conditions de données massives, et peut prendre en charge l'informatique multimodale basée sur des unités de fusion de données et la technologie de service informatique. -le traitement des tâches informatiques en mode, peut améliorer l'efficacité de l'analyse des données volumineuses dans des conditions de coût limité.

Bien sûr, pour parvenir à une architecture Big Data agile et efficace, différentes exigences métier ou différents itinéraires techniques peuvent conduire à des travaux différents, c'est pourquoi le titre de cet article est défini comme méthodologie. Tous les chemins mènent à Rome, la technologie n'est qu'un outil, la clé est la méthodologie et l'idéologie directrice. De plus, en termes de conception détaillée et de mise en uvre de l'architecture, il reste encore plusieurs difficultés à surmonter, car il existe de nombreux frameworks de calcul de données volumineuses, de nombreux modèles d'analyse pris en charge par chaque framework et davantage de bibliothèques de visualisation. Le cadre technique et le langage de développement de ces cadres informatiques, les normes de définition d'interface peuvent être différents, comment normaliser et traiter l'intégration rapide des ensembles d'outils ci-dessus grâce à la construction, aux plug-ins et à d'autres technologies dans l'architecture agile de données volumineuses est le principal problème à résoudre. être résolu par une mise en uvre agile.

Combinées à la plate-forme complète de services cloud d'analyse de données volumineuses sur les transports en cours de planification et de construction, nous prenons la méthodologie agile de données volumineuses et la conception d'architecture proposées dans cet article comme idéologie directrice pour la sélection de technologies clés et la réalisation d'itinéraires techniques, et faisons une application préliminaire. . L'objectif principal de la plate-forme complète de services cloud d'analyse des mégadonnées de transport est de résoudre les problèmes de correspondance intelligente de l'offre et de la demande de ressources de transport et d'analyse de prédiction des goulots d'étranglement grâce à la technologie des mégadonnées. Appliquer la fusion d'informations multi-granularité et la technologie de micro-services informatiques multimodaux pour intégrer, intégrer et exploiter les données volumineuses sur le trafic ; utiliser l'apprentissage automatique combiné à l'analyse quantitative et à l'analyse qualitative pour prédire la configuration de l'offre et de la demande, recommander des déplacements intelligents et analyser le hub de transport Goulots d'étranglement Fournissez une analyse des données volumineuses et une aide à la décision pour les aspects clés du transport intelligent, tels que la connexion et le transfert multimodes et le contrôle du trafic en temps réel. En raison des caractéristiques d'hétérogénéité multi-sources, de corrélation spatio-temporelle et de traitement dynamique des mégadonnées de transport complètes, l'architecture traditionnelle des mégadonnées est confrontée à de nombreux problèmes d'évolutivité, de compatibilité et de stabilité. Sur la base de la méthodologie agile des mégadonnées, une architecture agile des mégadonnées avec les caractéristiques de la composantisation, du service cloud et de la conteneurisation pour le transport intelligent est conçue, qui fournit des références pratiques et des conseils d'application pour la recherche et le développement d'une plate-forme complète de services cloud d'analyse des mégadonnées de transport Dans une certaine mesure, l'efficacité du développement est améliorée et le risque technique est maîtrisé.

Résumé et perspectives

Les principaux goulots d'étranglement et défis rencontrés dans la mise en uvre des applications Big Data sont discutés. Visant les caractéristiques du big data et son goulot d'étranglement d'analyse, cet article analyse la différence entre l'architecture traditionnelle des technologies de l'information et l'architecture du système de big data.Basée sur des idées de conception agiles, allégées et itératives, la méthodologie agile du big data est proposée pour la première fois, et sa définition de concept, les éléments de base, l'optimisation des processus et les technologies clés sont discutés.En analysant les raisons de conception du Big Data agile, basé sur l'amélioration du processus d'exploration de données traditionnel, un processus de traitement du Big Data agile orienté microservice est conçu, et son les principales technologies de support sont préalablement étudiées et explorées. Une architecture agile de mégadonnées basée sur des microservices et une technologie de fusion d'informations multi-granularité est construite, et des liens techniques clés tels que le microservice de mégadonnées de transport et la fusion de mégadonnées de transport sont conçus et discutés en détail combinés à des cas réels.

La proposition de big data agile est basée sur la nature itérative de la science des données et fournit de nouvelles méthodes, de nouvelles idées et une nouvelle architecture technique pour la construction de systèmes de big data efficaces et flexibles, l'apprentissage automatique et la découverte de connaissances dans l'environnement d'application du big data. dans diverses industries. La valeur applicative du big data est mise en jeu par une conception agile pour minimiser les coûts et maîtriser les risques. Par rapport aux méthodes traditionnelles de traitement du big data et aux architectures techniques, l'importance et la valeur de référence de cette méthodologie vont de soi. Bien sûr, en tant que nouveau problème de recherche d'applications interdomaines couvrant une variété de technologies de l'information de pointe, le Big Data agile nécessite encore une exploration approfondie et une pratique d'application en termes de méthodes de conception, de technologies clés et d'architecture système.

Attention au compte public WeChat : échange de programmeurs et plateforme interactive ! Obtenez le matériel pour apprendre!

! ignorante Alive and nom bien figure sur la liste de la crémation est ce que cette opération?
Précédent
« Maman canard » rire et les larmes en même temps préféré passer le week-end avec leurs enfants
Prochain
CES 2018 | IFLYTEK plate-forme matérielle pour construire des innovations intelligentes AI aide
Exposition plein de photo d'écran pour téléphone Meizu: + côté d'empreintes digitales d'un petit retour de cercle
24 anniversaire des fournisseurs Monument de la Libération sont choquants toute la ville! Pour la première fois 24 fois les points + échange de la valeur du coupon en espèces avec vous HIGH anniversa
énergie positive propagation financière pour promouvoir le développement de haute qualité - 40 ans de réforme et d'ouverture à Chongqing Contribution financière Cérémonie de remise a eu lieu
Pourquoi les programmeurs doivent comprendre la technologie grande de données? Les autres matériels d'apprentissage pour envoyer une grande vague!
Prédécesseur - tombent également dans une fosse passant Shaoshang vous, en plus de larmes et de haine il d'autres moyens?
chaleureuses félicitations Groupe grande ouverture Dade, Ltd.
travail de masse en ligne « Portrait du Hunan », Hunan think tank « médias chaud », ils long sciés?
Diriger Convoquer et changer le premier système de contrôle des fenêtres intelligentes et les portes de la conférence mondiale
Association neuvième Chine Film Directors a annoncé les juges finaux, tels que les chèques d'évaluation Zhang Yimou LiShaoGong
Hunan un semaine Shu regardant les étoiles, les pieds sur terre
2019 tendances technologiques Big Data