Pourquoi les applications Big Data ont-elles besoin d'agilit� ? M�thodologie Agile Big Data

Il y a quelque temps, il a �t� signal� que certains universitaires remettaient en question la th�orie des � m�gadonn�es �, et certains dirigeants d'entreprises de la Silicon Valley remettaient en question l'effet des applications de m�gadonn�es. Combin� avec une conclusion d'une enqu�te Gartner de 2011 selon laquelle 70�% � 80�% des applications BI (Business Intelligence) �chouent (l'�chec ici est exag�r�, ou plus pr�cis�ment, il ne devrait pas produire l'effet escompt�), Cet article explique pourquoi de tels probl�mes se produisent et quels sont les goulots d'�tranglement dans la mise en uvre des applications Big Data�? Pourquoi les applications Big Data sont-elles sujettes � l'�chec�? Pourquoi les applications Big Data ont-elles besoin d'agilit� ? Qu'est-ce que la m�thodologie agile Big Data, y compris ces technologies cl�s, comment concevoir l'architecture du syst�me, etc. J'esp�re fournir des r�f�rences pr�cieuses pour la mise en uvre d'applications Big Data dans l'industrie.

Quels sont les principaux goulots d'�tranglement dans la mise en uvre d'applications Big Data ?

Comme je l'ai mentionn� dans l'article pr�c�dent "Sur la bulle, la valeur et le pi�ge des applications du Big Data", le ph�nom�ne du Big Data d�coule de notre peur de l'incertitude future et du fait que le logiciel avale rapidement le monde (le logiciel devient de plus en plus complexes, et les op�rations deviennent de plus en plus complexes.Plus il y a d'automatisation, plus les donn�es sont de plus en plus riches, mais la plupart des gens connaissent peu ses principes et ses caract�ristiques) Le probl�me de la gestion hors de contr�le dans ce contexte. La pr�visibilit� des lois du Big Data a cr�� un nouveau syst�me de connaissances et une nouvelle pens�e manag�riale, mais la bo�te noire du mod�le d'analyse et l'automatisation des op�rations ont affaibli la capacit� de l'homme � comprendre et � explorer ses lois profondes. dans un court laps de temps. Les applications Big Data ne manquent pas de mod�les pr�dictifs, de ressources informatiques et de sp�cialistes des donn�es, mais manquent de la capacit� de poser les bonnes questions et d'utiliser les outils Big Data pour r�soudre les probl�mes. C'est comme utiliser un canon pour ne pas toucher un moustique. Vous ne pouvez pas dire que le canon est inutile, mais que la m�thode de l'homme est mauvaise.

Ici, je veux toujours recommander la jupe � boucle d'�change d'apprentissage du big data que j'ai construite moi-m�me�: 957205962, les jupes sont toutes d�velopp�es en apprenant le big data. Si vous apprenez le big data, l'�diteur vous invite � vous joindre, tout le monde est une partie de d�veloppement de logiciels, Je partagerai de temps en temps des marchandises s�ches (uniquement li�es au d�veloppement du Big Data), y compris les derni�res informations avanc�es sur le Big Data de 2018 et un didacticiel de d�veloppement avanc� compil� par moi-m�me. Bienvenue aux petits partenaires avanc�s et avanc�s qui souhaitent approfondir le Big Data

"Entre 70�% et 80�% des projets d'informatique d�cisionnelle �chouent" - Gartner, f�vrier 2011

L'objectif principal de l'analyse des m�gadonn�es est de faire face au pass�, de d�couvrir les lois des donn�es et de r�sumer le connu�; de faire face � l'avenir, d'explorer les tendances des donn�es et de pr�dire l'inconnu. Par cons�quent, gr�ce � l'analyse des m�gadonn�es, la capacit� de comprendre les choses et de prendre des d�cisions peut �tre am�lior�e, et enfin l'intelligence peut �tre r�alis�e. Qu'il s'agisse d'intelligence �conomique, d'intelligence artificielle, d'intelligence artificielle ou de service client intelligent, de questions et r�ponses intelligentes, de recommandations intelligentes, de traitements m�dicaux intelligents, de transports intelligents et d'autres technologies et syst�mes connexes, leur essence est d'�voluer vers cet objectif. Avec le d�veloppement rapide des plates-formes de cloud computing et des syst�mes de big data open source (tels que Hadoop, Spark, Storm, etc.), il devient de plus en plus facile d'obtenir des technologies et des supports li�s � la construction d'infrastructures de big data. Dans le m�me temps, les capacit�s compl�tes de collecte de donn�es des technologies de l'Internet mobile et de l'Internet des objets ont objectivement favoris� l'accumulation et l'explosion des m�gadonn�es. Cependant, afin de mettre en uvre des applications Big Data, en plus de la capacit� mentionn�e ci-dessus de poser les bonnes questions et d'utiliser des outils Big Data pour r�soudre les probl�mes, je pense personnellement qu'il existe �galement des goulots d'�tranglement majeurs dans les aspects suivants�:

1) La transformation de l'informatique vers les g�n�riques de la technologie DT (Data Technology, DT) a pos� des d�fis aux architectures technologiques mat�rielles et logicielles traditionnelles, telles que l'informatique parall�le � grande �chelle, les ordinateurs quantiques, les puces de r�seau neuronal profond, les syst�mes de stockage distribu�s, les GPU � grande �chelle. l'informatique � grande �chelle, etc. Les deux sont des subversions de l'architecture traditionnelle de la technologie informatique. � ce stade, diverses technologies et syst�mes open source li�s � l'analyse des m�gadonn�es fleurissent, l'�cosyst�me technologique des m�gadonn�es est complexe et le seuil technique est �lev�, ce qui illustre �galement indirectement ce point. Il faut du temps aux chercheurs et au personnel de R&D pour suivre cette vague de changements technologiques, en particulier la combinaison de l'universit� et de l'industrie, qui est cruciale pour les applications du big data. La perc�e dans le domaine du deep learning en est un exemple. Comment effectuer rapidement des recherches d'applications de m�gadonn�es et des applications d'atterrissage sous la condition de ma�triser une technologie limit�e (ou sous r�serve de talents techniques de base) n�cessite une discussion, une analyse et une �valuation approfondies du point de vue de la s�lection de la technologie.

2) Il y a trop de le�ons � tirer de l'�chec des applications de business intelligence (BI) traditionnelles, le cycle de projet est long, la patience du client est mise � l'�preuve, le co�t d'entr�e de l'application est �lev� et le r�sultat final est surtout des rapports de luxe co�teux, qui ne pas atteint les r�sultats escompt�s. De plus, dans le cadre de l'architecture traditionnelle d'entrep�t de donn�es et de magasin de donn�es, les probl�mes tels que la capacit� de stockage, la capacit� d'extension et la faible capacit� de concurrence des donn�es massives ne peuvent pas �tre fondamentalement r�solus. Comment l'analyse du Big Data r�sume-t-elle les le�ons des �checs et tire-t-elle de l'exp�rience des projets BI�? Les applications Big Data sont-elles int�gr�es ou remplac�es par les syst�mes BI traditionnels�? Comment le cadre de la technologie Big Data d'entreprise s'unifie-t-il organiquement avec le cadre de la technologie Big Data grand public cr�� par les g�ants de l'Internet�? Il reste encore de nombreux probl�mes qui doivent �tre r�sum�s en profondeur.

3) Standardisation et productisation des applications Big Data. Selon les caract�ristiques d'h�t�rog�n�it� multi-sources, de dynamisme et de corr�lation des donn�es volumineuses, normalisez la gestion des processus et des applications d'analyse de donn�es volumineuses, int�grez l'analyse hors ligne, l'analyse en ligne, l'analyse en temps r�el, l'analyse de la m�moire et d'autres cadres informatiques, texte , vid�o, audio, pages Web, bases de donn�es relationnelles et autres donn�es h�t�rog�nes multi-sources pour la mod�lisation intermodale, afin de quantifier et d'�valuer l'effet d'application des r�sultats d'analyse de donn�es volumineuses. Que ce soit du point de vue de la s�lection technique ou de l'accompagnement des entreprises, de nombreux probl�mes n�cessitent encore l'accumulation et l'accompagnement d'une exp�rience pratique, et il est irr�aliste de les r�soudre une fois pour toutes.

4) En plus des d�fis rencontr�s par l'application Big Data �voqu�s ci-dessus, les probl�mes cl�s suivants doivent �tre r�solus du point de vue technique de l'architecture Big Data elle-m�me�: �volutivit� �lev�e, peut prendre en charge la croissance des donn�es � grande �chelle et l'expansion rapide d'un grand nombre d'analyses commerciales, etc.; tol�rance aux pannes et stabilit� �lev�es, peut prendre en charge l'�chec de l'analyse des donn�es volumineuses et de la r�cup�ration automatique, etc.; haute performance et prise en charge parall�le, peut �tre utilis� en massif Terminer rapidement une vari�t� de mod�les informatiques et de traitement d'analyse dans des conditions de donn�es�; prise en charge d'environnements h�t�rog�nes multi-sources, peut traiter des donn�es multimodales et diverses t�ches d'analyse�; prise en charge de l'ouverture et du partage, peut fournir des interfaces de donn�es et de d�veloppement standard, prendre en charge l'int�gration des donn�es et du syst�me�; le contr�le de l'efficacit� et des co�ts, l'am�lioration des performances du syst�me dans des d�lais, des ressources humaines et financi�res limit�s, etc., imposent des exigences plus �lev�es pour la conception de l'architecture du syst�me de donn�es volumineuses.

5) La d�connexion entre la r�flexion sur la gestion des m�gadonn�es et le d�veloppement et la mise en uvre d'applications, les m�gadonn�es renforcent le statut de la science quantitative et des m�thodes objectives, Mais dans les faits, � ce stade, le traitement et l'utilisation du big data par de nombreux chefs d'entreprise, y compris les techniciens, reste encore subjectif, et face � la bo�te noire du machine learning, il est difficile d'en saisir � fond les d�fauts. et le champ d'application du mod�le. Les r�sultats de l'analyse et de la quantification de l'exploration de m�gadonn�es peuvent ne pas �tre plus conformes aux faits objectifs. Les m�gadonn�es ne sont pas �gales � de bonnes donn�es. Comment aider efficacement la prise de d�cision est la cl�.

De plus, le big data est tr�s fragment�. Le big data ne se limite pas aux soci�t�s Internet telles que Google, Amazon, BAT. Chaque industrie et entreprise a des traces de son attention aux donn�es�: donn�es de capteurs en temps r�el sur une cha�ne de production, et donn�es donn�es de d�tection, donn�es sur l'�tat de fonctionnement des �quipements ferroviaires � grande vitesse, donn�es de surveillance des services de trafic, etc.�; d'autre part, l'architecture et les outils actuels du syst�me de donn�es massives open source proviennent des g�ants de l'Internet, et cette architecture technique n'est pas n�cessairement adapt�e aux applications traditionnelles. entreprises et institutions li�es au gouvernement. Parce que les types de donn�es et les structures d�tenues par diff�rentes organisations peuvent �tre tr�s diff�rentes�; encore une fois, du point de vue du processus d'application et des caract�ristiques des m�gadonn�es, l'essence de la science des donn�es est l'it�ration, tout comme l'apprentissage de a baby, input-response-feedback-learning- La r�introduction, la formation continue et l'apprentissage g�n�reront de l'intelligence. Il en va de m�me pour les syst�mes d'analyse de donn�es volumineuses. L'optimisation adaptative et l'am�lioration continue sont des caract�ristiques essentielles des syst�mes de donn�es volumineuses. Par cons�quent, cela n�cessite que l'architecture de la technologie Big Data ait une forte flexibilit�, �volutivit� ou agilit�.

Pourquoi les applications Big Data ont-elles besoin d'agilit� ?

� partir de l'analyse des goulots d'�tranglement des applications Big Data dans les cinq aspects ci-dessus, nous pouvons voir qu'il reste encore un long chemin � parcourir avant que les applications Big Data puissent r�ellement �tre mises en uvre et g�n�rer une valeur due. Bien s�r, cela d�pend de nos attentes. Dans l'article, il y a une d�finition claire. L'effet de l'application du Big Data ne peut pas �tre facilement ni�, et bien s�r, il ne peut pas �tre trop optimiste. La cl� d�pend du stade, de la maturit� de la technologie, des capacit�s de conception et de d�veloppement, et bient�t. Pourquoi le big data a besoin d'agilit�, ou pourquoi je propose le big data agile, est principalement bas� sur le jugement du goulot d'�tranglement mentionn� ci-dessus de l'application du big data�: l'application du big data se heurte � de nombreux probl�mes pratiques, tout d'abord, regardons le processus d'application et caract�ristiques des m�gadonn�es (Figure 1), ce que les m�gadonn�es doivent accomplir est d'organiser diverses donn�es sources (donn�es dispers�es et li�es autour d'une certaine industrie ou d'un certain th�me d'analyse) en donn�es th�matiques via ETL, extraire les caract�ristiques d'information du th�me Il s'agit d'un processus de traitement de l'information en boucle ferm�e de v�rification r�p�t�e, d'optimisation et d'it�ration continue en retournant au syst�me de donn�es volumineuses pour une v�rification r�p�t�e, une optimisation et une it�ration continue.

Figure 1 Mod�le pyramidal d'application Big Data

Deuxi�mement, existe-t-il une architecture et un processus g�n�raux d'application Big Data�? D'une mani�re g�n�rale, diff�rentes industries, diff�rentes entreprises et diff�rents sc�narios d'application adopteront diff�rentes architectures techniques et processus d'analyse.Troisi�mement, de nombreux probl�mes pratiques se posent lors de la mise en uvre d'applications Big Data.Le cycle de projet est long, ce qui met � l'�preuve la patience des clients. et l'�cologie technique. Il y a trop de talents complexes, peu de talents compos�s, et il est difficile de trouver un avenir. Il n'y a pas de norme pour quantifier l'effet de l'application. La participation des utilisateurs est faible, et il est difficile d'atteindre les r�sultats attendus. L'architecture du syst�me, les technologies cl�s et la m�thodologie d'application pr�sentent des exigences plus �lev�es. Voyons si le big data agile peut r�soudre certains probl�mes.

M�thodologie Agile Big Data

(1) Qu'est-ce que l'agilit�?

Qu'est-ce que l'agile, examinons d'abord quelques concepts�:

Le d�veloppement agile prend l'�volution des besoins des utilisateurs comme noyau et adopte une m�thode it�rative et �tape par �tape pour le d�veloppement de logiciels. Dans le d�veloppement agile, un projet logiciel est divis� en plusieurs sous-projets au d�but de la construction, et les r�sultats de chaque sous-projet ont �t� test�s et ont les caract�ristiques de visibilit�, d'int�gration et d'exploitation. En d'autres termes, il s'agit de diviser un gros projet en plusieurs petits projets qui sont interconnect�s mais qui peuvent aussi fonctionner ind�pendamment, et de les compl�ter s�par�ment.Pendant ce processus, le logiciel est toujours dans un �tat utilisable.

Gestion agile. La gestion agile est une approche it�rative de la planification et de la direction des processus de projet. Comme le d�veloppement logiciel agile, les projets agiles sont r�alis�s dans de petits d�partements appel�s it�rations. Chaque it�ration est examin�e et jug�e par l'�quipe de projet, et les informations obtenues � partir du jugement de l'it�ration sont utilis�es pour d�cider des prochaines �tapes du projet. En raison du cycle de d�veloppement court et de la gestion appropri�e des exigences, la gestion agile s'�tend de l'industrie de la R&D logicielle � la plupart des industries qui ont adopt� la gestion de projet.

Lean Production, appel� � Lean �, est une philosophie de gestion d�riv�e du Toyota Production System au Japon. P Gr�ce � l'enqu�te et � l'analyse comparative de plus de 90 usines de fabrication d'automobiles dans 17 pays � travers le monde dans le cadre du ��Programme automobile international (IMVP)��, des experts tels que Womack estiment que la m�thode de production de la soci�t� japonaise Toyota Motor Corporation est la plus adapt�e au march� moderne. entreprises manufacturi�res.Organisation et gestion, la production all�g�e passe par des changements dans la structure du syst�me, l'organisation du personnel, le mode de fonctionnement, l'offre et la demande du march�, etc., de sorte que le syst�me de production puisse s'adapter rapidement aux besoins changeants des utilisateurs, et tous inutiles et redondants les choses dans le processus de production peuvent �tre rationalis�es, une m�thode de gestion de la production qui obtient finalement les meilleurs r�sultats dans tous les aspects de la production, y compris l'approvisionnement du march� et les ventes.

Le Lean Thinking et le Lean Management sont issus de la production au plus juste. Le management au plus juste a �t� �tendu avec succ�s � partir de la pratique de gestion initiale dans le syst�me de production, et s'est progressivement �tendu � divers m�tiers de gestion de l'entreprise, et est �galement g�r� par la m�thode m�tier initiale sp�cifique, s'�levant � un concept de gestion strat�gique. Le Lean management exige que toutes les activit�s de l'entreprise utilisent le "Lean Thinking". Le cur de la "pens�e Lean" est de cr�er autant de valeur que possible avec un minimum de ressources, y compris la main-d'uvre, l'�quipement, le capital, les mat�riaux, le temps et l'espace, et de fournir aux clients de nouveaux produits et des services en temps opportun.

Figure Dans l'ing�nierie logicielle moderne, la pile d'outils technologiques de base est tr�s mature, le d�veloppement agile de type bloc de construction et la fabrication au plus juste ont des concepts similaires

Comme on peut le voir dans les d�finitions de concepts ci-dessus, agile et lean sont des surs jumelles, et les mots cl�s impliquent �volution des exigences, it�ration, visualisation, �tape par �tape, int�grable et op�rationnel, lean, investissement minimal en ressources, etc. Dans la construction d'un syst�me d'application unique, l'ing�nierie logicielle traditionnelle n'a pas un besoin urgent d'id�es de d�veloppement agile et de gestion all�g�e, mais face � la conception, � la recherche et au d�veloppement et � la mise en uvre de projets d'architecture de syst�me de donn�es volumineuses multi-sources, h�t�rog�nes et collaboratives. , agile et lean Le concept de design est tr�s important, pourquoi dites-vous cela ? La figure ci-dessous est une comparaison entre l'architecture traditionnelle typique des technologies de l'information et l'architecture du syst�me Big Data. Des amis exp�riment�s devraient pouvoir y voir quelques indices.

Figure 2 Comparaison de l'architecture entre le syst�me d'information traditionnel et le syst�me de donn�es volumineuses

La partie gauche de la figure ci-dessus repr�sente l'architecture traditionnelle des technologies de l'information et la partie droite l'architecture commune du syst�me Big Data. Bien entendu, la s�lection de composants techniques sp�cifiques varie en fonction des diff�rents besoins. Cette architecture n'est pas fig�e et chaque composant a au moins quelques remplacements et peut �tre prolong� au besoin. De cette figure, nous pouvons tirer la conclusion que le syst�me d'information traditionnel peut �tre conquis par une seule personne, mais l'id�e centrale du syst�me de donn�es volumineuses est la coop�ration distribu�e et unie.Ce n'est pas aussi puissant que l'int�gration efficace d'un groupe de personnes, et l'architecture du syst�me Big Data est responsable de l'int�gration de nombreux aspects (il en va de m�me pour Hadoop, Spark et d'autres architectures syst�me de base Big Data, comme le montre la figure 3-Sch�ma d'architecture syst�me Hadoop), en d'autres termes, cette Par exemple, gestion agile et all�g�e dans la R&D logicielle ou le processus de production, le ma�tre de l'entreprise (Master) attribue les t�ches et alloue le personnel.Chaque employ� (esclave) s'efforce d'accomplir le petit travail cible dont il est responsable, et les superviseurs � tous les niveaux effectuent t�ches horizontales et verticales. La collaboration et l'int�gration efficace sont les principaux objectifs de l'entreprise. On peut voir que l'�volution de l'architecture du syst�me de donn�es volumineuses est tr�s proche de l'id�e de collaboration de la soci�t� humaine. Pour prendre en charge efficacement les capacit�s de collaboration distribu�e de l'architecture du syst�me Big Data, les id�es de conception agiles et all�g�es sont des r�f�rences n�cessaires.

Figure 3 Diagramme sch�matique de l'architecture du syst�me Hadoop

(2) D�finition du Big Data Agile

Alors, qu'est-ce que le big data agile ? La technologie, la conception all�g�e de l'architecture du syst�me de donn�es volumineuses et la collaboration des composants cl�s, etc., r�alisent progressivement le traitement de fusion de donn�es � plusieurs niveaux, l'expansion et la gestion efficace de divers cadres et mod�les informatiques, r�pondent rapidement aux besoins d'analyse de donn�es volumineuses et construisent rapidement de grandes syst�mes de production de donn�es, pour it�rer rapidement les capacit�s d'analyse de donn�es volumineuses, am�liorant ainsi l'efficacit� de l'analyse des syst�mes de donn�es volumineuses et la valeur de la prise de d�cision en mati�re de donn�es volumineuses. Les �l�ments de base du big data agile suivent les principes de SFV (Small, Fast, Validation, SFV)�: l'un est petit, l'autre est rapide et le troisi�me est une preuve, les objectifs d'analyse des petites entreprises sont coup�s, des prototypes rapides sont produits et rapides des it�rations sont faites. Dans une certaine mesure, bon nombre des �checs des projets de BI traditionnels sont dus � l'incapacit� de saisir ces trois principes, tandis que le succ�s des syst�mes de big data des entreprises Internet et l'essor des technologies de big data open source sont dus � la saisie de ces trois principes. .

Le big data agile doit r�soudre les probl�mes cl�s suivants : comment r�aliser une architecture de big data unifi�e, standardis�e, modulaire et configurable pour r�soudre le probl�me de la difficult� � int�grer efficacement diff�rents types de sous-syst�mes h�t�rog�nes. Les fonctions d'application peuvent �tre compos�es de composants fonctionnels existants et les co�ts peuvent �tre r�duits gr�ce � la r�utilisation des services. La forme des donn�es �chang�es entre les composants doit �tre standardis�e et interfac�e�; la combinaison des composants peut �tre compl�t�e avec seulement une petite quantit� de programmation ou de configuration. mod�les et L'int�gration et la normalisation des outils, comment simplifier l'utilisation, peuvent fournir aux non-programmeurs des capacit�s d'exploration et d'analyse de donn�es pr�tes � l'emploi�; l'ensemble du processus des applications de donn�es volumineuses (collecte, stockage, analyse, gestion) est visualis�. Sur la base de la nature it�rative de la science des donn�es et de l'utilisation d'outils composants � haute efficacit�, les sous-syst�mes fonctionnels (modules) du Big Data sont composants, le mod�le est standardis� et le syst�me prototype Big Data peut �tre rapidement s�lectionn�, configur� et rapidement It�rer rapidement sur les r�sultats d'analyse de donn�es volumineuses et s'adapter � l'�volution des besoins pour transformer les prototypes en syst�mes de production le plus rapidement possible. Dans le processus d'it�ration rapide, de r�troaction rapide et de v�rification en boucle ferm�e, laissez les clients terminer progressivement la transformation de la pens�e syst�me et de la pens�e de gestion de l'analyse du Big Data.

Figure 4 Diagramme sch�matique du d�veloppement it�ratif agile

(3) Optimisation agile des processus Big Data

Selon les principes de SFV rapide, petit et �prouv� pour le Big Data agile, nous avons am�lior� le processus standard intersectoriel traditionnel pour l'exploration de donn�es (CRISP-DM) et propos� une solution bas�e sur les microservices et les conteneurs (agile ult�rieur The Agile Le traitement du Big Data bas� sur les Micro-services sera pr�sent� en d�tail dans le chapitre sur les technologies cl�s du Big Data), comme indiqu� ci-dessous :

Figure 5. Processus CRISP-DM et processus agile de traitement du Big Data

Par rapport au processus d'exploration de donn�es traditionnel, le processus de traitement agile des m�gadonn�es est �tendu � deux niveaux�: premi�rement, l'architecture est prise en charge par la technologie de microservice bas�e sur des conteneurs�; selon la nature it�rative de la science des donn�es, la mise � niveau it�rative adaptative et l'aide � l'�volution des d�cisions intelligentes sont respectivement r�alis�es pour les deux processus de syst�me mod�le et de retour de d�cision r�el. Gr�ce � cette expansion, la m�thodologie agile du Big Data et les techniques traditionnelles d'exploration de donn�es, ainsi que les cadres �mergents du Big Data grand public, peuvent se compl�ter et s'int�grer dans l'architecture et les processus. Pour mettre en uvre les principes Agile Big Data SFV, la conception d'une architecture Big Data Agile est cruciale. L'architecture Agile Big Data n�cessite un support de conception scientifique et efficace � plusieurs niveaux, tels que la gestion par composants, la fusion de donn�es, la planification des ressources, l'abstraction de service, le d�ploiement, l'exploitation et la maintenance, les mod�les informatiques orient�s services et les ensembles de donn�es standard, ainsi que les processus agiles de traitement Big Data. . L'objectif principal est de r�aliser le service, la standardisation et la processisation des fonctions de traitement et d'analyse de la fusion de donn�es volumineuses. Bas� sur la technologie de fusion de donn�es et de microservices, concevoir une plate-forme d'analyse de donn�es volumineuses modulaire et configurable, et r�aliser la construction et la gestion de microservices. Rapide mise en uvre, � travers la division, la combinaison, l'orchestration et la configuration dynamique de divers microservices, pour former un syst�me d'analyse de donn�es volumineuses r�utilisable, �volutif et flexible, afin d'atteindre l'objectif de donn�es volumineuses agiles.

4. Technologies cl�s du big data agile

� l'�re des m�gadonn�es, diverses technologies �mergentes et cadres informatiques �mergent dans un flux sans fin, associ�s aux exigences d'analyse en constante �volution, comment faire en sorte que l'architecture des m�gadonn�es puisse �tre ajust�e � tout moment pour s'adapter aux besoins de l'entreprise et suivre le rythme de la Le rythme des mises � jour technologiques est un probl�me cl� � r�soudre par les applications Big Data, c'est aussi la raison essentielle pour laquelle une architecture agile Big Data est propos�e. Face � des dizaines ou des centaines de syst�mes d'information dans les grandes entreprises, la mani�re d'assurer la coh�rence, l'interop�rabilit� et la portabilit� entre les environnements cloud physiques, virtuels, publics et priv�s est un grand d�fi pour l'infrastructure informatique. Par cons�quent, les technologies de microservices et de conteneurs ont vu le jour.Les microservices r�alisent la constitution de composants et le fonctionnement autonome ind�pendant des modules syst�me.Les conteneurs peuvent r�aliser une virtualisation l�g�re et utiliser compl�tement le m�canisme de bac � sable sans aucune interface entre eux. La combinaison naturelle des microservices, des conteneurs et des technologies de cloud computing, ainsi que les avantages d'une R&D, d'un d�ploiement et d'une maintenance rapides, font des applications Big Data agiles bas�es sur des microservices et des conteneurs un �norme potentiel.

(1) Technologie des microservices

L'essence du service est l'abstraction du comportement. La m�thode orient�e objet consiste � d�crire le monde � partir de la dimension des entit�s objets, tandis que la m�thode orient�e service (SOA) consiste � d�crire le monde � partir de la dimension du mode de comportement, qui est essentiellement une description de deux dimensions diff�rentes.

Figure 6. Processus de d�veloppement du logiciel en tant que service

En raison de la nature it�rative de la science des donn�es, l'analyse de donn�es volumineuses en tant que service est devenue une application en vogue, et les microservices et les technologies de conteneurs peuvent prendre en charge efficacement les principes fondamentaux de la SFV agile de donn�es volumineuses propos�s dans cet article. Ces derni�res ann�es, les microservices (id�es de conception issues de la loi de Conway, comme le montre la figure 7) sont devenus un point chaud de recherche et de conception pour les entreprises Internet et de m�gadonn�es.Des entreprises telles que Google, Amazon, Facebook, Baidu, JD.com et Ctrip adoptent tous la th�orie et la technologie des microservices pour la conception, le d�veloppement et le d�ploiement de produits. Adrian Cockcroft de Netflix appelle les microservices "Service Oriented Architecture (SOA)" et les consid�re comme une nouvelle architecture r�volutionnaire. Martin Fowler, le p�re de l'agilit�, a donn� la d�finition des microservices dans son article "Micro services".En g�n�ral, l'id�e de conception de microservices est une m�thode de d�veloppement d'applications �normes utilisant plusieurs petits services, chacun fonctionnant de mani�re ind�pendante. processus, les informations sont �chang�es via un m�canisme de communication l�ger. La granularit� de chaque microservice est construite en fonction de la capacit� m�tier et peut �tre impl�ment�e par diff�rents langages de programmation. La cha�ne de services construite peut �tre automatiquement d�ploy�e via des technologies telles que les conteneurs.

Figure 7. Loi de Conway, la structure d'un syst�me est limit�e par la structure de communication de l'organisation qui a con�u le syst�me. �tant donn� que la structure du syst�me peut changer au fur et � mesure que la conception progresse, la conception doit rester l�g�re et flexible.

Comme le montre la d�finition ci-dessus des microservices, des fonctionnalit�s telles que la d�centralisation, l'atomisation, l'ind�pendance et l'autonomie, la composition rapide et le d�ploiement automatique sont les �l�ments essentiels de la technologie des microservices. Les fonctions de la couche application sont divis�es en modules de microservices avec plus petite granularit�, et la base de donn�es est �galement prise en charge par la division correspondante en fonction des unit�s fonctionnelles de micro-service (comme illustr� � la figure 8). La technologie de conteneur bas�e sur le cloud est utilis�e pour ex�cuter ces modules de service ind�pendamment. Le m�canisme de communication l�ger relie ces modules de service d�compos�s ensemble pour former des clusters et des r�seaux de microservices pour effectuer des t�ches importantes et complexes. En divisant le syst�me complexe en plusieurs petits modules de microservice, il est distribu� et � faible couplage. L'architecture peut s'adapter consid�rablement aux caract�ristiques de traitement distribu� des donn�es volumineuses.

Figure 8 La diff�rence entre l'architecture d'application monolithique traditionnelle et l'architecture de microservice

(2) Technologie des conteneurs

La technologie des microservices adopte une m�thode de construction similaire aux blocs de construction, de sorte que les services ne s'affectent pas les uns les autres, et les microservices d'un m�me syst�me peuvent utiliser diff�rents langages de d�veloppement et technologies de base de donn�es. Cependant, face � des dizaines ou des centaines de syst�mes d'information dans les grandes entreprises, comment parvenir � la coh�rence, l'interop�rabilit� et la portabilit� entre les environnements cloud physiques, virtuels, publics et priv�s est un grand d�fi pour l'infrastructure informatique. . Par cons�quent, la technologie des conteneurs a �merg� au fil des temps. Les conteneurs ont d'abord �t� propos�s par Docker et appliqu�s � leur propre plate-forme de services cloud PaaS. Ces derni�res ann�es, ils ont �t� largement reconnus. De nombreuses grandes entreprises ont commenc� � micro-entretenir leurs syst�mes d'application uniques et � les d�ployer. dans des conteneurs. Les conteneurs bas�s sur le syst�me d'exploitation peuvent r�aliser une virtualisation plus l�g�re que les technologies de virtualisation traditionnelles (telles que VMware) et utiliser compl�tement le m�canisme de bac � sable sans s'interfacer les uns avec les autres. Kubernetes, un sous-syst�me de Hadoop, a �t� en mesure de prendre en charge le d�veloppement et le d�ploiement de microservices bas�s sur le cloud computing et la technologie des conteneurs Docker. La combinaison naturelle de la technologie des conteneurs et du cloud computing et ses avantages en termes de R&D, de d�ploiement et de maintenance rapides sont id�ales pour microservices et architectures de donn�es agiles La conception et la mise en uvre jouent un r�le de soutien important.

Figure 9 Diagramme de l'architecture du conteneur Docker

(3) Technologie de fusion de donn�es

Le stockage, l'exploration, l'analyse et la compr�hension des m�gadonn�es sont confront�s � de grands d�fis en raison des caract�ristiques de pertinence, de dynamique et d'h�t�rog�n�it� multi-sources pr�sent�es par les m�gadonn�es. Comment standardiser et int�grer uniform�ment les donn�es dans diff�rents formats et formats est un probl�me cl� � r�soudre par le Big Data agile. Diff�rent des objectifs g�n�raux de fusion de donn�es volumineuses, ce document se concentre principalement sur la fusion multi-granularit� de donn�es volumineuses du point de vue de la cr�ation d'ensembles de donn�es standard, et prend en charge la fusion de fonctionnalit�s multimodales et divers types et structures en cr�ant des unit�s de donn�es unifi�es (UDU ). Fusion de paquets d'ensembles de donn�es. L'extraction, la fusion et l'int�gration de donn�es h�t�rog�nes multi-sources dans des ensembles de donn�es UDU qui prennent en charge le traitement par diff�rents mod�les informatiques est l'objectif principal de la technologie de fusion d'informations multi-granularit�. Les unit�s de donn�es unifi�es sont des ensembles ind�pendants et flexibles de donn�es d'entit� qui peuvent �tre rapidement r�organis�es, ajust�es et mises � jour � mesure que les sources de donn�es et les besoins analytiques changent. L'ensemble de donn�es standard UDU form� par la fusion d'informations est la base du traitement agile des m�gadonn�es.

Selon les caract�ristiques d'adaptation des donn�es de divers mod�les d'apprentissage automatique, nous proposons une d�finition standard d'ensemble de donn�es�: l'unit� de donn�es unifi�e (UDU) fusionne les informations � plusieurs niveaux et granularit�s de donn�es volumineuses. En particulier pour les donn�es multimodales, l'optimisation du stockage des donn�es et la standardisation des entr�es de donn�es du mod�le d'apprentissage automatique peuvent �tre r�alis�es gr�ce � la m�thode de conception d'unit� de donn�es unifi�e. Analyser l'adaptabilit� et l'agilit� des mod�les et des algorithmes pour am�liorer les capacit�s de traitement du Big Data. La conception de fusion d'informations multi-granularit� est illustr�e dans la figure suivante.

Figure 10 Conception de fusion d'informations multi-granularit� Big Data

L'unit� de donn�es unifi�e UDU dans la figure ci-dessus peut prendre en charge au moins trois niveaux de fusion de donn�es volumineuses.Le premier est la fusion au niveau des fonctionnalit�s, qui prend en charge le traitement de mod�les informatiques de donn�es volumineuses avec des fonctionnalit�s intermodales (telles que des fonctionnalit�s temporelles + spatiales); l'autre est la fusion au niveau des donn�es, qui prend en charge la fusion de sch�mas de donn�es et de structures de donn�es telles que le cube de donn�es multidimensionnel (Data Cube), le magasin de donn�es (�toile, sch�ma en flocon de neige); le troisi�me est la fusion au niveau du mod�le, � partir de diff�rentes t�ches de mod�le (tels que la classification, le regroupement, la pr�diction, l'association et d'autres mod�les) Angular prend en charge la gestion des unit�s de donn�es correspondantes. Pour concevoir et construire une unit� de donn�es unifi�e de donn�es volumineuses, les trois �tapes suivantes sont n�cessaires.

1)�Extraction de fonctionnalit�s�: Effectuer l'int�gration de donn�es et l'extraction de caract�ristiques sur des donn�es structur�es, des donn�es semi-structur�es et des donn�es non structur�es, extraire diverses caract�ristiques dans les donn�es, y compris des caract�ristiques temporelles, des caract�ristiques spatiales ou d'autres caract�ristiques globales, etc., pour r�aliser les attributs de localisation li�s aux donn�es. , propri�t�s de corr�lation spatio-temporelle et autres propri�t�s d'observation.

2) Forfait Fusion�: Toutes sortes de caract�ristiques de donn�es extraites, ou de donn�es apr�s pr�traitement pr�liminaire, sont regroup�es dans des unit�s de traitement de donn�es avec une structure et un format unifi�s en fonction des caract�ristiques de traitement des donn�es et des exigences des diff�rents mod�les informatiques pour former des ensembles de donn�es d'analyse standard, qui servent l'exploitation mini�re de niveau sup�rieur. services informatiques Fournit une adaptation rapide des donn�es. Diff�rents types de d�finitions d'unit�s de donn�es unifi�es peuvent �tre r�alis�s gr�ce � des m�thodes et des technologies de d�finition de m�tadonn�es telles que XML/JSON, et des informations de base et divers attributs de chaque type d'unit� de donn�es unifi�e peuvent �tre d�finis et d�crits, y compris l'ID d'identification, les attributs de base, les attributs s�mantiques , et structure, propri�t�s, etc. 3) Interface de service�: l'ensemble de donn�es d'unit� de donn�es unifi�es encapsul�es r�alise une adaptation rapide des donn�es pour diff�rents mod�les de service informatique minier, con�oit une interface d'appel d'unit� de donn�es unifi�e, analyse l'unit� de donn�es encapsul�e via la d�finition de l'interface et le param�trage, et analyse l'unit� de donn�es encapsul�e. Diverses caract�ristiques d'attributs et informations structurelles de l'ensemble de donn�es sont extraites.

Architecture de syst�me de Big Data agile

Selon l'analyse ci-dessus des technologies cl�s du big data agile, comment concevoir et mettre en uvre une architecture de syst�me de big data agile efficace est le contenu cl� des applications de big data agiles. Prenant comme exemple le traitement du big data du trafic, une conception pr�liminaire de son architecture de traitement agile est r�alis�e. En raison de la complexit� du big data de trafic et de la diversit� des cibles d'analyse, les modes d'analyse traditionnels de data mining et les architectures technologiques du big data sont remis en question. Par exemple, pour les donn�es statiques historiques de trafic massif, une technologie de traitement par lots hors ligne est requise, tandis que les donn�es de trafic dynamiques en temps r�el en continu n�cessitent un cadre informatique en continu pour le traitement. En outre, les donn�es multimodales telles que le texte, les images, les vid�os et les capteurs doivent �tre trait�es par diff�rents mod�les d'apprentissage automatique.Comment effectuer une analyse de calcul de fusion intermodale est �galement une difficult� d'application. En r�ponse � l'�volution et � l'expansion des exigences d'analyse des donn�es volumineuses sur le trafic, la mani�re de r�pondre rapidement aux syst�mes de donn�es volumineuses et d'�tendre et d'ajuster les fonctions et les mod�les est un probl�me cl� � r�soudre dans la conception d'une architecture de donn�es volumineuses agile pour le trafic.

En d'autres termes, pour �tre en mesure de concevoir une architecture de traitement flexible pour prendre en charge diff�rentes exigences d'analyse de donn�es volumineuses sur le trafic, l'architecture de donn�es volumineuses doit �tre en mesure de r�pondre au changement ou � l'expansion de diff�rentes exigences d'analyse � partir de plusieurs niveaux de collecte, de stockage, de calcul et application. Bas�e sur l'analyse et la recherche de la m�thodologie agile big data et de ses technologies cl�s, l'architecture agile big data est con�ue � partir de quatre niveaux : int�gration d'acquisition de donn�es, stockage de donn�es � grande �chelle et fusion de donn�es, microservices informatiques multimodaux/multimodaux, et applications de donn�es. Gr�ce � l'int�gration et � la fusion de donn�es volumineuses multi-granulaires, une unit� de donn�es unifi�e est construite pour former un ensemble de donn�es standard, et l'exploration de donn�es volumineuses de transport agile et orient�e service est r�alis�e gr�ce � l'abstraction du mod�le informatique bas� sur les microservices et le traitement au niveau de la couche d'agr�gation. � l'aide d'interfaces standard et de m�thodes de d�veloppement de plug-ins, la gestion unifi�e de la configuration peut �tre effectu�e sur les principaux frameworks de traitement de donn�es volumineuses (tels que Hadoop, Spark, Storm, etc.) Selon la cible d'analyse, effectuez une s�lection rapide, une configuration flexible, construisez des prototypes et les mises � niveau it�ratives (comme le montre la figure ci-dessous, selon les diff�rents chemins de conception des deux lignes pointill�es, vous pouvez configurer rapidement l'analyse par lots des donn�es historiques de la base de donn�es, ou l'analyse du traitement par flux des donn�es collect�es sur le r�seau public), l'architecture globale La conception de Big Data Agile est illustr�e dans la figure suivante.

Figure 11 Conception globale de l'architecture du big data agile pour le trafic

1) Couche d'acquisition de donn�es�: Elle s'appuie sur trois niveaux de technologies de collecte. Le premier est la collecte et l'int�gration des bases de donn�es des syst�mes d'entreprise traditionnels et des donn�es semi-structur�es et structur�es. Par exemple, la technologie Sqoop est utilis�e pour extraire et �changer des donn�es entre les bases de donn�es relationnelles et les syst�mes Hadoop�; le second est le transport. La collecte de donn�es de diffusion en temps r�el comprend des donn�es de capteur en temps r�el, des donn�es de trajectoire de positionnement et d'autres donn�es de diffusion en temps r�el�; la troisi�me est la collecte de donn�es de transport public, y compris l'exploration de donn�es du r�seau public, les interfaces de donn�es de plates-formes ouvertes et �change de donn�es des bases de donn�es publiques de l'industrie. Les donn�es collect�es doivent �tre extraites, transform�es et charg�es (extraction-transformation-chargement, ETL), y compris l'extraction de donn�es, la transformation, le nettoyage et la d�sensibilisation de la confidentialit� et d'autres travaux de pr�traitement, et les donn�es pr�trait�es et int�gr�es entrent dans le stockage en nuage de donn�es volumineuses. centre.

2) Couche de stockage des donn�es�: L'�chelle des donn�es dans le domaine des transports est �norme et la couche de stockage des donn�es doit concevoir un syst�me de stockage en nuage distribu� bas� sur l'informatique en nuage pour prendre en charge l'expansion du stockage de donn�es massives. Fournir des capacit�s de stockage en colonnes bas�es sur le cloud, de stockage NoSQL ou de stockage d'entrep�t de donn�es�; selon les besoins de l'entreprise et une configuration rapide, le mode de stockage distribu� correspondant peut �tre commut�, et l'entrep�t de donn�es et le magasin de donn�es des syst�mes de BI traditionnels peuvent �tre int�gr�s selon les besoins. Le cluster Hadoop est utilis� pour fournir une extension de la capacit� de stockage au niveau PB, et les cadres de gestion des ressources du cluster tels que Hadoop YARN et Spark Mesos peuvent prendre en charge une vari�t� de modes de stockage et de modes de calcul (g�rent principalement les ressources de stockage et de calcul, comme le montrent les deux- fl�ches directionnelles dans la figure. ) pour la planification des ressources cloud. Sur cette base, une fusion d'informations multi-granularit� est effectu�e sur divers types de donn�es stock�es, une unit� de traitement de donn�es unifi�e est construite et un ensemble de donn�es d'analyse standardis� est fourni pour la couche de service informatique.

3) Couche de calcul des donn�es�: Compte tenu des caract�ristiques des m�gadonn�es multisources, h�t�rog�nes et � trafic massif, les mod�les informatiques traditionnels sont difficiles � traiter directement. La couche de calcul des donn�es doit r�pondre � la r�alisation de divers mod�les et m�thodes informatiques des cadres de traitement de donn�es volumineuses traditionnels, tels que le cadre parall�le de cloud computing, pour r�aliser une exploration de donn�es et un apprentissage automatique efficaces bas�s sur le traitement par lots Hadoop, le traitement de flux Storm et la m�moire Spark. En traitement. La couche de calcul des donn�es adopte un cadre d'analyse de donn�es volumineuses bas� sur des unit�s de traitement de donn�es et des mod�les informatiques unifi�s, ainsi que sur des microservices de mod�les. mod�les et m�thodes (tels que la classification, le clustering, la s�quence, etc.) sous divers modes de calcul tels que MapReduce, Storm et Spark�; Sur la base des exigences d'analyse des donn�es et des caract�ristiques des donn�es, une commutation rapide et une gestion flexible de divers services peuvent �tre effectu�es sur la base de technologie de configuration des composants et de gouvernance des services.

4) Couche d'application des donn�es�: La couche d'application de donn�es doit d'abord r�pondre aux diverses exigences d'analyse de donn�es volumineuses du transport intelligent, y compris la visualisation et la requ�te de base, l'affichage, l'exploration, etc. Les r�sultats de l'analyse peuvent �tre combin�s avec la base de connaissances pour l'aide � la d�cision. De plus, en termes de gestion du syst�me Big Data lui-m�me, pour la conception de composants et de microservices, il est n�cessaire de concevoir des middlewares associ�s pour r�aliser des fonctions telles que la gouvernance des services, la configuration des composants, la s�curit� et l'interface, afin de prendre en charge le stockage. couche et couche informatique de divers microservices.Gestion agile.

Outre le niveau UDU de fusion de donn�es, le contenu cl� de l'architecture agile de m�gadonn�es est la conception de micro-services de divers cadres de mode de calcul et mod�les de calcul, y compris les cadres de calcul, les micro-services de mod�les et d'algorithmes, les donn�es Obtenez les microservices de l'appel et les microservices du processus d'analyse. Son cur est constitu� de microservices informatiques, tels que les services de traitement par lots MapReduce, les services de traitement de flux Storm et les services de traitement de la m�moire Spark. SAV), etc... �tant donn� que la technologie d�taill�e des microservices implique un large �ventail, y compris l'enregistrement, le positionnement, la d�couverte et la recherche de microservices (bas�s sur l'algorithme de consensus distribu� Paxos et le cadre Zookeeper, etc.), les m�canismes de communication l�gers des microservices tels que REST (Representational State Transfer ), RPC (Remote Procedure Call Protocol), IPC (Inter-Process Communication), etc., traitement tol�rant aux pannes des microservices (fusion, limitation de courant, �quilibrage de charge, etc.), conteneurisation des microservices, test et d�ploiement de services. Pour des raisons d'espace, les d�tails techniques de divers aspects ne seront pas r�p�t�s ici, et vous pouvez vous r�f�rer aux donn�es professionnelles pour la compr�hension. Sur la base de l'architecture agile Big Data et de l'unit� de donn�es unifi�es de fusion de donn�es, la conception de microservices de la couche d'analyse Big Data est effectu�e, comme illustr� dans la figure suivante.

Figure 12 Conception de microservices d'analyse de donn�es volumineuses orient�es trafic

Le concept de base des microservices pour l'analyse de donn�es volumineuses est qu'un service se concentre uniquement sur un type ou une analyse, la granularit� du service et la taille et les limites de la fonction d'analyse doivent correspondre, le c�t� service (microservices informatiques) et le c�t� consommateur (fonction d'analyse bas�e sur les microservices)) doit �tre d�coupl�e, c'est-�-dire que l'ajustement ou la mise � niveau d'un microservice ne peut pas affecter les autres microservices. Le contenu principal de la conception de microservices d'analyse de donn�es volumineuses comprend les aspects suivants.

1) Division de l'abstraction commerciale et des microservices d'analyse de donn�es volumineuses�: Selon le cadre de calcul multimode, il existe le cadre de traitement par lots MapReduce, le cadre de traitement de flux Storm, le cadre de traitement de la m�moire Spark, le cadre de calcul graphique, etc.; selon le mod�le d'exploration de donn�es, il existe la classification, le clustering, la s�quence, le multimodal, le multit�che , etc. Type de mod�le de calcul. Selon diverses exigences d'analyse et caract�ristiques de traitement des donn�es du trafic Big Data, effectuez une analyse commerciale Big Data et une mod�lisation abstraite, et s�lectionnez les mod�les informatiques et les cadres informatiques correspondants pour le support, puis d�cidez quels microservices sont n�cessaires et r�alisez la division et la combinaison de microservices. , d�finir l'objectif de conception global du r�seau de microservices et passer des appels via l'interface de microservices unifi�e (Microservices API Gateway).

2) Conception du cluster de microservices et d�finition de l'interface contractuelle�: Selon les caract�ristiques du traitement des m�gadonn�es, les microservices de la couche de service sont divis�s en trois cat�gories pour la planification et la conception.Le cluster de microservices de donn�es est responsable de l'acquisition de donn�es, de la synchronisation des donn�es et des op�rations de mise � jour � partir de l'ensemble de donn�es standard UDU�; le microservice de calcul le cluster est le traitement agile des donn�es volumineuses. Au cur, la conception globale des services d'exploration et d'analyse est r�alis�e selon les deux dimensions du cadre de calcul multimode et du mod�le de calcul multi-type�; le cluster de microservices de processus est responsable du traitement collaboratif de microservices de donn�es et de microservices informatiques, et prend en charge la gestion de la configuration et la planification des composants du syst�me. . Divers microservices interagissent et communiquent avec des services de messagerie tels que MessageBroker via des m�canismes de communication l�gers tels que REST et RPC, cr�ent un r�seau de clusters de microservices et effectuent une gestion et une planification unifi�es via le routage des services.

3) Gouvernance des microservices et d�ploiement des conteneurs�: La coordination efficace d'un r�seau de microservices connect�s par divers clusters de microservices est indissociable de la technologie de gouvernance des microservices et de la technologie de gestion des conteneurs. Gr�ce au routage et � la gouvernance des services, il est responsable de l'enregistrement, de la recherche, de la d�couverte, de la communication et de la configuration unifi�e de divers microservices petits et grands, et enfin du d�ploiement automatique et de la gestion dynamique des microservices bas�s sur le cloud computing et la technologie des conteneurs.

Examen des applications Agile Big Data

L'architecture agile de donn�es volumineuses propos�e dans cet article r�alise le service, la normalisation et la transformation du traitement de fusion de donn�es volumineuses et de l'informatique mini�re dans une certaine mesure. Sur la base de l'id�e de conception d'une unit� de donn�es unifi�e et d'un micro-service de calcul et de processus, la construction et la gestion d'un micro-service peuvent �tre rapidement r�alis�es.Gr�ce � la division, la combinaison, l'arrangement et la configuration dynamique de divers micro-services, modulaires, configurable et r�utilisable peut �tre construit. , Syst�me d'analyse de donn�es volumineuses agile et �volutif. Par rapport � l'architecture traditionnelle de traitement des m�gadonn�es, l'architecture agile des m�gadonn�es pr�sente des avantages �vidents dans les aspects suivants (voir tableau 1).

Tableau 1 Analyse comparative de l'architecture Big Data agile et de l'architecture Big Data traditionnelle

� partir de l'analyse comparative des caract�ristiques ci-dessus, on peut voir qu'en plus de soutenir la croissance des donn�es � grande �chelle, l'architecture agile des m�gadonn�es est plus importante pour s'adapter � l'expansion et aux changements des activit�s d'analyse des m�gadonn�es. il a une tol�rance �lev�e aux pannes.Il peut prendre en charge le traitement des pannes et la r�cup�ration automatique de l'analyse de donn�es volumineuses, peut compl�ter rapidement divers mod�les informatiques et le traitement d'analyse dans des conditions de donn�es massives, et peut prendre en charge l'informatique multimodale bas�e sur des unit�s de fusion de donn�es et la technologie de service informatique. -le traitement des t�ches informatiques en mode, peut am�liorer l'efficacit� de l'analyse des donn�es volumineuses dans des conditions de co�t limit�.

Bien s�r, pour parvenir � une architecture Big Data agile et efficace, diff�rentes exigences m�tier ou diff�rents itin�raires techniques peuvent conduire � des travaux diff�rents, c'est pourquoi le titre de cet article est d�fini comme m�thodologie. Tous les chemins m�nent � Rome, la technologie n'est qu'un outil, la cl� est la m�thodologie et l'id�ologie directrice. De plus, en termes de conception d�taill�e et de mise en uvre de l'architecture, il reste encore plusieurs difficult�s � surmonter, car il existe de nombreux frameworks de calcul de donn�es volumineuses, de nombreux mod�les d'analyse pris en charge par chaque framework et davantage de biblioth�ques de visualisation. Le cadre technique et le langage de d�veloppement de ces cadres informatiques, les normes de d�finition d'interface peuvent �tre diff�rents, comment normaliser et traiter l'int�gration rapide des ensembles d'outils ci-dessus gr�ce � la construction, aux plug-ins et � d'autres technologies dans l'architecture agile de donn�es volumineuses est le principal probl�me � r�soudre. �tre r�solu par une mise en uvre agile.

Combin�es � la plate-forme compl�te de services cloud d'analyse de donn�es volumineuses sur les transports en cours de planification et de construction, nous prenons la m�thodologie agile de donn�es volumineuses et la conception d'architecture propos�es dans cet article comme id�ologie directrice pour la s�lection de technologies cl�s et la r�alisation d'itin�raires techniques, et faisons une application pr�liminaire. . L'objectif principal de la plate-forme compl�te de services cloud d'analyse des m�gadonn�es de transport est de r�soudre les probl�mes de correspondance intelligente de l'offre et de la demande de ressources de transport et d'analyse de pr�diction des goulots d'�tranglement gr�ce � la technologie des m�gadonn�es. Appliquer la fusion d'informations multi-granularit� et la technologie de micro-services informatiques multimodaux pour int�grer, int�grer et exploiter les donn�es volumineuses sur le trafic�; utiliser l'apprentissage automatique combin� � l'analyse quantitative et � l'analyse qualitative pour pr�dire la configuration de l'offre et de la demande, recommander des d�placements intelligents et analyser le hub de transport Goulots d'�tranglement Fournissez une analyse des donn�es volumineuses et une aide � la d�cision pour les aspects cl�s du transport intelligent, tels que la connexion et le transfert multimodes et le contr�le du trafic en temps r�el. En raison des caract�ristiques d'h�t�rog�n�it� multi-sources, de corr�lation spatio-temporelle et de traitement dynamique des m�gadonn�es de transport compl�tes, l'architecture traditionnelle des m�gadonn�es est confront�e � de nombreux probl�mes d'�volutivit�, de compatibilit� et de stabilit�. Sur la base de la m�thodologie agile des m�gadonn�es, une architecture agile des m�gadonn�es avec les caract�ristiques de la composantisation, du service cloud et de la conteneurisation pour le transport intelligent est con�ue, qui fournit des r�f�rences pratiques et des conseils d'application pour la recherche et le d�veloppement d'une plate-forme compl�te de services cloud d'analyse des m�gadonn�es de transport Dans une certaine mesure, l'efficacit� du d�veloppement est am�lior�e et le risque technique est ma�tris�.

R�sum� et perspectives

Les principaux goulots d'�tranglement et d�fis rencontr�s dans la mise en uvre des applications Big Data sont discut�s. Visant les caract�ristiques du big data et son goulot d'�tranglement d'analyse, cet article analyse la diff�rence entre l'architecture traditionnelle des technologies de l'information et l'architecture du syst�me de big data.Bas�e sur des id�es de conception agiles, all�g�es et it�ratives, la m�thodologie agile du big data est propos�e pour la premi�re fois, et sa d�finition de concept, les �l�ments de base, l'optimisation des processus et les technologies cl�s sont discut�s.En analysant les raisons de conception du Big Data agile, bas� sur l'am�lioration du processus d'exploration de donn�es traditionnel, un processus de traitement du Big Data agile orient� microservice est con�u, et son les principales technologies de support sont pr�alablement �tudi�es et explor�es. Une architecture agile de m�gadonn�es bas�e sur des microservices et une technologie de fusion d'informations multi-granularit� est construite, et des liens techniques cl�s tels que le microservice de m�gadonn�es de transport et la fusion de m�gadonn�es de transport sont con�us et discut�s en d�tail combin�s � des cas r�els.

La proposition de big data agile est bas�e sur la nature it�rative de la science des donn�es et fournit de nouvelles m�thodes, de nouvelles id�es et une nouvelle architecture technique pour la construction de syst�mes de big data efficaces et flexibles, l'apprentissage automatique et la d�couverte de connaissances dans l'environnement d'application du big data. dans diverses industries. La valeur applicative du big data est mise en jeu par une conception agile pour minimiser les co�ts et ma�triser les risques. Par rapport aux m�thodes traditionnelles de traitement du big data et aux architectures techniques, l'importance et la valeur de r�f�rence de cette m�thodologie vont de soi. Bien s�r, en tant que nouveau probl�me de recherche d'applications interdomaines couvrant une vari�t� de technologies de l'information de pointe, le Big Data agile n�cessite encore une exploration approfondie et une pratique d'application en termes de m�thodes de conception, de technologies cl�s et d'architecture syst�me.

Attention au compte public WeChat : �change de programmeurs et plateforme interactive ! Obtenez le mat�riel pour apprendre!

Route de la soie

Apprenez � conna�tre la Chine

Pourquoi les applications Big Data ont-elles besoin d'agilit� ? M�thodologie Agile Big Data