Apache faisceau pass� et pr�sent: Google ne plus utiliser le MapReduce

Auteur | compiler une seule �tape

Modifier | Tina

10 janvier Apache Software Foundation a annonc�, Apache faisceau �clos avec succ�s et devenir un nouveau projet de niveau haut de la Fondation. Google open source moment du faisceau, lorsque l'introduction d'une vari�t� de grandes quantit�s de donn�es moteur de traitement florissant un cadre de programmation unifi�, unifi�e traitement par lots et le traitement des flux, correspondent � une vari�t� de moteurs de traitement, les pousser dans l'arri�re-plan, pour occuper l'entr�e. projet Apache faisceau profitera � toutes les parties concern�es, de mettre l'accent sur l'innovation technologique, de fournir une meilleure performance, une meilleure fiabilit�, une utilisation plus facile et la gestion de la maintenance.

EDITORIAL

� Et Dieu dit: Que la lumi�re soit et la lumi�re fut. � - "Bible"

10 janvier Apache Software Foundation a annonc�, Apache faisceau �clos avec succ�s et devenir un nouveau projet de niveau haut de la Fondation, bas�e sur Apache V2 licence open source.

En 2003, Google a publi� un gros volumes de donn�es bien connu trois documents, connu sous le nom de la Tro�ka: Google FS, MapReduce, BigTable. Bien que Google n'a pas r�v�l� la source de ces trois produits, mais elle a d�taill� la th�se de la conception trois produits ouvre le monde de la grande �poque de donn�es! tout cela gr�ce � tous, Doug Cutting r�alis� du grand Dieu, selon le document de Google un prototype de Hadoop MapReduce +, Hadoop divers cercles �cologiques d�riv�s en plein essor, puis Spark plus tard, les calculs de flux, etc., � partir trois documents.

Malheureusement, Google Bien que cela ouvre de grands moments, mais toujours juste �tre satisfait avec un ou deux articles publi�s � l'occasion afin de souligner son leadership dans la th�orie et l'ing�nierie, ont jamais personnellement impliqu�, en particulier, n'a pas fait aucune contribution � l'�cosyst�me open source, ainsi que des avantages tangibles n'a pas �t� obtenu � partir du grand march� des donn�es.

L'am�re exp�rience, Google a commenc� � marcher sur la route de l'open source, fera la promotion de leurs propres normes � la communaut�. De la bien connue Kubernetes, � F�vrier 2016 Google a annonc� une contribution de grande envergure Apache faisceau (anciennement connu sous le nom de Google DataFlow) � la Fondation Apache pour l'incubation, la r�cente tensorflow chaud et ainsi de suite, l'action continue. Apache faisceau est consid�r� apr�s MapReduce, GFS et BigQuery, etc., la communaut� open source de Google a une contribution tr�s importante dans le domaine de la grande traitement des donn�es.

En d'autres termes, dans un monde de traitement de donn�es, Google a �t� source ferm�e d�velopp�e en interne et utilis� avec BigTable, Spanner, Millwheel et ainsi de suite pour que nous avons entendu voir encore beaucoup aucune chance d'un produit, le monde open source a �volu� � partir de Hadoop, Spark , Apache Flink et d'autres produits, et maintenant ils convergent enfin, se rejoignent.

Pourquoi le lancement de l'open source Apache faisceau?

La principale personne en charge d'Apache faisceau de Tyler Akidau mentionn� qu'ils le font dans son id�e de blog est:

Pour contribuer � ce monde un mod�le facile � utiliser et puissant pour le traitement parall�le des donn�es volumineuses applique � la fois le streaming et le traitement par lots, mais aussi sur une vari�t� de plates-formes diff�rentes peuvent �tre transplant�.

Cette fois-ci, pourquoi est-ce pas cool publi� un autre papier, puis battu en retraite en observant tranquillement du c�t� de celui-ci? Pourquoi un des partenaires communs publics que nous fournissons le code direct peut manquer? Il y a deux raisons principales:

Bien que dans le pass� Google a �t� la source ferm�e, mais dans le processus de service � la client�le de cloud, Google a reconnu la grande valeur des logiciels open source, par exemple bas� sur Google trois documents �tablis communaut� Hadoop est un tr�s bon exemple. Changement dans la pens�e de la naissance d'Apache faisceau est rendu possible;
Faisceau sur ce projet, l'une des conditions n�cessaires � la r�ussite, il doit y avoir open source Runner fournir un soutien ad�quat pour le mod�le du faisceau, de sorte qu'il deviendra un nuage construit soi-m�me et sur la sc�ne nuage non-Google tr�s concurrentiel force alternative. L'ann�e derni�re, Apache Flink a adopt� des mod�les de poutre dans leur syst�me, cette condition a �t� satisfaite;

Aucune prestation ne peut pas se permettre t�t, Google fait cela a un motif commercial direct, esp�re avoir autant de pipeline de traitement de donn�es Apache faisceau peut fonctionner sur le Cloud Dataflow de Google, ne pas oublier c'est un prototype d'Apache Beam. De plus, l'utilisation de l'approche open source pour le guider, il y a aussi de nombreux avantages directs:

Le plus grand soutien coureur Apache Beam, son attrait en tant que plate-forme pour la plus grande;
Plus les utilisateurs utilisent Apache Beam, les utilisateurs veulent lancer Apache faisceau dans la plate-forme cloud Google plus;
processus de d�veloppement Apache Beam pour attirer plus de partenaires, plus favorable que la promotion d'un tel mod�le de traitement des donn�es;

De plus, les avantages ne seront pas tous attribu�s � Google, le projet Apache faisceau profitera � toutes les parties concern�es. S'il y a une telle couche d'abstraction lors de la construction pipeline de traitement de donn�es portable, il sera plus enclin � nouveau Runner, ils peuvent se concentrer sur l'innovation technologique, de fournir une meilleure performance, une meilleure fiabilit�, le transport plus pratique gestion de la maintenance et ainsi de suite. En d'autres termes, ce qui �limine l'API de verrouillage, il a �t� lib�r� moteur de traitement, conduira � une plus grande concurrence entre les produits, et en fin de compte jouer un r�le positif dans la promotion de l'industrie.

Google croit est l'avenir du traitement par lots Apache Beam et donn�es processus continu. Cela va cr�er une vari�t� de Runner un �cosyst�me sain, les laisser en concurrence les uns avec les autres, et permet enfin aux utilisateurs d'obtenir des avantages r�els.

Qu'est-ce que Apache faisceau qui?

Dites Apache Beam, premier � parler de Google Cloud Dataflow. Dataflow est un natif de services de traitement de donn�es cloud Google, est un b�timent, la gestion et l'optimisation des pipelines de donn�es complexes pour la construction d'applications mobiles, le d�bogage, le suivi et le contr�le des applications cloud de classe de produits. Il utilise une technique Flume et MillWhell dans Google, o� Flume pour parall�le efficace de traitement des donn�es, et est utilis� MillWhell le streaming Internet avec un bon niveau de tol�rance aux pannes. Cette technique fournit un mod�le de programmation simple, il peut �tre utilis� pour des t�ches de traitement par lots et des flux de donn�es. Elle fournit des services de gestion de flux de donn�es peuvent �tre contr�l�es pour effectuer des op�rations de traitement des donn�es, le traitement des travaux donn�es peuvent �tre cr��s � l'aide du SDK DataFlow.

Apache faisceau lui-m�me n'est pas une plate-forme de streaming, mais un cadre de programmation unifi�, qui fournit le mod�le de programmation ouverte et unifi�e pour vous aider � cr�er votre propre pipeline de traitement des donn�es, la mise en uvre peuvent fonctionner sur un moteur d'ex�cution par lots et diffuser les t�ches de traitement. Toutes les questions de faisceau sc�narios de calcul convection Refaire un r�sum� et pr�sent� plusieurs mod�les diff�rents pour r�soudre ces probl�mes, puis mis par ces mod�les pour obtenir une langue uniforme, et, finalement, ces programmes peuvent fonctionner sur faisceau sur une plate-forme informatique (tant que la plate-forme appropri�e - � savoir Runner obtenir de l'appui du faisceau). Ses caract�ristiques sont les suivantes:

Unified: pour le traitement par lots et en continu, � l'aide d'un mod�le unique de programmation;
Portable: il peut prendre en charge des environnements d'ex�cution multiples, y compris Apache Apex, Apache Flink, Spark Apache et Google Cloud Dataflow et ainsi de suite;
�volutif: il peut �tre r�alis� et partager plus nouveau SDK, IO Connector, op�ration de conversion biblioth�ques;

Faisceau particuli�rement appropri� pour des t�ches de traitement de donn�es parall�les, aussi longtemps que le jeu de donn�es � traiter dans un certain nombre de distinct, mais un petit ensemble de traitement en parall�le sur elle. Faisceau peut �galement �tre utilis� pour des t�ches ETL, ou l'int�gration de donn�es simple. La principale t�che consiste � d�placer des donn�es entre les diff�rents supports de stockage ou de stockage de donn�es, convertit les donn�es en un format d�sir�, ou importer des donn�es dans un nouveau syst�me.

Faisceau comprend principalement deux �l�ments cl�s:

SDK faisceau

Faisceau SDK fournit une interface de programmation unifi�e pour les d�veloppeurs � l'application sup�rieure, les d�veloppeurs ne ont pas besoin de savoir quelle interface sp�cifique plateforme Big Data de d�veloppement sous-jacente est directement via l'interface SDK Beam, vous pouvez d�velopper le flux de traitement de traitement des donn�es, quelle que soit l'ensemble de donn�es d'entr�e est limit� � batch ou en continu infini jeu de donn�es. Pour les donn�es d'entr�e finis ou infinis, classe faisceau SDK pour utiliser les m�mes performances et la m�me op�ration de conversion pour le traitement. Faisceau SDK peut �tre r�alis� dans diff�rents langages de programmation, propose d�sormais une compl�te Java, SDK python est encore en d�veloppement, nous pensons qu'il y aura plus de langues diff�rentes seront publi�es hors du SDK.

Faisceau Pipeline Runner

Faisceau de tuyau utilisateur coureur mod�le d�fini au point par faisceau traduit dans le d�roulement du processus sous-jacent de la plate-forme de traitement de donn�es distribu� pour supporter l'environnement au moment de l'ex�cution. Lorsque vous ex�cutez le programme Beam, vous devez sp�cifier le type correct du sous-jacent Runner. Big Data pour diff�rentes plates-formes ont diff�rentes Runner. � l'heure actuelle Flink, Spark, Apex et Cloud DataFlow Google a soutenu Runner BEAM.

Il convient de noter que, bien que la communaut� Apache faisceau esp�re bien que tous moteur d'ex�cution faisceau peut supporter des travaux complets de faisceau SDK d�fini, mais dans une mise en uvre effective peut pas n�cessairement. Par exemple, MapReduce est clairement difficile � r�aliser le traitement des flux en fonction Runner et propri�t�s fonctionnelles connexes. En l'�tat actuel, il est pr�f�rable de soutenir cloud Dataflow fonctionne sur la plate-forme cloud de Google pour le mod�le de faisceau, et peut �tre utilis� seul ou d�ploy� sur un nuage non Google Apache Flink. Bien s�r, d'autres Runner est �galement en train de rattraper, l'industrie se d�veloppe �galement vers le soutien mod�le Beam.

Que ce que nous pouvons faire avec contact intime faisceau-il?

Comme indiqu� plus haut, il y a trois aspects principaux:

Traitement des donn�es: en utilisant l'existant directement leur propre SDK langage familier, pour d�finir et mettre en uvre leurs propres proc�dures de traitement des donn�es conform�ment au mod�le du faisceau;
SDK pour atteindre: un nouveau langage de programmation pour mettre en uvre le concept selon faisceau SDK, de sorte que plus tard, nous pouvons avoir plus de choix en termes de langage de programmation;
Runner rechercher: la plate-forme de traitement des donn�es existantes distribu�s en tant que nouveau coureur, l'acc�s mod�le Beam.

Beam est comment faire?

Avant de commencer toute conception, vous devez d'abord d�terminer le probl�me, faisceau ne fait pas exception.

1. donn�es

Type de traitement de donn�es distribu�es de donn�es � traiter peuvent g�n�ralement �tre divis�s en deux cat�gories, et un ensemble de donn�es limit� flux de donn�es illimit�. ensemble limit� de donn�es, comme un fichier HDFS, HBase une table et ainsi de suite, et il est d�j� en avance sur les donn�es, le g�n�ral a �galement �t� persistante et ne dispara�tra pas tout d'un coup, ne changera pas. Les flux de donn�es illimit�es, comme kafka flux sur le flux de journal du syst�me ou d'obtenir � partir du flux API Twitter, et ainsi de suite, les caract�ristiques de ce type de donn�es est que les flux de donn�es en dynamique, sans fin, pas toute la pers�v�rance.

En g�n�ral, le cadre est con�u pour le jeu de donn�es traitement par lots limit�, cadre de traitement de flux con�u pour le traitement d'un flux de donn�es illimit�. ensemble limit� de donn�es peut �tre consid�r�e comme un cas particulier de flux de donn�es infini, les donn�es de traitement du point de vue logique, les deux pas diff�rents.

2. Temps

Temps processus se r�f�re au traitement distribu� de donn�es dans le laps de temps de l'�v�nement de temps est le moment o� les donn�es r�sultantes. Ces deux sont g�n�ralement diff�rentes, par exemple, flux des t�ches informatiques pour un traitement de donn�es micro-Bo, un 2016-06-01-12: 00:00 publi� par des retards de transmission du r�seau de micro-blogging peut en 01/06/2016 -12: 01:30 flux avant d'entrer dans le syst�me de traitement. Les travaux par lots sont g�n�ralement plein montant du calcul des donn�es, moins pr�occup� par les donn�es d'attribut de temps, mais pour la t�che de traitement de flux, car le flux de donn�es est implacable sans fin, impossible de calculer le montant, est g�n�ralement une fen�tre de donn�es a �t� r�alis�e le calcul, pour la plupart des t�ches de traitement courant, conform�ment � la division de la fen�tre de temps, est probablement la plus commune exigence.

3. lecture al�atoire

Le flux flux de processus de traitement de trames de donn�es, l'ordre d'arriv�e de ses donn�es ne peut pas �tre dans un ordre strict de temps Event-Time. Si la fen�tre de temps est d�finie en fonction du temps de processus, les donn�es de s�quence d'arriv�e est donn�es s�quentielles, et donc il n'y a pas de trouble de probl�me. Mais pour l'heure de l'�v�nement bas� fen�tre temporelle d�finition, il peut y avoir le cas avant dans le message apr�s un message apr�s votre arriv�e � l'heure, qui peut �tre tr�s courant dans les sources de donn�es distribu�es. Dans ce cas, comment d�terminer les donn�es en retard, le traitement des donn�es et comment est en retard souvent question tr�s difficile.

mod�le de donn�es objet de traitement faisceau est un temps illimit� flux de donn�es brouill�es, ou l'ordre temporel n'est pas consid�r� ensemble limit� de donn�es peut �tre consid�r�e comme un cas particulier d'un flux infini de donn�es brouill�es.

Ci-dessus, dans lequel la ligne en pointill�s est la meilleure, il repr�sente le temps de traitement et le temps d'�v�nement sont les m�mes, est en fait une ligne rouge, �galement appel� la ligne d'eau (Filigrane), il est g�n�ralement calcul� par un algorithme heuristique.

Suivant abstraites quatre questions sp�cifiques de la question:

A: Qu'est-ce que vous l'informatique, le traitement des donn�es est ce type de conversion de donn�es, la polym�risation ou les deux. Par exemple, Somme, ou Rejoindre mod�le de formation d'apprentissage apprentissage machine et ainsi de suite. Pipeline sp�cifi�e par l'op�rateur dans le SDK Beam. Figure:

B: O� dans le temps de l'�v�nement, le calcul des donn�es dans quelle gamme? Par exemple, sur la base d'une fen�tre temporelle du processus temps? Sur la base de la fen�tre Event-Time du temps? Fen�tre coulissante, et ainsi de suite. Pipeline est sp�cifi� par une fen�tre dans le kit de d�veloppement de faisceau:

C: Lorsque le temps de traitement, lorsque la sortie calcul�e? Ici, la mise en place d'un m�canisme de d�clenchement, Trigger a d�cid� lors de lancer des calculs, l'�mission trop t�t une partie des donn�es est perdue, la perte de pr�cision, ce qui f�te de lancement retard� trop longtemps, et th�sauriser de grandes quantit�s de donn�es, lorsque le niveau d'eau par Trigger ligne d�termin�e, d�sign�e par le pipeline au niveau de l'eau et de la bascule dans le SDK Beam.

D: Comment les am�liorations concernent, comment la fin du traitement des donn�es? Par exemple, le calcul des donn�es d'incr�ment de sortie en retard, ou les donn�es tardives les donn�es de r�sultat de calcul est calcul� et les r�sultats de sortie combin�s sak� fen�tre. L'accumulation dans les faisceaux SDK sp�cifi� par le.

Lorsque le mod�le de faisceau � WWWH � quatre dimensions abstraire forment le SDK Beam, aux utilisateurs de cr�er des donn�es de traitement logique m�tier � base de faisceau SDK, chaque �tape il suffit d'appeler ces quatre dimensions selon les besoins d'affaires sp�cifiques pour g�n�rer API de donn�es distribu�es pipeline de traitement, et de soumettre les moteurs d'ex�cution sp�cifiques. � WWWH � abstrait seul centre d'int�r�t � quatre dimensions sur la logique m�tier lui-m�me, et comment effectuer une t�che distribu�e n'a rien � voir.

Amis de vues

Avec le d�veloppement continu de traitement de donn�es distribu�es, le traitement des donn�es distribu�es nouvelles technologies est constamment �lev�, l'industrie a �merg� un nombre croissant de traitement de donn�es distribu�es cadre, d�s le plus jeune Hadoop MapReduce, la Spark Apache, Apache Storm, et plus r�cemment Apache Flink, Apache Apex et ainsi de suite. Le nouveau cadre de traitement distribu� peut apporter des performances plus �lev�es, plus puissant, faible latence, etc., mais l'utilisateur passe au co�t du nouveau cadre de traitement distribu� est �galement tr�s importante: la n�cessit� d'apprendre un nouveau cadre de traitement de donn�es et r��crire toute la logique m�tier.

Des id�es pour r�soudre ce probl�me consiste en deux parties, tout d'abord, vous avez besoin d'un paradigme de programmation, capable d'unifier et de normaliser les besoins de traitement de donn�es distribu�es, par exemple, a besoin d'un traitement par lots unifi� et le traitement courant. En second lieu, afin de g�n�rer une t�che de traitement de donn�es distribu�es doivent �tre en mesure d'effectuer sur le moteur d'ex�cution distribu�e respective, l'utilisateur peut effectuer librement de moteur de commutation et de l'environnement d'ex�cution d'une t�che de traitement de donn�es distribu�es. Apache faisceau pr�cis�ment pour r�soudre les probl�mes ci-dessus soulev�e.

Comme les principaux promoteurs du projet Apache faisceau Tyler Akidau a d�clar�:

� Pour Apache faisceau termin� avec succ�s la migration, nous devons avoir au moins un nuage construit soi-m�me dans le d�ploiement de cloud non Google, il peut avoir assez concurrentiel Runner par rapport � Google Cloud Dataflow. Comme le montre la matrice de la capacit� du faisceau, se rencontrent Flink nos besoins. Avec Flink, poutre est devenu une plate-forme v�ritablement comp�titive dans l'industrie ".

� cet �gard, Kostas Tzoumas Artisan donn�es dans son blog, a d�clar�:

Lorsque � Google leur SDK Dataflow et Runner a fait don � l'incubateur Apache pour devenir projet Apache Beam, Google esp�re que nous pouvons aider � remplir Flink Runner, et de devenir un nouveau committers de code de projet et les membres PMC, nous avons d�cid� de soutenir pleinement, parce que nous croyons que: 1, pour le traitement des flux et le lot mod�le de faisceau pour toute l'architecture de r�f�rence future; 2, Flink il est une plate-forme pour un tel traitement de donn�es est ex�cut�e apr�s la formation du faisceau, maintenant Flink est devenu en dehors de la course nuage programme Google Beam. la meilleure plate-forme. nous croyons mod�le de faisceau pour le mod�le de programmation de traitement de flux de donn�es et le traitement par lots des meilleurs. nous encourageons les utilisateurs � adopter ce mod�le pour mettre en uvre de nouvelles proc�dures fera avec l'API ou API faisceau Flink DataStream ".

Le cadre actuel de traitement des donn�es de flux de courant Flink, Spark, Apex et Cloud DataFlow Google ainsi avec le soutien du Runner Beam.

�crit dans la derni�re

� Dans la soci�t� Google a personne n'utilise le MapReduce �! La principale personne en charge de Google dit nuage Mete Atamel. Google croit est l'avenir de l'Apache Beam et le traitement des flux de donn�es par lots. mod�le Apache faisceau pour les donn�es illimit�es de traitement des flux de donn�es sont brouill�es abstraction tr�s �l�gant, � WWWH � quatre dimensions description du traitement des donn�es est tr�s claire et raisonnable, le mod�le unifi� faisceau de flux de donn�es illimit� et un ensemble limit� de donn�es mode de traitement, mais aussi effacer le paradigme de programmation pour la manipulation des donn�es flux de donn�es illimit�, l'�largissement du champ d'application du syst�me de traitement des flux d'affaires peut �tre appliqu�. Avec le succ�s d'Apache hachure Beam, comme de plus en plus les langages de programmation disponibles, des donn�es de plus en plus distribu�s plate-forme de traitement pour soutenir le mod�le Beam, nous pouvons r�ellement profiter Imaginez un avenir meilleur.

Aujourd'hui, nombre recommand�

Big Data pour les sujets

Nous nous concentrons sur les donn�es et l'apprentissage grande machine, publier des articles de haute qualit�, des cas techniques et d'autres originaux chaque jour un flux r�gulier de marchandises s�ches. Plus classe de micro communautaire, en esp�rant que vous serez ici pour partager la technologie de pointe, des �changes de pens�e profonde.

WeChat ID: BigdataTina2016

texte recommand� aujourd'hui

Cliquez ci-dessous pour lire l'image

Baidu traitement des billions syst�me des donn�es en temps r�el de poids moyen de la troisi�me g�n�ration d'araign�e derri�re

Route de la soie

Apprenez � conna�tre la Chine

Apache faisceau pass� et pr�sent: Google ne plus utiliser le MapReduce