Source: Donn�es Kunlun K2Data

Qu'est-ce que le stockage d'objets

stockage d'objets se r�f�re g�n�ralement aux services de stockage aux donn�es � Object � (objet) sous la forme d'organisation. R�f�rences sur Wikip�dia d�finitions donn�es ci-dessous:

stockage d'objets (�galement connu sous le nom de stockage � base d'objets ) est une architecture de stockage de donn�es informatiques qui g�re les donn�es sous forme d'objets, par opposition � d'autres architectures de stockage tels que les syst�mes de fichiers qui g�rent les donn�es comme une hi�rarchie de fichiers et le stockage de blocs qui g�re donn�es blocs dans les secteurs et les pistes

En fait, il peut �tre vu de cette description, le sujet ne convient pas pour stocker la d�finition du mode actif, mais par comparaison avec un autre type de stockage typique, projetant ses propres caract�ristiques. unit�s de stockage d'objets appel�s objets, fermez le fichier dans le syst�me de fichiers, mais ne dispose pas de support du syst�me de fichiers de stockage objet arborescence de r�pertoire. Les services de stockage de l'objet r�el, y compris la m�moire pour stocker les images Facebook et Spotify biblioth�ques de chansons.

D�finition du stockage de l'objet ne d�finit pas le mod�le de donn�es, mais nous utilisons g�n�ralement la mise en uvre cl� + + Structure de donn�es des m�tadonn�es pour d�crire un objet (illustr� ci-dessus) dans laquelle:

Cl�s d'objet: Pour identifier de fa�on unique un ID d'objet;
donn�es: Les donn�es lui-m�me objet, g�n�ralement un fichier, comme une image, un fichier vid�o, et ainsi de suite;
Les m�tadonn�es (m�tadonn�es): Un ensemble structur� de donn�es d�crivant un objet, appel� m�ta-donn�es, typiquement m�moris�e en tant que valeur de cl�;

Par cons�quent, l'objet de stockage peut �tre consid�r�e comme une sorte de forme de valeur de cl�, dans lequel une cl� d'objet correspondant � la cl�, la valeur correspondant � un fichier et des m�tadonn�es. En outre, le concept g�n�ral de l'objet stock� il y a un seau (seau), principalement utilis� pour faciliter la gestion des objets, cl� d'objet dans un seau sont uniques, mais la cl� d'objet entre les diff�rents godets peut g�n�ralement �tre r�p�t�.

analyse de la situation de stockage d'objets

Cet article traite de la technologie de stockage d'objets pour la pratique industrielle des grandes donn�es, mais le magasin d'objet lui-m�me est pas un concept nouveau, presque tous les principaux fournisseurs de services de cloud public ont leur propre service de stockage d'objets. nous d�crivons bri�vement ici quelques-unes des fonctions et caract�ristiques communes des services de stockage d'objets. Service de stockage d'objets commerciaux contiennent en g�n�ral plus les prix et la politique de s�curit�, les questions cl�s qui ne sont pas pris en compte dans le pr�sent document. Cet article est plus pr�occup� par la demande industrielle de grandes quantit�s de donn�es objets stock�s sc�narios en fonction, ainsi que de rencontrer les �l�ments techniques d�pendent de ces besoins.

AWS S3

AWS est des services de cloud public d'Amazon, S3 est son service de stockage d'objets. Chaque objet a cl� Amazon S3, des donn�es et des m�tadonn�es, compatibles avec les concepts d�crits. A S3, la cl� est exprim�e sous la forme d'un r�pertoire du syst�me de fichiers de hi�rarchie similaire, par exemple:

Photos / famille / 2019 / a.jpgDocs / travail / B.doc

Il ressemble � un chemin de syst�me de fichiers Unix, mais il y a une diff�rence, qu'il est le nom du seau pour commencer (comme les Photos ci-dessus et Docs est le nom d'un baril), plut�t que le syst�me de fichiers Unix dans le r�pertoire racine � / �. Hi�rarchie des syst�me de fichiers convivial d'une mani�re similaire � organiser des objets de donn�es, les utilisateurs peuvent m�me cr�er un dossier � � Bien s�r, ces dossiers uniquement sur la conception d'interaction, mais en fait juste une cha�ne de hi�rarchie cl�.

Les m�tadonn�es se compose de deux parties, Informations g�n�rales et Contenu personnalis� . Informations g�n�rales g�n�r� automatiquement par le syst�me, comme la date de cr�ation d'objets et la taille de fichier, etc .; contenu personnalis� cr�� par l'utilisateur, sous la forme de m�moire de valeur cl�. L'utilisateur peut obtenir les fichiers cl�s d'objet et de m�tadonn�es. S3 permet �galement � l'utilisateur d'objets de marque avec l'�tiquette (Tag), l'�tiquette est �galement enregistr�e sous la forme d'une valeur de cl�, peut �tre obtenue par l'interface d'une liste d'objets d'�tiquettes. Le but de l'�tiquette est de faciliter les utilisateurs � des objets Classifier, mais ne prend pas en charge les donn�es de l'objet S3 � filtrer par �tiquette. Mais l'utilisation du service de r�cup�ration AWS qui cr�e automatiquement un nom de fichier d'index et m�tadonn�es, dans l'article sont d�crits en d�tail.

Pour une structuration des donn�es (ou semi-structur�es), tels que CSV, format JSON ou de parquet, S3 S3 Select appel� fonction de soutien. S3 S�lectionnez afin que les utilisateurs peuvent utiliser SQL pour obtenir l'objet, par exemple:

SELECT s._1, s._2 DE S3Object s O� s._3 > �100

Deux correspondant � l'extrait avant du sujet du format CSV S3Object, doivent �galement satisfaire � la condition de la troisi�me colonne est sup�rieure � 100.

AWS S3 est l'un des services de base, l'introduction d'une �poque ant�rieure, le service de stockage ult�rieur de l'objet a eu un impact profond. nuages de la Chine Tencent Ali et les fonctions cloud OSS COS et S3 sont proches, Openstack Swift est un service de stockage d'objets open source, qui fonctionnent de la m�me S3. En ce qui concerne la coh�rence des donn�es, S3, Swift et COS soutien coh�rence � terme, le soutien OSS forte coh�rence.

Azure Blob Storage

Microsoft Azure Blob est un objet de fournir des solutions de stockage de cloud public. AWS S3 et Azure Blob en utilisant le mod�le de donn�es similaires, alors que certains raffinement sur le sc�nario d'application. stockage Azure Blob prend en charge trois sc�narios:

Bloc blobs: donn�es d'objet pour la gestion de l'acc�s al�atoire, lecture et �criture g�n�ralement toute l'unit� de fichier objet;
Append blobs: append dans le fichier (le append) op�ration a �t� optimis� pour une m�moire de journal similaire;
Page blobs: acc�s al�atoire au contenu du fichier a �t� optimis� pour les fichiers de disque dur virtuel de la machine virtuelle;

Azure Blob Outre l'acc�s au fichier a �t� la sc�ne raffin�e, mais soutient �galement Azure Search pour cr�er un index de donn�es d'objet (Azure Search est un service de cloud public de Microsoft a lanc� un service d'index g�n�ral). Azure requ�tes de recherche peuvent utiliser des fichiers stock�s dans Azure Blob et acc�der aux donn�es en fonction des crit�res de recherche. soutient actuellement l'indexation des formats de fichiers, y compris PDF, documents Office, fichiers texte, JSON, CSV, et ainsi de suite. Si les modifications de donn�es index�es, Azure Search prend en charge l'index suppl�mentaire. Ainsi, par rapport au soutien AWS S3, Azure Blob un acc�s plus souple. Azure Blob soutient une forte coh�rence des donn�es.

Google Cloud Storage

Google service de stockage Cloud Storage est l'objet de Google, son mod�le de donn�es et l'AWS S3 De m�me, il n'y a pas de sc�ne de stockage Azure Blob panne de donn�es. Et Azure Blob est similaire � Google Cloud Storage prend en charge l'utilisation BigQuery l'indexation et la requ�te, quelques-uns des principaux types de support donn�es structur�es, telles que CSV, JSON, Avro et ainsi de suite. donn�es Google Cloud Storage soutiennent la coh�rence �ventuelle.

R�sum� de l'�tat

service de stockage d'objets est un syst�me de stockage standard fournit la plate-forme de cloud public, en g�n�ral, conform�ment � la cl� cible + donn�es + mod�le de m�tadonn�es de donn�es, mais dans les d�tails de mise en uvre l�g�rement diff�rentes. Sur l'acc�s aux donn�es, Azure Blob et Google Cloud Storage En plus d'appuyer la cl� d'acc�s, et prend �galement en charge le service d'indexation est utilis� conjointement avec - contenu de donn�es objet de requ�te ou d'indexation des m�tadonn�es. La plupart stockage d'objets, l'op�ration d'acc�s aux donn�es de l'objet dans son ensemble, et supporte en outre les donn�es d'objet Azure blob lu et les op�rations d'�criture (� savoir append blobs et page blobs). En ce qui concerne la coh�rence, la plupart des objets support de stockage coh�rence �ventuelle, et Azure Blob et Ali OSS soutiennent une forte coh�rence.

Objet Design de stockage

stockage d'objets de sc�nario de la demande industrielle

sc�nario industriel, les donn�es d'objet source de donn�es est un �quipement en g�n�ral, pour lesquels l'utilisateur final ne sont pas les m�mes que les applications Internet. Par exemple, dans une application de r�seautage social, nous pouvons utiliser le stockage d'objets pour enregistrer les photos des utilisateurs de photos et raccourcis clavier identifiant utilisateur g�n�ral, les donn�es d'objet lues � partir de la cl� point de distribution de vue est g�n�ralement al�atoire, la plupart des op�rations seulement l'acc�s id correspondant � une donn�e particuli�re (par exemple, la lecture de la chronologie de photo d'un utilisateur), o� l'acc�s identifiant � travers de multiples relativement faible. Mais dans le sc�nario industriel, nous consid�rons que les donn�es individuelles relativement faible pour un dispositif sp�cifique, et plus est d'obtenir des donn�es pour tous les objets de donn�es remplissent certaines conditions sur une p�riode d'analyse du temps.

Consid�rons un sc�nario sp�cifique, nous supposons que le fichier enregistrement de d�faut 10000 �oliennes produisent, et nous esp�rons que gr�ce � l'analyse souvent r�pondre:

La fr�quence des diff�rents types de d�faillance du ventilateur sont les m�mes?
La fr�quence de d�faillance de la production de diff�rents lots du m�me ventilateur de mod�le se produire?
Avec certains types de ventilateurs ont grandi changements de temps dans son taux d'�chec?
Quels sont les mauvais fonctionnement du ventilateur des caract�ristiques diff�rentes zones g�ographiques?
La r�partition des diff�rents types d'�chec?

les donn�es d'objets peuvent �tre organis�s en une hi�rarchie par une cl� d'objet syst�me de fichiers similaire, il est encore difficile de filtrer facilement les donn�es d'objet pour l'analyse (par exemple, pour r�pondre aux questions ci-dessus). Dans la discussion du statu quo, Azure Blob et Google Cloud Storage fournit �galement un ajout important au service d'indexation, le service d'indexation, mais est ind�pendant du magasin d'objets, le d�lai entre l'index et les donn�es sans garantie. De plus, certaines fonctionnalit�s ne sont pas pris en charge dans le pays, comme AWS Search. consid�rations multidisciplinaires, nous avons d�cid� de concevoir et mettre en uvre des services de stockage d'objets pour la sc�ne industrielle.

= + Donn�es d'objets du mod�le de donn�es de m�tadonn�es

Tout d'abord, nous consid�rons un mod�le plus appropri� pour r�cup�rer l'objet de donn�es, il peut �tre d�crit comme la figure.

En g�n�ral, le mod�le de donn�es d'objet de m�tadonn�es ne fonctionne que pour compl�ter, mais notre objet dans le mod�le de donn�es:

cible m�tamod�le key = + + pointeur de donn�es compl�ment des informations g�n�rales +

Ceci est la plus grande diff�rence entre nous et d'autres objets destin�s � stocker le magasin d'objets. Les m�tadonn�es comprennent non seulement les objets cl�s, y compris �galement le contenu d�fini par l'utilisateur peut �tre qualifi� en fonction de donn�es d'objet � filtrer le contenu personnalis�.

Plus pr�cis�ment, l'objet de m�tadonn�es contient une pluralit� de colonnes (colonne): dans laquelle certaines des colonnes sont appel�s id de colonne (id-colonne), correspondant � la combinaison de ceux-ci Cl�s d'objet ; Contenu personnalis� D�finir des donn�es associ�es aux informations d'objet par un utilisateur; colonne d'informations g�n�rales enregistre l'objet de donn�es statistiques, telles que la taille et le temps de cr�ation de l'objet. Panne du ventilateur pour stocker le fichier g�n�r� � titre d'exemple, les m�tadonn�es peuvent �tre les suivantes:

o�:

= Cl� objet id �olienne id +
= Temps d'enregistrement du type de contenu personnalis� + + + code d'erreur Coordonn�es
Informations g�n�rales created = taille +

pointeurs de donn�es pour m�moriser la position des donn�es cibles d'enregistrement, si les donn�es d'objet stock�es dans un certain syst�me de fichiers, par exemple les HDFS, alors la forme du pointeur peut �tre hdfs: // nameservice1: port / chemin / vers / donn�es, donc en th�orie les donn�es d'objet peut �tre stock�e dans un syst�me.

Le tableau ci-dessus ressemble � un ensemble de donn�es relationnelles typiques, le type de donn�es de la colonne peut �tre une cha�ne, entier, flottant ou la date. Un pas tout � fait au m�me endroit avec les m�tadonn�es d'objet de sch�ma de donn�es relationnelle peut changer fr�quemment. Bien que le mod�le relationnel permet �galement la modification du sch�ma de donn�es, mais les modifications du sch�ma du co�t d'une grande quantit� de donn�es est tr�s grande, il est plus appropri� pour le stockage des m�tadonn�es sont certains moteurs de stockage NoSQL, par exemple ElasticSearch.

Dans un tel mod�le de donn�es, les donn�es de consommation moyenne est de filtrer l'objet de m�ta-donn�es en fonction de certaines conditions, pour obtenir une liste � �tre lue apr�s que les donn�es correspondant au pointeur de donn�es. Par exemple, dans l'exemple ci-dessus, nous pouvons trouver toutes les donn�es g�n�r�es conform�ment � une �olienne et id id �olienne, trouver toutes les donn�es, ou certains types de d�faillances. Une autre utilisation importante est de ne consommer que les objets m�tadonn�es, par exemple, nous pouvons compter sur l'histogramme du d�faut au cours du mois pass�. Cela se compare � lecture seule les donn�es d'objet sur la base de la m�thode d'acc�s cl� de donn�es connues est beaucoup plus flexible.

architecture du syst�me

Nous donnons une r�f�rence ici sur la base HDFS et ElasticSearch, l'architecture du syst�me, comme indiqu� sur la figure. Lire et demande d'�criture de l'utilisateur par le biais d'�quilibrage de charge pour distribuer une station de serveur REST sp�cifique, les suppressions changent la mise en uvre de la logique de contr�le de fonctionnement des objets dans le reste stock� dans le service, appel � la logique de fonctionnement en fonction de la composition des services sous-jacents. Trois actions sous-jacentes de stockage sont:

d�finition de sch�ma MySQL pour stocker des objets de m�ta-donn�es;
m�tadonn�es ElasticSearch pour le stockage et l'extraction d'objets;
HDFS pour stocker des donn�es d'objet;

Dans ce m�tadonn�es cadre et les objets de donn�es d'objet sont stock�es en tant que multiples de sauvegarde et de support pour HA (High Availability), et le service REST prend �galement en charge HA, de sorte que l'ensemble du support de service de stockage d'objets HA, et peut �tre �tendue en fonction du niveau de charge .

Les utilisateurs g�n�ralement sc�narios d'utilisation sont les suivants:

1. Mod�lisation des donn�es: d�finition de m�tadonn�es objet consid�r�, en particulier lorsque le contenu de conception cl� de l'objet et les m�tadonn�es personnalis�es, par exemple, dans l'exemple pr�c�dent la conception cl� de l'objet utilisateur (id vent, id ventilateur) et du contenu personnalis� (temps d'enregistrement, mod�le, la latitude et la longitude, le code d'erreur). Chaque objet est un type d'objet de donn�es not� (classe d'objet), g�rer les types d'objets de service de stockage d'objets multiples;

2. Les donn�es sont �crites: l'utilisateur de l'interface REST appelle l'�criture de l'objet, comprend l'auteur de deux pi�ces, � savoir, les donn�es de m�tadonn�es et de l'objet � chaque fois. Si et seulement si les m�tadonn�es et les donn�es objet apr�s la fin de l'�criture de la premi�re op�ration d'�criture ne peut pas revenir avec succ�s � l'utilisateur;

3. Modifications et suppression des donn�es: L'utilisateur peut modifier le contenu d'un objet, tels que la mise � jour de la valeur d'un champ dans les m�tadonn�es, ou mettre � jour les donn�es d'objet. Avant de lancer une demande de mettre � jour les besoins des utilisateurs pour fournir une cl� d'objet unique pour d�terminer l'objet est modifi�, il a �galement des moyens que les cl�s d'objet eux-m�mes ne peuvent pas �tre modifi�s. Les objets supprim�s peuvent �tre consid�r�s comme une mise � jour sp�ciale de la sc�ne;

4. R�cup�ration des donn�es et lire: L'utilisateur peut r�cup�rer un type d'objet des m�tadonn�es d'objets dans les colonnes, pour obtenir un ensemble de m�tadonn�es � la liste des �ligibles. �tant donn� que les m�tadonn�es contient un pointeur pointant vers les donn�es d'objet, l'objet peut �tre lu pour les transactions ult�rieures;

� ce stade, nous savons que le processus d'utilisation d'un service de stockage d'objets, � la suite des discussions approfondies sur certains points techniques.

Techniques 1: op�ration d'�criture atomique

un service de stockage de l'objet dans la section pr�c�dente, un objet comprend � la fois des objets de donn�es, les m�tadonn�es comprenant en outre. Dans la r�alisation de l'objet d'une op�ration d'�criture, la n�cessit� d'assurer la coh�rence des deux parties, que les donn�es d'objet et de m�tadonn�es pour l'utilisateur doivent �tre int�gr�s ou op�ration d'�criture est de nature atomique, refl�t�e dans:

Processus d'�criture ou la suppression d'un objet, il ne devrait pas exister � un moment donn� pour que les utilisateurs ne peuvent lire les donn�es d'objet d'objet ou m�tadonn�es;
Mettre � jour un objet du processus, il ne devrait pas �tre un point dans les m�tadonn�es de l'objet et des incoh�rences de donn�es objet, telles que les m�tadonn�es est nouveau, mais l'objet est d'anciennes donn�es, et vice-versa;

Pour atteindre l'objet ci-dessus, l'objet de processus comme indiqu� ci-dessous:

Il peut �tre divis� en deux �tapes, d'abord des donn�es d'objet copi� � partir d'un objet ext�rieur de l'objet stock� dans le service de stockage interne, puis copier les m�tadonn�es de l'objet pour le service de stockage. Sur la surface, toujours premi�re marque de m�tadonn�es de contr�le dans la figure 1 pour l'incoh�rence se produit, ce magasin d'objets uniquement les donn�es d'objet sans m�tadonn�es, mais �tant donn� que nous avons lu les donn�es, l'utilisateur ne peut pas voir au moment � ces donn�es d'objet. Que ce soit des donn�es de m�tadonn�es ou un objet, nous sommes une copie du stockage d'objets interne, vous ne devez pas utiliser l'op�ration de transfert; En outre, les donn�es sont copi�es dans aucune m�moire interne de l'objet cible plus conserver le nom du fichier d'origine, mais le fichier � la place d'un produit au hasard le nom pour �viter les conflits.

Ce qui pr�c�de d�crit dans l'hypoth�se implicite - copie des m�tadonn�es de l'ext�rieur vers l'int�rieur du processus lui-m�me est atomique, � savoir, il n'y a pas un instant que l'utilisateur peut voir les m�tadonn�es n'a pas �t� termin�. Dans notre conception de r�f�rence, les m�ta-donn�es d'objet est stock� dans ElasticSearch, garantit �criture atomique un record, mais en fait la plupart des services de base de donn�es supportent un seul atome d'au moins l'op�ration d'enregistrement. Notez que les donn�es d'objet copi�s ne sont pas n�cessaires pour r�pondre aux exigences des atomes, il est un syst�me de fichiers g�n�ral peut �tre utilis� pour des objets de donn�es du magasin.

Ici, nous consid�rons le processus de supprimer, comme indiqu� ci-dessous:

Retirez les m�tadonn�es �crites en deux �tapes, d'abord marquer l'objet � supprimer est supprim�, il n'est pas visible aux utilisateurs ext�rieurs, mais toujours garder � l'ElasticSearch dans, puis supprimez l'objet des donn�es physiques et des m�tadonn�es. Le but marqu� pour la suppression dans la section suivante sur la gestion des conflits lors de leur d�ploiement. Un d�tail de la mise en uvre est lorsque vous supprimez un objet dans l'image ci-dessus physique (marque 2), vous devez supprimer les donn�es d'objet, supprimez les m�tadonn�es, les donn�es d'objet ne peut pas �tre �viter le nettoyage se produit lorsqu'une d�faillance du syst�me. La suppression est conforme aux exigences de l'atomicit�, ce qui est une op�ration d'�criture est la m�me raison.

Mettre � jour un objet peut �tre divis� en deux situations:

mises � jour uniquement le contenu objet des m�tadonn�es personnalis�es;
Mise � jour des donn�es d'objet, ce qui signifie g�n�ralement les m�tadonn�es changera, comme la taille des donn�es statistiques;

Dans le premier cas, l'op�ration de mise � jour atomique ne d�pend que du support ElasticSearch mise � jour atomique, aucune attention suppl�mentaire. Dans ce dernier cas est similaire � l'objet de processus �crit trois �tapes:

�tape 1: Copiez les nouvelles donn�es d'objet aux magasins d'objets;
�tape 2: cible de m�tadonn�es de contenu de mise � jour et les m�tadonn�es dans le pointeur de donn�es vers les nouvelles donn�es de l'objet (cette �tape est elle-m�me atomique);
�tape 3: Supprimer les donn�es d'objets d'origine vers un espace libre;

Et le principe d'�criture est similaire � la derni�re mise � jour est atomis�e, mais il y a un d�tail technique ici - comment faire en sorte que nous pouvons supprimer les anciennes donn�es d'objet? Entre les �tapes 2 et 3 ne sont pas interchangeables, sinon il y aura un moment donn�, l'utilisateur peut interroger les objets de m�tadonn�es, mais ne peut pas trouver les donn�es d'objet. Par cons�quent, si un d�faut se produit dans le syst�me apr�s l'�tape 2, comment pouvons-nous conna�tre les anciennes donn�es objet O�? Notez que cette fois les points de pointeur de donn�es vers le nouvel objet a des donn�es. Pour r�soudre ce probl�me, � l'�tape 2, nous avons besoin de sauver l'ancien pointeur de donn�es vers le bas (par exemple, le journal est �crit avant d'�crire), m�me si le syst�me �choue, nettoyer les anciens services de r�cup�ration de donn�es objet avant.

Cette section d�crit les d�tails d'une atomicit� de l'op�ration mise en uvre de la technologie d'�criture, chaque op�ration d'�criture est divis�e en plusieurs �tapes, il est n�cessaire lors de la mise en uvre WAL pour assurer un fonctionnement transactionnel. Lorsque le service red�marre apr�s une d�faillance du syst�me, peuvent �tre trait�es conform�ment � la transaction n'a pas �t� termin�e avant le journal d'�criture.

Note: Notre impl�mentation de r�f�rence bas�e sur ElasticSearch, dans ElasticSearch o� vous pouvez soutenir la mise en uvre d'un script lors de la mise � jour d'un enregistrement, et l'ensemble du processus de mise en uvre est atomique. Cette bas�e sur les caract�ristiques, les donn�es peuvent pointeur dans les m�tadonn�es de l'objet a chang� l'ancien pointeur d'enregistrement � un tableau de m�tadonn�es en soi, �liminant ainsi la n�cessit� de compter sur le WAL enregistrement des ennuis.

Techniques 2: �crire la r�solution des conflits

Lire et conflits d'�criture lors de l'�criture d'un objet, ou l'apparition simultan�e d'une lecture-�criture. Nous examinons le processus d'�criture de donn�es, les donn�es sont toujours la premi�re � traiter, puis les m�tadonn�es de traitement, le processus de lecture des donn�es est d'abord lire les m�tadonn�es, puis obtenir les donn�es d'objet. Donc, lire et les conflits d'�criture objet ne se produit sur les op�rations associ�es aux m�tadonn�es. Par exemple, lors de l'�criture du m�me objet en deux objets cl�s, des mesures concr�tes conflit possible est la cl� des deux c�t�s en m�me temps d'�criture le m�me enregistrement � ElasticSearch (ElasticSearch a �galement concept cl�, quand nous atteindrons dans la ElasticSearch cl� il est d�fini comme un objet d'obligations de cha�ne). ElasticSearch interne � l'aide MVCC (Multi-versionn� Contr�le d'acc�s simultan�) mode de traitement des conflits, lorsque la m�me touche d'enregistrement simultan�ment est �crit deux, l'un qui �chouera. Ainsi, si les m�tadonn�es se produit pr�cis�ment lorsque l'�criture de deux objets identiques �criture de la cl� objet de conflit, alors l'un d'entre eux un �chec se produit.

Une lecture de la situation un peu plus compliqu� � �crire, ne peut pas �tre compl�tement r�solu par ElasticSearch. Cela complique le processus de lecture de l'objet principal est divis� en deux �tapes, � savoir d'obtenir les m�tadonn�es, les donn�es d'objet re-lecture. En r�alit�, entre ces deux phases peuvent �tre s�par�es par une plus longue p�riode de temps, par exemple, nous avons d'abord obtenir un ensemble de liste de m�tadonn�es de l'objet en fonction d'une requ�te, puis on (par exemple MapReduce ou Spark) dans les donn�es d'objets de consommation dans certains parall�les cadre calcul . Si, apr�s les m�tadonn�es get, les donn�es de l'objet avant la consommation, nous modifions les donn�es d'objet ce qui se passera? Par exemple, avant que les donn�es de consommation que nous avons mis � jour les donn�es d'objet. approche raisonnable est que les utilisateurs peuvent encore lire les donn�es d'objet avant de mettre � jour les m�tadonn�es ont �t� acquises, mais pas lire les nouvelles donn�es d'objet (car il ne correspond pas �). En outre, les donn�es ne peuvent pas �tre parce que l'objet a �t� mis � jour pour renvoyer une erreur, ou un grand nombre d'applications pour les donn�es de consommation unique des objets de la sc�ne, l'�chec fr�quent peut se produire. Dans la section ci-dessus l'op�ration d'�criture atomique, Que ce soit pour mettre � jour ou de suppression, nous faisons toujours la premi�re marque, puis supprimer physiquement les donn�es d'objet apr�s un d�lai. Cette fois-ci devrait �tre assez longtemps pour faire en sorte que la plupart des mises � jour avant l'op�ration de lecture est termin�e, en m�me temps, le syst�me a besoin de maintenir un processus en fonction du temps de jeu suppression de donn�es objet de retard a �t� marqu�.

Point de technique 3: Coh�rence discussion

De l'analyse pr�c�dente des op�rations atomiques, nous pouvons voir la coh�rence du service de stockage d'objets est en fait d�cision partag�e par les m�tadonn�es stock�es. Autrement dit, si nous pouvons faire les m�tadonn�es stock�es une forte coh�rence, l'objet est forte coh�rence du service. Nous utilisons ElasticSearch pour stocker les m�tadonn�es, donc ici ElasticSearch besoin de discuter de la question de la coh�rence. la coh�rence ElasticSearch il a �t� floue (voir https://www.elastic.co/guide/en/elasticsearch/resiliency/current/index.html), ainsi que l'escalade de la version, l'�quipe de d�veloppement pour tenter de r�duire certains des probl�mes connus .

D'une mani�re g�n�rale de ElasticSearch devrait appartenir � l'accord final (coh�rence dans le temps), mais peut avoir une consistance d'un comportement fort � proche � par quelques ajustements. Nous ajustons la configuration de ElasticSearch comprennent:

Pr�f�rentiellement lire les donn�es � partir du noeud principal;
Le nombre de noeuds dans l'ensemble actif de l'op�ration d'�criture est pas inf�rieur � n / 2, o� n repr�sente la taille de la grappe ElasticSearch;
nuds actifs du cluster Si moins de n / 2 arr�t des services externes;
op�ration de rafra�chissement de l'application avant de lire les donn�es, assurez-vous de lire avant une op�ration d'�criture a eu lieu en dehors du visible;

Si vous voulez en profondeur la compr�hension du sens de la configuration ci-dessus n�cessite des lecteurs ElasticSearch ont plus de compr�hension, mais Bref, nous esp�rons que chaque op�ration d'�criture peut couvrir la majorit� des nuds du cluster, et chaque lecture est un peu noeud s�lectionn� du leader (En g�n�ral, premier noeud est �crit). Bien que cela ne peut pas garantir la coh�rence forte, mais pour faire en sorte que dans la plupart des cas, ElasticSearch forte performance externe proche de la coh�rence que nous avons lu les derni�res donn�es sont toujours �crites.

D'apr�s notre discussion pr�c�dente de l'architecture, ElasticSearch pas le seul s�lectionnable de m�tadonn�es de stockage d'objets. Nous avons choisi ElasticSearch est la valeur de ses puissantes capacit�s de recherche, mais s'il y a des exigences tr�s strictes pour la coh�rence, vous pouvez �galement s�lectionner un autre stockage.

Remarque: Nous avons r�alis� dans le stockage des m�tadonn�es � base MySQL pr�coce, le plus gros probl�me auxquels ils sont confront�s sont les modifications de sch�ma apport�es �norme co�t, de temps et trop grand dans la mise en uvre de certaines de l'op�ration de polym�risation.

Techniques: 4 fichiers de fusion

services de stockage d'objets ont souvent besoin de stocker de grandes quantit�s de donn�es d'objet, et ces donn�es seront stock�es dans le syst�me de fichiers sous-jacent en tant que fichier. S'il y a un grand nombre de petits fichiers, le syst�me de fichiers peut entra�ner une efficacit� r�duite. Par exemple, dans HDFS, la taille de chaque bloc est g�n�ralement 64M (ou 128M), l'un correspondant du bloc d'inode, � savoir, une m�moire enregistrant le NameNode HDFS. M�me alors un petit fichier, dans HDFS occupe toujours l'un inode, de sorte qu'un grand nombre de petits fichiers apportera la pression de m�moire NameNode. Si nous pouvons fusionner de petits fichiers dans des fichiers volumineux, vous pouvez r�duire le taux d'occupation des fichiers objet inode, facilitant ainsi la pression sur la m�moire, c'est le point de d�part pour la fusion des fichiers. Si le syst�me de fichiers sous-jacent n'est pas Linux, mais le syst�me de fichiers de HDFS locale inode est une certaine limite, il y aura un probl�me correspondant.

Une id�e de document est de fusionner l'objet en une pluralit� de sections dans l'ordre chronologique, pour tous les objets de fichiers de donn�es d'objets dans chaque section dans un grand dossier. Les m�tadonn�es pour chaque objet contient sa date de cr�ation, le moment o� l'objet est cr�� est g�n�r�e automatiquement par le syst�me. mise � jour ult�rieure de cet objet ne change pas le temps de cr�er un objet, cette propri�t� est tr�s importante. Supposons que nous fixons la gamme de taille de 1 heure, puis divis� par l'intervalle de temps est la suivante:

..., (8: 00,9: 00>, (9: 00,10: 00> ...

A intervalles (8: 00,9: 00> par exemple, tombent dans cet objet donn�es d'intervalle de temps de cr�ation pour tous les objets seront fusionn�s en un seul gros fichier, ses m�tadonn�es dans les points de pointeur � une partie d'un fichier volumineux, le particulier il comprend:

Grand nom de fichier du fichier;
D�calage dans un grand fichier de donn�es objet;
longueur des donn�es cibles;

Les trois informations ci-dessus, nous pouvons lire les donn�es correspondantes d'un grand fichier objet. fusion de fichiers a eu lieu apr�s que l'objet a �t� des services d'objet �crit, comme dans l'exemple ci-dessus (8: 00,9: 00> consolidation des donn�es dans un certain intervalle se produit apr�s 9h00, et op�rations de fusion de fichiers doit �tre transparente pour l'utilisateur . En d'autres termes, le document processus de fusion, l'utilisateur ne doit pas percevoir les donn�es d'objet sous-jacents sont combin�s, et l'op�ration combin�e n'affectera pas l'op�ration d'�criture de l'utilisateur. A cette fin, les �tapes combin�es comprennent:

�tape 1: Les petits fichiers � fusionner dans un grand dossier;
�tape 2: Tous les objets sont fusionn�s actualisent s�quentiellement de m�tadonn�es, de telle sorte qu'une grande partie du pointeur vers le fichier;
�tape 3: petits Supprimer les fichiers ont �t� combin�s � l'espace nettoyage;

Pour tout objet, l'objet est similaire � l'op�ration au cours de laquelle l'op�ration de mise � jour, bien que dans l'�tape 2 pour mettre � jour les m�tadonn�es de l'objet ne peut pas supporter les mises � jour de traitement par lots (par exemple, la mise � jour est contenu dans une transaction atomique), mais � tout moment l'utilisateur � l'ext�rieur il voit sont les derni�res donn�es de l'objet. Si l'op�ration d'�criture au cours des conflits de fusion, suivi pr�c�demment discut� des conflits de manipulation excessive, dans lequel une erreur - en supposant 100 concerne un fichier objet combin�, et dans lequel un conflit depuis l'�criture �choue, le 99 restant avec succ�s, le combin� apr�s les 100 petits fichiers d'origine deviendra un gros fichier (contenant 100 objets de donn�es) plus 1 petit fichier (contenant le r�sultat combin� du conflit conduit � l'�chec d'une donn�e d'objet). Vous pouvez voir qu'en raison du conflit a caus� une certaine redondance des donn�es, mais la probabilit� de collisions en utilisation normale est tr�s faible, de sorte que de petites quantit�s de redondance des donn�es peuvent �tre tol�r�es. processus de fusion de fichier comme indiqu� ci-dessous:

fusion de fichiers va cr�er une redondance des donn�es. Si, apr�s le document de fusion, une partie des donn�es d'objet a �t� mis � jour, les donn�es d'origine de l'objet � supprimer est maintenant devenu une partie de gros fichiers, et du gros fichier de la partie, ce qui �quivaut � un objet qui n'a pas �t� mis � jour donn�es r�crire � nouveau, et mettre � jour le pointeur de donn�es correspondant. Il est clair que, en raison du fichier combin�, mettre � jour un grand objet de donn�es ont �t� prix combin�.

En fait, dans la sc�ne industrielle, la plupart des cas sont en �criture objet, et des sc�nes de mise � jour se produisent rarement (� la diff�rence des objets stock�s dans les sc�narios d'application Internet), donc dans le cas de tr�s faible proportion de la mise � jour, nous pouvons tol�rer gros fichier en petites quantit�s de donn�es a �chou�, mais conserve encore apporter une redondance en t�te.

Remarque: Si la mise � jour de cas r�el fr�quemment, vous pouvez prendre certaines strat�gies pour optimiser les op�rations de suppression fusionner des fichiers. Par exemple, on peut d'abord compter un grand nombre de contenu du fichier a expir�, si et seulement si une forte proportion d'�chec quand il est en fait une op�ration de suppression.

r�sum�

Cet article d�crit la pratique de la conception des services de stockage d'objets industrie orient�e vers les grandes donn�es. Apr�s analyse de la sc�ne, nous avons constat� que la situation de la demande et les objets de la sc�ne Internet stock�s sous la sc�ne industrielle ne sont pas les m�mes, en particulier pour la cible de recherche a mis en avant des exigences plus �lev�es. Pour r�pondre � cette exigence, nous renfor�ons le r�le des m�tadonn�es de conception du mod�le de donn�es, changer les habitudes de consommation des objets de donn�es, une nouvelle architecture de syst�me de service de stockage d'objets, associ�s � la mise en uvre de la technologie de r�f�rence ElasticSearch + HDFS qui sont discut�s en d�tail les points, esp�rent fournir une r�f�rence aux objets stock�s dans les grands services de donn�es pour le design industriel et de d�veloppement personnel.

- FIN -

attention Tsinghua - donn�es Acad�mie des sciences de Qingdao plate-forme publique micro-canal officiel " donn�es d'envoi THU � Sisters et n � � Les donn�es envoy�es THU � Pour plus de conf�rences et de bien-�tre contenu de qualit�.

Route de la soie

Apprenez � conna�tre la Chine

La technologie de stockage d'objets pour la pratique industrielle de gros volumes de donn�es

Qu'est-ce que le stockage d'objets

analyse de la situation de stockage d'objets

Objet Design de stockage

r�sum�