article lu Hadoop (a) | exclusif: Vue d'ensemble

Alors que l'�conomie mondiale continue de se d�velopper, la grande �poque de donn�es �tait venu tranquillement, et est � la base des environnements grand de donn�es Hadoop, veulent la grande industrie de la saisie des donn�es d'abord besoin de comprendre la connaissance de Hadoop. Au d�but de 2017 apache �mis Hadoop3.0, signifie aussi qu'il ya toujours un groupe de personnes sur Hadoop constamment peaufin�, non seulement, chaque version commerciale de Hadoop a aussi beaucoup d'entreprises utilisent, ce qui confirme �galement sa valeur commerciale.

Les lecteurs peuvent lire, � l'article lu Hadoop � s�rie d'articles, il y a une bonne compr�hension de la technologie Hadoop, qui couvre tous les points de connaissances Hadoop site officiel et convivial, l'anglais ne sont pas bons lecteurs peuvent comprendre en lisant cet article Hadoop.

Ce probl�me de contenu exclusif, � l'article lu Hadoop � s�rie seront introduites d'abord bas� Hadoop, puis introduit un HDFS cadre d�taill�, MapReduce, tous les points de connaissances, YARN divis� en quatre pousser le contenu dans les prochains jours. Restez � l'�coute pour le contenu ult�rieur.

1. introduction

1.1 Hadoop Vue d'ensemble

Hadoop est un tr�s fiable, hautement �volutive calcul distribu� des logiciels open source. Il est capable de permettre une grande quantit� de traitement des donn�es au moyen d'un cadre simple pour le mod�le de programmation distribu�e dans un cluster informatique. Sa taille peut �tre con�ue � partir d'un seul serveur � des milliers de machines, dont chacun peut fournir des fonctions de calcul et de stockage local. Plut�t que de compter sur le mat�riel � l'efficacit� de support.

Hadoop est le fondateur Doug Cutting, mis au point au cours du projet inaugural Yahoo Hadoop, principalement parce que les gens sont int�ress�s par cette �tude par rapport au moteur de recherche, puis utilisez la technologie est Lucene et Nutch.

1.2 Lucene et Nutch

Lucene

Est-ce une trousse d'outils du moteur de recherche open source texte int�gral, il est un moteur de recherche complet texte int�gral, mais un cadre pour un moteur de recherche en texte int�gral, fournissant un moteur de recherche complet et les moteurs de recherche, le but du moteur d'analyse de texte, Lucene est un logiciel il fournit aux d�veloppeurs une bo�te � outils facile � utiliser pour faciliter la r�alisation de la fonction du syst�me cible de recherche en texte int�gral, ou comme base pour construire un moteur de recherche complet en texte int�gral.

nutch

Nutch est une impl�mentation Java open source du moteur de recherche, qui fournit tous les outils n�cessaires pour faire fonctionner notre propre moteur de recherche, y compris les robots d'exploration de recherche en texte int�gral et Web.

1.3 g�n�ration Hadoop

Doug coupe lors de l'utilisation nutch Lucene rencontr� avec les donn�es et les d�fis informatiques. Il y a deux questions, comment ramper d'une part un grand nombre de pages stock�es, d'autre part, est l'algorithme de recherche encore � optimiser, donc il a pass� deux ans pour atteindre le DFS et MapReduce, une version miniature de Nutch, en 2005 Hadoop dans le cadre du sous-projet Nutch Lucene a officiellement pr�sent� Apache Foundation. Mars 2006 MapReduce et Nutch Distributed File System (NDFS) ont �t� incorpor�s dans le projet Hadoop.

Source 1.4 Hadoop id�es de projets

id�e de projet Hadoop vient de trois documents de Google

GFS- > HDFS
Carte-Reduce- > Carte-R�duire
Bigtable- > Hbase

Compos� de 1,5 Hadoop

Hadoop Distributed File System (HDFS) Distributed File System

Fournir un acc�s � une application de donn�es du syst�me de fichiers distribu�s � haut d�bit.

Hadoop YARN

Une paire planification des t�ches et le cadre de gestion des ressources en cluster.

Hadoop MapReduce

fils � base de grands ensembles de donn�es dans les syst�mes de traitement parall�le.

2. Les trois modes de fonctionnement

2.1 Mode autonome (local)

Ce mod�le fonctionne sur une seule machine, sans syst�me de fichiers distribu�, mais directement lire et �crire le syst�me de fichiers du syst�me d'exploitation local. Il n'y aura pas de d�mon en mode autonome (autonome), toutes choses sont en cours d'ex�cution sur une machine virtuelle Java. L� encore, il n'y a pas de DFS, en utilisant un syst�me de fichiers local. Mode autonome est adapt� pour ex�cuter le processus de d�veloppement de programme MapReduce, un motif qui est le moins utilis�.

2.2 en mode pseudo-distribu�

Ce mod�le fonctionne sur une seule machine, mais pour imiter le fonctionnement distribu� des diff�rents types de nuds avec diff�rents processus Java, pseudo-distribu� (pseudo) applicables au d�veloppement et � l'environnement de test, dans ce mode, tous les daemons sont les m�mes en cours d'ex�cution sur la machine.

2.3 enti�rement distribu�s

Ce mod�le est couramment utilis� dans l'environnement de production, l'utilisation des h�tes N forment un cluster Hadoop, chaque h�te d�mon Hadoop est en cours d'ex�cution. Ici, il y aura une course de NameNode h�te, DataNode ex�cuter l'h�te et l'h�te et d'autres ResourceManager en cours d'ex�cution. Dans un environnement distribu�, le noeud ma�tre et le noeud esclave seront s�par�s.

3. Guide de commande

3.1 Vue d'ensemble

La commande de tous Hadoop et suivre la m�me structure de base:

Utilisation: SHELLCOMMAND � � �

3.2 Option shell

Toutes les commandes shell acceptent un ensemble d'options. Pour une commande, ne tiendra pas compte de ces options. Par exemple, les commandes � ex�cuter uniquement sur un --hostnames de transfert h�te unique sont ignor�s.

3.3 Options g�n�rales

De nombreux sous-commande pour suivre un ensemble d'options de configuration pour modifier leur comportement:

3.4 Hadoop Commandement g�n�ral

Toutes ces commandes sont ex�cut�es de commande shell hadoop.

3.4.1 Commande utilisateur

commande de cluster Hadoop utiles � l'utilisateur.

archives

fichier Hadoop est un fichier sp�cialement format�, un fichier est associ� � un syst�me de fichiers Hadoop de r�pertoire, l'extension de fichier Hadoop est .har, Hadoop r�pertoire archive contient le fichier m�tadonn�es (_index et _masterindex) et les fichiers de donn�es (* partiel) ce fichier _index contient les noms de tous les fichiers et l'emplacement de la partie correspondante de son dossier.

checknative

Cette commande v�rifie la disponibilit� de Hadoop code natif.

classpath

Imprimer chemin de classe n�cessaire pour obtenir pot Hadoop et les biblioth�ques n�cessaires. Si aucun argument, le jeu de chemin de classe par le script de commande d'impression, qui peut contenir des caract�res g�n�riques dans l'entr�e du chemin de classe. Autres options pour imprimer le classpath ou le classpath �crit dans le fichier manifeste dans le pot apr�s expansion g�n�rique. Ce dernier est utile, et ne peut pas utiliser des caract�res g�n�riques classe extension supporte la trajectoire maximale est sup�rieure � la longueur de l'environnement de ligne de commande.

lettres de cr�ance

Le fournisseur de commande d'informations d'identification de gestion interne et les informations d'identification de mot de passe. Les applications de support de l'API CredentialProvider de Hadoop divis�, et les exigences d'application fendus comment stocker le mot de passe requis. Pour indiquer l'emplacement et le type d'un fournisseur, la n�cessit� d'ajouter noyau site.xml hadoop.security.credential.provider. �l�ment de configuration de chemin, ou par des options de commande jeu instruction -provider. chemin du fournisseur est une cha�ne d'une cha�ne d'URL s�par�es par des virgules. Ces cha�nes d�crivent le type et l'emplacement du fournisseur.

distch

Une fois pour changer la propri�t� et les autorisations de nombreux fichiers.

distcp

copier r�cursivement fichiers ou r�pertoires.

dtutil

Acquisition et utilitaires de gestion dans le fichier d'informations d'identification de jeton de d�l�gation de Hadoop. Il est destin� � remplacer une commande plus simples fetchdt. sous-commandes multiples, chacun avec son propre drapeau et options. Pour chaque sous-commande �crit le fichier, l'option -format pour sp�cifier le format interne � l'utilisation. java est fetchdt correspondre � l'ancien format. La valeur par d�faut est protobuf. Pour chaque sous-commande pour se connecter au service, fournissant kerberos nom principal pour sp�cifier le fichier keytab utilis� pour l'authentification et le drapeau de commodit�.

Et script similaire de DSF.

gridmix

Hadoop Gridmix est la r�f�rence pour le syst�me Hadoop. Il a fallu une �valuation � grande �chelle de chaque module du syst�me de traitement de donn�es, comprenant: des donn�es de g�n�ration pour g�n�rer et envoyer le travail, le temps de comptage de fin de travail.

Ex�cuter un fichier jar.

jnipath

Imprimer calcul java.library.path.

kerbname

r�gles auth_to_local en nommant les convertis du corps en nom d'utilisateur Hadoop.

cl�

Par KeyProvider g�rer les cl�s.

Ex�cution KMS, le serveur de gestion des cl�s.

trace

Afficher et modifier les param�tres de suivi Hadoop.

version

Version imprimable.

classname

Ex�cuter une classe nomm�e classname. Classe doit faire partie du paquet.

envvars

Afficher la variable d'environnement Hadoop.

3.4.2 Commande de gestion

daemonlog

Obtenez / r�gler le d�mon niveau de journalisation identifi� par le nom de classe est d�fini dans le journal. Par d�faut, la commande envoie une requ�te HTTP, mais cela peut �tre contourn�e en utilisant une demande d'envoyer param�tre demande HTTPS -protocol https.

fichier 3.4.3

etc / Hadoop / hadoop-env.sh

Ce fichier stocke tous ensemble global de commande shell Hadoop.

etc / hadoop-user-functions.sh

Ce fichier permet aux utilisateurs avanc�s de remplacer des fonctions shell.

~ / .Hadooprc

Il stocke l'environnement personnel de l'utilisateur individuel. Et apr�s hadoop-env.sh traitement des documents hadoop-user-functions.sh, et peut contenir les m�mes param�tres.

4. shell UNIX Guide

4.1 importantes variables d'environnement de l'utilisateur final

Il y a beaucoup de variables d'environnement logiciel Apache Hadoop pour contr�ler divers aspects. (Voir fichiers hadoop-env.sh et connexes.) Certaines de ces variables d'environnement d�di�es � aider les utilisateurs finaux de g�rer leur fonctionnement.

4.1.1 HADOOP_CLIENT_OPTS

Cette variable d'environnement pour tous les utilisateurs finaux, le fonctionnement non-d�mon. Il peut �tre utilis� pour d�finir toutes les options et toutes les options Java Apache Hadoop gr�ce � la d�finition de l'attribut syst�me.

4.1.2 (commande) _ (sous-commande) _OPTS

Vous pouvez �galement d�finir des options sur la base de chaque sous-commande. Cela permet la cr�ation d'options sp�ciales pour des situations sp�cifiques. La premi�re partie est le mode de commande est utilis�, mais sont en majuscules. La deuxi�me partie de la commande est une commande de sous-utilis�e. Et puis finalement suivi une _OPT cha�ne.

4.1.3 HADOOP_CLASSPATH

scripts Apache Hadoop � plus de contenu en d�finissant cette variable d'environnement seront inject�s dans la commande en cours d'ex�cution classpath. Il est une liste s�par�e des r�pertoires-virgule, des fichiers ou la position g�n�rique.

4.1.4 variables r�glages automatiques

Si l'utilisateur a fourni un ensemble de commun, ils peuvent �tre plac�s dans $ {HOME} /. Fichier Hadoop-env. Toujours lire ce fichier pour initialiser les variables et �crasera tout utilisateur pourrait vouloir personnaliser. Il utilise une syntaxe bash similaire au fichier .bashrc.

4.2 Administrateur de l'environnement

En plus des diff�rents fichiers XML, les administrateurs peuvent configurer il y a deux �l�ments cl�s lors de l'utilisation d'Unix Shell.

4.2.1 (commande) _ (sous-commande) _OPTS

La chose la plus importante est de savoir comment contr�ler une gamme de variables _OPTS travail d�mon. Ces variables doivent contenir tous ces param�tres d�mon.

4.2.2 (commande) _ (sous-commande) _USER

Hadoop est fourni un proc�d� pour effectuer l'utilisateur de v�rifier chaque sous-commande. Bien que cette m�thode est tr�s facile � contourner, il ne devrait pas �tre consid�r� comme une caract�ristique de s�curit�, mais il fournit un m�canisme pour pr�venir les accidents. Par exemple, � condition HDFS_NAMENODE_USER = hdfs se HDFS NameNode et hdfs -daemon commencer commande NameNode pour v�rifier l'utilisateur ex�cutant la commande en v�rifiant si la variable d'environnement de l'utilisateur USER. Cela vaut �galement pour non-d�mon. Avant de permettre la commande Hadoop distcp d'ex�cution fourni HADOOP_DISTCP_USER = jane de l'utilisateur est d�fini sur jane.

4.3 d�veloppeurs environnementaux et les cadres sup�rieurs

4.3.1 Profils Shell

Apache Hadoop permet � des tiers d'ajouter facilement de nouvelles fonctionnalit�s � travers une vari�t� d'interface int�grable. Ce sous-syst�me comprend un code shell, le contenu n�cessaire peut facilement �tre inject�e dans l'installation de base. Le noyau de cette fonction est la notion de fichier de configuration shell. fichier de configuration shell peut �tre ex�cut� � l'extrait en ajoutant jar classpath, les propri�t�s du syst�me Java comme configuration.

4.3.2 API Shell

Le code shell Apache Hadoop dispose d'une biblioth�que de fonctions pour les administrateurs et les d�veloppeurs pour les aider � utiliser les fonctions avanc�es et la gestion de configuration.

4.3.3 acc�s API au niveau utilisateur

Dans .hadoop-env addition, qui permet � un seul utilisateur de r��crire hadoop-env.sh, l'utilisateur peut �tre utilis� .hadooprc. Ceci est la configuration des appels d'environnement shell Apache Hadoop et permet des appels de fonction API shell complet.

4.3.4 dynamique sous-commande

L'utilisation API Shell, des tiers peuvent ajouter leur propre sous-commande au principal script shell Hadoop (Hadoop de, HDFS, mapred, fil). Avant la mise en uvre des sous-commande, les principaux script v�rifie la pr�sence (scriptname) _subcommand_ (sous-commande) fonction. Ce param�tre de fonctionnement est r�gl� sur tous les param�tres de ligne de commande restants.

Le sc�nario d'application

US leader chroniqueur GigaOM technologie blog Derrick Harris nuage de suivi informatique et de la technologie Hadoop pour le temps de nombreuses ann�es, a r�sum� le sc�nario 10 de Hadoop dans un article, pour tout le monde � partager les points suivants:

Voyage en ligne : Actuellement, 80% des sites de voyage en ligne mondiaux sont utilis�s la distribution Cloudera Hadoop fourni par la soci�t�, quel site SearchBI a rapport� l'Expedia �tait parmi eux.
mobile Data : directeur Cloudera des op�rations, a d�clar� les Etats-Unis ont 70 pour cent du t�l�phone intelligent derri�re les services de donn�es sont pris en charge par un Hadoop, qui est, y compris utilisent la technologie Hadoop stockage et traitement des donn�es des donn�es de service sans-fil.
E-commerce : Cette sc�ne devrait �tre tr�s d�termin�e, eBay est l'un des plus grands praticiens. le fournisseur d'�lectricit� domestique dans les stocks de technologie Hadoop �galement tr�s forte.
extraction d'�nergie : Chevron USA Inc. est la deuxi�me plus grande compagnie p�troli�re, leur d�partement informatique de la nation, qui a pr�sent� l'exp�rience de Chevron en utilisant Hadoop, qui utilisent Hadoop pour recueillir et traiter les donn�es, o� les donn�es sont des donn�es sismiques marines afin de trouver l'emplacement des champs de p�trole dans leur .
L'�conomie d'�nergie : En outre, un fournisseur de services d'�nergie Opower utilisant �galement Hadoop, pour fournir les consommateurs � �conomiser des services d'�lectricit�, o� les factures d'�lectricit� des utilisateurs ont �t� l'analyse pr�dictive.
Gestion de l'infrastructure : Ceci est un sc�nario d'application tr�s simple, un utilisateur peut utiliser Hadoop collect�es � partir des serveurs, commutateurs et autres p�riph�riques et analyser les donn�es.
Traitement de l'image : soci�t� de Venture Skybox Imaging utilisant Hadoop pour stocker et traiter les donn�es d'image, des images haute d�finition prises par des satellites pour d�tecter la nouvelle g�ographie.
la d�tection des fraudes : Cette sc�ne touch� par l'utilisateur est relativement faible, les services financiers g�n�raux ou des organismes gouvernementaux seront utilis�s. Utilisez Hadoop pour stocker toutes les donn�es relatives aux transactions des clients, y compris le nombre de donn�es non structur�es pour aider les organisations � trouver des clients d'activit� inhabituelle, la pr�vention de la fraude.
la s�curit� informatique : En plus de g�rer l'organisation de l'infrastructure informatique de l'entreprise, Hadoop peut �galement �tre utilis� pour traiter les donn�es g�n�r�es par une machine pour le d�pistage des attaques de logiciels malveillants ou d'un r�seau.
sant� : L'industrie m�dicale utilise �galement Hadoop, comme Watson d'IBM sera utilis� comme base pour ses services de cluster Hadoop, y compris l'analyse s�mantique et d'autres technologies d'analyse avanc�e. Les institutions m�dicales peuvent utiliser l'analyse s�mantique pour fournir des soins de sant� pour les patients et aider les m�decins � mieux diagnostiquer les patients.

La principale classification de la sc�ne suit que:

Grand stockage de donn�es: stockage distribu� (disque divers nuage, Baidu, ainsi que nuage 360 sont des applications Internet Hadoop)
Traitement du journal: Hadoop bien � ce
Masse calcul�e: Parallel Computing
ETL: extraction de donn�es � l'oracle, mysql, DB2, mongdb et base de donn�es ordinaire
L'analyse des donn�es � l'aide HBase faire: accord avec un grand nombre d'op�rations de lecture et d'�criture -Facebook avec une �volutivit� HBase construit sur la base du syst�me d'analyse des donn�es en temps r�el
l'apprentissage de la machine: comme le projet Apache Mahout (espaces communs: le filtrage collaboratif, le regroupement, la classification)
Moteurs de recherche: Hadoop + Lucene atteindre
Data mining: L'annonce plus populaire Recommand�
Pour lire beaucoup de l'ordre de fichier. HDFS est optimis� pour la lecture s�quentielle, la charge d'acc�s al�atoire pour la charge est �lev�e.
le comportement des utilisateurs de mod�lisation des fonctionnalit�s
recommandation de la publicit� personnalis�e
instruments intelligents recommand�s

6. Ressources recommand�es

6.1 site Web

Je vous recommande le site officiel est Hadoop: http: //hadoop.apache.org/, parce que le site officiel est une technologie source d'information de premi�re main, et peut �tre la plus compl�te et la compr�hension la plus directe de cette technologie, si l'anglais est pas bon , vous pouvez utiliser la traduction de la page Web de Google, le taux correct de 90% pour l'apprentissage d'une comp�tence, il est encore possible. Ou vous pouvez visiter ce site Web, consultez la version chinoise 1.0, bien qu'il ait � 3,0, mais pour la compr�hension de l'aide MapReduce est encore tr�s importante a.

6.2 Livres

"Guide d�finitif Hadoop"

Ce livre est une introduction compl�te � Hadoop, le livre est l'auteur des livres originaux de Tom White ont �t� traduits en anglais, l'auteur a commenc� � contribuer Hadoop depuis 2006, est un haut responsable de la communaut� du d�veloppement Hadoop respect�, Hadoop comp�tent plusieurs domaines de la technologie, des livres Hadoop �crits par lui, tout de suite, pour Hadoop d'entr�e.

"Hadoop Inside"

La raison pour laquelle nous recommandons � initi� la technologie Hadoop � parce que le livre a �t� �crit par Dong Xi-Cheng, il est un ancien pratiquant domaine Hadoop, il Hadoop la technologie est divis�e en trois parties: MapReduce, HDFS, YARN, chaque section en d�tail �laboration.

6.3 Division r�seau

Geeks College cours r�seau

Ce sera toute la vid�o en ligne et la navigation web classe encore, la plupart de la vid�o �tait un peu vieux. Geeks College cours r�seau est recommand�.

Le partage de vid�os Shangxue Tang

En vue des vid�os en ligne la plupart du temps un peu vieux, je vais partager avec tout le monde dans l'apprentissage vid�o Shangxue Tang.

6.4 communaut�

Hadoop Communaut� technique

Les couvertures de la communaut� au sujet de l'information Hadoop, les activit�s li�es blogue, forum, donn�es Hadoop t�l�charger et Hadoop.

7. Une �tude plus approfondie

7.1 papiers d'induction

Voici trois grandes donn�es Google version chinoise du fameux papier, le papier est plus d'informations faisant autorit�. Ici pour partager avec les lecteurs.

version chinoise du syst�me de fichiers Google

Google BigTable version chinoise

Google MapReduce version chinoise

7.2 excellente Bowen

Dong Bowen

La raison pour laquelle je recommande � le blog de Dong � parce qu'il est l'auteur de l'initi� de la technologie Hadoop, la technologie haute praticiens Hadoop et chercheurs, a �t� impliqu� dans le d�veloppement du prototype Hadoop commercial, ainsi que des syst�mes d'exploitation distribu�s, moteur de recherche d'image r�seau � l'�chelle, la planification Hadoop la conception et le d�veloppement et d'autres projets. Sur Hadoop ont leur propre point de vue unique. Disponible � l'adresse: http: //dongxicheng.org/

bigdata_player Bowen

S'il vient juste de commencer Hadoop les lecteurs peuvent lire bigdata_player trois Bowen:

"HDFS Principes de base de Hadoop --- articles", disponible sur: http: //blog.csdn.net/bigdata \ _player / article / d�tails / 51932437

"MapReduce Hadoop Basics --- articles", disponible sur: http: //blog.csdn.net/bigdata \ _player / article / d�tails / 52050400

"Hadoop YARN connaissances de base des principes �nonc�s ---" � l'adresse http: //blog.csdn.net/bigdata \ _player / article / d�tails / 52057176

Les deux look pour la route, pourquoi devraient-ils se soucier de combien de temps pour aller Bowen

Dans le Hadoop d�butant quand, va in�vitablement � Hadoop site officiel pour t�l�charger le package d'installation, et t�l�charger le package d'installation ne peut pas �tre utilis� directement, la n�cessit� de compiler manuellement. Les lecteurs peuvent se r�f�rer � ce billet de blog pour compiler package Hadoop. Disponible � l'adresse: http: //blog.csdn.net/linlinv3/article/details/49358217

Cette question du contenu exclusif, � l'article lu Hadoop � s�rie Selon l'introduction Hadoop, � leur tour, sont le cadre d�taill� pour toute connaissance de HDFS, MapReduce, YARN et Divis� en quatre pousser le contenu dans les prochains jours. Restez � l'�coute pour le contenu ult�rieur.

Route de la soie

Apprenez � conna�tre la Chine

article lu Hadoop (a) | exclusif: Vue d'ensemble