article lu Hadoop (a) | exclusif: Vue d'ensemble

Alors que l'économie mondiale continue de se développer, la grande époque de données était venu tranquillement, et est à la base des environnements grand de données Hadoop, veulent la grande industrie de la saisie des données d'abord besoin de comprendre la connaissance de Hadoop. Au début de 2017 apache émis Hadoop3.0, signifie aussi qu'il ya toujours un groupe de personnes sur Hadoop constamment peaufiné, non seulement, chaque version commerciale de Hadoop a aussi beaucoup d'entreprises utilisent, ce qui confirme également sa valeur commerciale.

Les lecteurs peuvent lire, « l'article lu Hadoop » série d'articles, il y a une bonne compréhension de la technologie Hadoop, qui couvre tous les points de connaissances Hadoop site officiel et convivial, l'anglais ne sont pas bons lecteurs peuvent comprendre en lisant cet article Hadoop.

Ce problème de contenu exclusif, « l'article lu Hadoop » série seront introduites d'abord basé Hadoop, puis introduit un HDFS cadre détaillé, MapReduce, tous les points de connaissances, YARN divisé en quatre pousser le contenu dans les prochains jours. Restez à l'écoute pour le contenu ultérieur.

1. introduction

1.1 Hadoop Vue d'ensemble

Hadoop est un très fiable, hautement évolutive calcul distribué des logiciels open source. Il est capable de permettre une grande quantité de traitement des données au moyen d'un cadre simple pour le modèle de programmation distribuée dans un cluster informatique. Sa taille peut être conçue à partir d'un seul serveur à des milliers de machines, dont chacun peut fournir des fonctions de calcul et de stockage local. Plutôt que de compter sur le matériel à l'efficacité de support.

Hadoop est le fondateur Doug Cutting, mis au point au cours du projet inaugural Yahoo Hadoop, principalement parce que les gens sont intéressés par cette étude par rapport au moteur de recherche, puis utilisez la technologie est Lucene et Nutch.

1.2 Lucene et Nutch

  • Lucene

Est-ce une trousse d'outils du moteur de recherche open source texte intégral, il est un moteur de recherche complet texte intégral, mais un cadre pour un moteur de recherche en texte intégral, fournissant un moteur de recherche complet et les moteurs de recherche, le but du moteur d'analyse de texte, Lucene est un logiciel il fournit aux développeurs une boîte à outils facile à utiliser pour faciliter la réalisation de la fonction du système cible de recherche en texte intégral, ou comme base pour construire un moteur de recherche complet en texte intégral.

  • nutch

Nutch est une implémentation Java open source du moteur de recherche, qui fournit tous les outils nécessaires pour faire fonctionner notre propre moteur de recherche, y compris les robots d'exploration de recherche en texte intégral et Web.

1.3 génération Hadoop

Doug coupe lors de l'utilisation nutch Lucene rencontré avec les données et les défis informatiques. Il y a deux questions, comment ramper d'une part un grand nombre de pages stockées, d'autre part, est l'algorithme de recherche encore à optimiser, donc il a passé deux ans pour atteindre le DFS et MapReduce, une version miniature de Nutch, en 2005 Hadoop dans le cadre du sous-projet Nutch Lucene a officiellement présenté Apache Foundation. Mars 2006 MapReduce et Nutch Distributed File System (NDFS) ont été incorporés dans le projet Hadoop.

Source 1.4 Hadoop idées de projets

idée de projet Hadoop vient de trois documents de Google

  • GFS- > HDFS

  • Carte-Reduce- > Carte-Réduire

  • Bigtable- > Hbase

Composé de 1,5 Hadoop

  • Hadoop Distributed File System (HDFS) Distributed File System

Fournir un accès à une application de données du système de fichiers distribués à haut débit.

  • Hadoop YARN

Une paire planification des tâches et le cadre de gestion des ressources en cluster.

  • Hadoop MapReduce

fils à base de grands ensembles de données dans les systèmes de traitement parallèle.

2. Les trois modes de fonctionnement

2.1 Mode autonome (local)

Ce modèle fonctionne sur une seule machine, sans système de fichiers distribué, mais directement lire et écrire le système de fichiers du système d'exploitation local. Il n'y aura pas de démon en mode autonome (autonome), toutes choses sont en cours d'exécution sur une machine virtuelle Java. Là encore, il n'y a pas de DFS, en utilisant un système de fichiers local. Mode autonome est adapté pour exécuter le processus de développement de programme MapReduce, un motif qui est le moins utilisé.

2.2 en mode pseudo-distribué

Ce modèle fonctionne sur une seule machine, mais pour imiter le fonctionnement distribué des différents types de nuds avec différents processus Java, pseudo-distribué (pseudo) applicables au développement et à l'environnement de test, dans ce mode, tous les daemons sont les mêmes en cours d'exécution sur la machine.

2.3 entièrement distribués

Ce modèle est couramment utilisé dans l'environnement de production, l'utilisation des hôtes N forment un cluster Hadoop, chaque hôte démon Hadoop est en cours d'exécution. Ici, il y aura une course de NameNode hôte, DataNode exécuter l'hôte et l'hôte et d'autres ResourceManager en cours d'exécution. Dans un environnement distribué, le noeud maître et le noeud esclave seront séparés.

3. Guide de commande

3.1 Vue d'ensemble

La commande de tous Hadoop et suivre la même structure de base:

Utilisation: SHELLCOMMAND      

3.2 Option shell

Toutes les commandes shell acceptent un ensemble d'options. Pour une commande, ne tiendra pas compte de ces options. Par exemple, les commandes à exécuter uniquement sur un --hostnames de transfert hôte unique sont ignorés.

3.3 Options générales

De nombreux sous-commande pour suivre un ensemble d'options de configuration pour modifier leur comportement:

3.4 Hadoop Commandement général

Toutes ces commandes sont exécutées de commande shell hadoop.

3.4.1 Commande utilisateur

commande de cluster Hadoop utiles à l'utilisateur.

  • archives

fichier Hadoop est un fichier spécialement formaté, un fichier est associé à un système de fichiers Hadoop de répertoire, l'extension de fichier Hadoop est .har, Hadoop répertoire archive contient le fichier métadonnées (_index et _masterindex) et les fichiers de données (* partiel) ce fichier _index contient les noms de tous les fichiers et l'emplacement de la partie correspondante de son dossier.

  • checknative

Cette commande vérifie la disponibilité de Hadoop code natif.

  • classpath

Imprimer chemin de classe nécessaire pour obtenir pot Hadoop et les bibliothèques nécessaires. Si aucun argument, le jeu de chemin de classe par le script de commande d'impression, qui peut contenir des caractères génériques dans l'entrée du chemin de classe. Autres options pour imprimer le classpath ou le classpath écrit dans le fichier manifeste dans le pot après expansion générique. Ce dernier est utile, et ne peut pas utiliser des caractères génériques classe extension supporte la trajectoire maximale est supérieure à la longueur de l'environnement de ligne de commande.

  • lettres de créance

Le fournisseur de commande d'informations d'identification de gestion interne et les informations d'identification de mot de passe. Les applications de support de l'API CredentialProvider de Hadoop divisé, et les exigences d'application fendus comment stocker le mot de passe requis. Pour indiquer l'emplacement et le type d'un fournisseur, la nécessité d'ajouter noyau site.xml hadoop.security.credential.provider. Élément de configuration de chemin, ou par des options de commande jeu instruction -provider. chemin du fournisseur est une chaîne d'une chaîne d'URL séparées par des virgules. Ces chaînes décrivent le type et l'emplacement du fournisseur.

  • distch

Une fois pour changer la propriété et les autorisations de nombreux fichiers.

  • distcp

copier récursivement fichiers ou répertoires.

  • dtutil

Acquisition et utilitaires de gestion dans le fichier d'informations d'identification de jeton de délégation de Hadoop. Il est destiné à remplacer une commande plus simples fetchdt. sous-commandes multiples, chacun avec son propre drapeau et options. Pour chaque sous-commande écrit le fichier, l'option -format pour spécifier le format interne à l'utilisation. java est fetchdt correspondre à l'ancien format. La valeur par défaut est protobuf. Pour chaque sous-commande pour se connecter au service, fournissant kerberos nom principal pour spécifier le fichier keytab utilisé pour l'authentification et le drapeau de commodité.

  • fs

Et script similaire de DSF.

  • gridmix

Hadoop Gridmix est la référence pour le système Hadoop. Il a fallu une évaluation à grande échelle de chaque module du système de traitement de données, comprenant: des données de génération pour générer et envoyer le travail, le temps de comptage de fin de travail.

  • pot

Exécuter un fichier jar.

  • jnipath

Imprimer calcul java.library.path.

  • kerbname

règles auth_to_local en nommant les convertis du corps en nom d'utilisateur Hadoop.

  • clé

Par KeyProvider gérer les clés.

  • km

Exécution KMS, le serveur de gestion des clés.

  • trace

Afficher et modifier les paramètres de suivi Hadoop.

  • version

Version imprimable.

  • classname

Exécuter une classe nommée classname. Classe doit faire partie du paquet.

  • envvars

Afficher la variable d'environnement Hadoop.

3.4.2 Commande de gestion

  • daemonlog

Obtenez / régler le démon niveau de journalisation identifié par le nom de classe est défini dans le journal. Par défaut, la commande envoie une requête HTTP, mais cela peut être contournée en utilisant une demande d'envoyer paramètre demande HTTPS -protocol https.

fichier 3.4.3

etc / Hadoop / hadoop-env.sh

Ce fichier stocke tous ensemble global de commande shell Hadoop.

etc / hadoop-user-functions.sh

Ce fichier permet aux utilisateurs avancés de remplacer des fonctions shell.

~ / .Hadooprc

Il stocke l'environnement personnel de l'utilisateur individuel. Et après hadoop-env.sh traitement des documents hadoop-user-functions.sh, et peut contenir les mêmes paramètres.

4. shell UNIX Guide

4.1 importantes variables d'environnement de l'utilisateur final

Il y a beaucoup de variables d'environnement logiciel Apache Hadoop pour contrôler divers aspects. (Voir fichiers hadoop-env.sh et connexes.) Certaines de ces variables d'environnement dédiées à aider les utilisateurs finaux de gérer leur fonctionnement.

4.1.1 HADOOP_CLIENT_OPTS

Cette variable d'environnement pour tous les utilisateurs finaux, le fonctionnement non-démon. Il peut être utilisé pour définir toutes les options et toutes les options Java Apache Hadoop grâce à la définition de l'attribut système.

4.1.2 (commande) _ (sous-commande) _OPTS

Vous pouvez également définir des options sur la base de chaque sous-commande. Cela permet la création d'options spéciales pour des situations spécifiques. La première partie est le mode de commande est utilisé, mais sont en majuscules. La deuxième partie de la commande est une commande de sous-utilisée. Et puis finalement suivi une _OPT chaîne.

4.1.3 HADOOP_CLASSPATH

scripts Apache Hadoop à plus de contenu en définissant cette variable d'environnement seront injectés dans la commande en cours d'exécution classpath. Il est une liste séparée des répertoires-virgule, des fichiers ou la position générique.

4.1.4 variables réglages automatiques

Si l'utilisateur a fourni un ensemble de commun, ils peuvent être placés dans $ {HOME} /. Fichier Hadoop-env. Toujours lire ce fichier pour initialiser les variables et écrasera tout utilisateur pourrait vouloir personnaliser. Il utilise une syntaxe bash similaire au fichier .bashrc.

4.2 Administrateur de l'environnement

En plus des différents fichiers XML, les administrateurs peuvent configurer il y a deux éléments clés lors de l'utilisation d'Unix Shell.

4.2.1 (commande) _ (sous-commande) _OPTS

La chose la plus importante est de savoir comment contrôler une gamme de variables _OPTS travail démon. Ces variables doivent contenir tous ces paramètres démon.

4.2.2 (commande) _ (sous-commande) _USER

Hadoop est fourni un procédé pour effectuer l'utilisateur de vérifier chaque sous-commande. Bien que cette méthode est très facile à contourner, il ne devrait pas être considéré comme une caractéristique de sécurité, mais il fournit un mécanisme pour prévenir les accidents. Par exemple, à condition HDFS_NAMENODE_USER = hdfs se HDFS NameNode et hdfs -daemon commencer commande NameNode pour vérifier l'utilisateur exécutant la commande en vérifiant si la variable d'environnement de l'utilisateur USER. Cela vaut également pour non-démon. Avant de permettre la commande Hadoop distcp d'exécution fourni HADOOP_DISTCP_USER = jane de l'utilisateur est défini sur jane.

4.3 développeurs environnementaux et les cadres supérieurs

4.3.1 Profils Shell

Apache Hadoop permet à des tiers d'ajouter facilement de nouvelles fonctionnalités à travers une variété d'interface intégrable. Ce sous-système comprend un code shell, le contenu nécessaire peut facilement être injectée dans l'installation de base. Le noyau de cette fonction est la notion de fichier de configuration shell. fichier de configuration shell peut être exécuté à l'extrait en ajoutant jar classpath, les propriétés du système Java comme configuration.

4.3.2 API Shell

Le code shell Apache Hadoop dispose d'une bibliothèque de fonctions pour les administrateurs et les développeurs pour les aider à utiliser les fonctions avancées et la gestion de configuration.

4.3.3 accès API au niveau utilisateur

Dans .hadoop-env addition, qui permet à un seul utilisateur de réécrire hadoop-env.sh, l'utilisateur peut être utilisé .hadooprc. Ceci est la configuration des appels d'environnement shell Apache Hadoop et permet des appels de fonction API shell complet.

4.3.4 dynamique sous-commande

L'utilisation API Shell, des tiers peuvent ajouter leur propre sous-commande au principal script shell Hadoop (Hadoop de, HDFS, mapred, fil). Avant la mise en uvre des sous-commande, les principaux script vérifie la présence (scriptname) _subcommand_ (sous-commande) fonction. Ce paramètre de fonctionnement est réglé sur tous les paramètres de ligne de commande restants.

Le scénario d'application

US leader chroniqueur GigaOM technologie blog Derrick Harris nuage de suivi informatique et de la technologie Hadoop pour le temps de nombreuses années, a résumé le scénario 10 de Hadoop dans un article, pour tout le monde à partager les points suivants:

  • Voyage en ligne : Actuellement, 80% des sites de voyage en ligne mondiaux sont utilisés la distribution Cloudera Hadoop fourni par la société, quel site SearchBI a rapporté l'Expedia était parmi eux.

  • mobile Data : directeur Cloudera des opérations, a déclaré les Etats-Unis ont 70 pour cent du téléphone intelligent derrière les services de données sont pris en charge par un Hadoop, qui est, y compris utilisent la technologie Hadoop stockage et traitement des données des données de service sans-fil.

  • E-commerce : Cette scène devrait être très déterminée, eBay est l'un des plus grands praticiens. le fournisseur d'électricité domestique dans les stocks de technologie Hadoop également très forte.

  • extraction d'énergie : Chevron USA Inc. est la deuxième plus grande compagnie pétrolière, leur département informatique de la nation, qui a présenté l'expérience de Chevron en utilisant Hadoop, qui utilisent Hadoop pour recueillir et traiter les données, où les données sont des données sismiques marines afin de trouver l'emplacement des champs de pétrole dans leur .

  • L'économie d'énergie : En outre, un fournisseur de services d'énergie Opower utilisant également Hadoop, pour fournir les consommateurs à économiser des services d'électricité, où les factures d'électricité des utilisateurs ont été l'analyse prédictive.

  • Gestion de l'infrastructure : Ceci est un scénario d'application très simple, un utilisateur peut utiliser Hadoop collectées à partir des serveurs, commutateurs et autres périphériques et analyser les données.

  • Traitement de l'image : société de Venture Skybox Imaging utilisant Hadoop pour stocker et traiter les données d'image, des images haute définition prises par des satellites pour détecter la nouvelle géographie.

  • la détection des fraudes : Cette scène touché par l'utilisateur est relativement faible, les services financiers généraux ou des organismes gouvernementaux seront utilisés. Utilisez Hadoop pour stocker toutes les données relatives aux transactions des clients, y compris le nombre de données non structurées pour aider les organisations à trouver des clients d'activité inhabituelle, la prévention de la fraude.

  • la sécurité informatique : En plus de gérer l'organisation de l'infrastructure informatique de l'entreprise, Hadoop peut également être utilisé pour traiter les données générées par une machine pour le dépistage des attaques de logiciels malveillants ou d'un réseau.

  • santé : L'industrie médicale utilise également Hadoop, comme Watson d'IBM sera utilisé comme base pour ses services de cluster Hadoop, y compris l'analyse sémantique et d'autres technologies d'analyse avancée. Les institutions médicales peuvent utiliser l'analyse sémantique pour fournir des soins de santé pour les patients et aider les médecins à mieux diagnostiquer les patients.

La principale classification de la scène suit que:

  • Grand stockage de données: stockage distribué (disque divers nuage, Baidu, ainsi que nuage 360 sont des applications Internet Hadoop)

  • Traitement du journal: Hadoop bien à ce

  • Masse calculée: Parallel Computing

  • ETL: extraction de données à l'oracle, mysql, DB2, mongdb et base de données ordinaire

  • L'analyse des données à l'aide HBase faire: accord avec un grand nombre d'opérations de lecture et d'écriture -Facebook avec une évolutivité HBase construit sur la base du système d'analyse des données en temps réel

  • l'apprentissage de la machine: comme le projet Apache Mahout (espaces communs: le filtrage collaboratif, le regroupement, la classification)

  • Moteurs de recherche: Hadoop + Lucene atteindre

  • Data mining: L'annonce plus populaire Recommandé

  • Pour lire beaucoup de l'ordre de fichier. HDFS est optimisé pour la lecture séquentielle, la charge d'accès aléatoire pour la charge est élevée.

  • le comportement des utilisateurs de modélisation des fonctionnalités

  • recommandation de la publicité personnalisée

  • instruments intelligents recommandés

6. Ressources recommandées

6.1 site Web

Je vous recommande le site officiel est Hadoop: http: //hadoop.apache.org/, parce que le site officiel est une technologie source d'information de première main, et peut être la plus complète et la compréhension la plus directe de cette technologie, si l'anglais est pas bon , vous pouvez utiliser la traduction de la page Web de Google, le taux correct de 90% pour l'apprentissage d'une compétence, il est encore possible. Ou vous pouvez visiter ce site Web, consultez la version chinoise 1.0, bien qu'il ait à 3,0, mais pour la compréhension de l'aide MapReduce est encore très importante a.

6.2 Livres

  • "Guide définitif Hadoop"

Ce livre est une introduction complète à Hadoop, le livre est l'auteur des livres originaux de Tom White ont été traduits en anglais, l'auteur a commencé à contribuer Hadoop depuis 2006, est un haut responsable de la communauté du développement Hadoop respecté, Hadoop compétent plusieurs domaines de la technologie, des livres Hadoop écrits par lui, tout de suite, pour Hadoop d'entrée.

  • "Hadoop Inside"

La raison pour laquelle nous recommandons « initié la technologie Hadoop » parce que le livre a été écrit par Dong Xi-Cheng, il est un ancien pratiquant domaine Hadoop, il Hadoop la technologie est divisée en trois parties: MapReduce, HDFS, YARN, chaque section en détail élaboration.

6.3 Division réseau

  • Geeks College cours réseau

Ce sera toute la vidéo en ligne et la navigation web classe encore, la plupart de la vidéo était un peu vieux. Geeks College cours réseau est recommandé.

  • Le partage de vidéos Shangxue Tang

En vue des vidéos en ligne la plupart du temps un peu vieux, je vais partager avec tout le monde dans l'apprentissage vidéo Shangxue Tang.

6.4 communauté

  • Hadoop Communauté technique

Les couvertures de la communauté au sujet de l'information Hadoop, les activités liées blogue, forum, données Hadoop télécharger et Hadoop.

7. Une étude plus approfondie

7.1 papiers d'induction

Voici trois grandes données Google version chinoise du fameux papier, le papier est plus d'informations faisant autorité. Ici pour partager avec les lecteurs.

  • version chinoise du système de fichiers Google

  • Google BigTable version chinoise

  • Google MapReduce version chinoise

7.2 excellente Bowen

  • Dong Bowen

La raison pour laquelle je recommande « le blog de Dong » parce qu'il est l'auteur de l'initié de la technologie Hadoop, la technologie haute praticiens Hadoop et chercheurs, a été impliqué dans le développement du prototype Hadoop commercial, ainsi que des systèmes d'exploitation distribués, moteur de recherche d'image réseau à l'échelle, la planification Hadoop la conception et le développement et d'autres projets. Sur Hadoop ont leur propre point de vue unique. Disponible à l'adresse: http: //dongxicheng.org/

  • bigdata_player Bowen

S'il vient juste de commencer Hadoop les lecteurs peuvent lire bigdata_player trois Bowen:

"HDFS Principes de base de Hadoop --- articles", disponible sur: http: //blog.csdn.net/bigdata \ _player / article / détails / 51932437

"MapReduce Hadoop Basics --- articles", disponible sur: http: //blog.csdn.net/bigdata \ _player / article / détails / 52050400

"Hadoop YARN connaissances de base des principes énoncés ---" à l'adresse http: //blog.csdn.net/bigdata \ _player / article / détails / 52057176

  • Les deux look pour la route, pourquoi devraient-ils se soucier de combien de temps pour aller Bowen

Dans le Hadoop débutant quand, va inévitablement à Hadoop site officiel pour télécharger le package d'installation, et télécharger le package d'installation ne peut pas être utilisé directement, la nécessité de compiler manuellement. Les lecteurs peuvent se référer à ce billet de blog pour compiler package Hadoop. Disponible à l'adresse: http: //blog.csdn.net/linlinv3/article/details/49358217

Cette question du contenu exclusif, « l'article lu Hadoop » série Selon l'introduction Hadoop, à leur tour, sont le cadre détaillé pour toute connaissance de HDFS, MapReduce, YARN et Divisé en quatre pousser le contenu dans les prochains jours. Restez à l'écoute pour le contenu ultérieur.

premier modèle de voiture produite en série S01-Zero terme liste
Précédent
Rockets dans la « Rolls Royce » est ainsi à l'évaluation, vous pouvez lire un commentaire
Prochain
Notre utilisation de la ponctuation moderne et complète aujourd'hui 99 ans
Exclusive | classe d'application dans l'imagerie médicale du cerveau informatique (PPT télécharger)
traitement des eaux usées du village Caidian, 70.000 ménages bénéficieront
la force du service de lutte contre le combat en mode combat, 1919 paires de 11150 millions de chiffre d'affaires cette année
Exclusive | lire une reconnaissance vocale de texte (Ressources d'apprentissage ci-joint)
Luneng 96 minutes Lore soufflés! arbitre Super League et provoqué une polémique énorme, ne comprenait pas le monde
Exclusif | Un article pour comprendre le deep learning (avec des ressources d'apprentissage)
Après la première faiblesse de la sécurité nationale exposée, Schmidt a fait un changement, il pourrait durer un casse-tête du championnat!
Microsoft Construire 2017 Jour 2: Windows 10 pour atteindre « multi-plateforme, multi-appareils », MR nouveau en vente cette année
Chef des chasseurs de têtes de données expliquer les grandes données et du personnel d'Amnesty International ont besoin de maîtriser les compétences de base, la carrière et les tendances futures
Restaurant avenir? De la cuisine à la livraison complète par le robot
vague de visualisation flux d'information de la construction d'un monde numérique | exclusif