Big Data cours d'apprentissage (I maintenant propre résumé de base zéro)

Pour savoir comment Big Data: Données Science et Big caractéristiques d'apprentissage des données telles que les erreurs concernent les petites séries, chuchotement grandes quantités de données, il y aura des matériaux plus d'apprentissage (1) Big apprentissage de données à être évènementielle, les compétences non motrices: centre de données scientifiques peuvent être faire face au problème. Grande politique de centre de données est l'intelligence axée sur les données à traiter le problème en détail, si c'est le problème de la recherche scientifique, le problème est toujours la prise de décisions d'affaires, ou le gouvernement a traité la question. Donc, pour effacer avant que les problèmes d'apprentissage, de comprendre le problème, le soi-disant recherche, axée sur les politiques axées sur les problèmes après cette fois clair et sélectionner les compétences nécessaires pour les utiliser, de sorte que seul ciblé, fidèle à sa parole Hadoop, grande étincelle d'analyse des données est imprudente. Transaction répondent aux besoins des différentes catégories dans les différentes théorie des directions, des compétences et des choses. Tel que le texte, les pages Web du modèle de langage naturel, avec le changement de séries temporelles de données de modélisation découlent des exigences, plusieurs images audio et vidéo sont la modélisation hybride temporelle, grandes quantités de données de traitement collecte des besoins comme les reptiles, et versé dans un pré-traitement de soutien à l'exportation, les besoins de stockage stockage distribué en nuage, les ressources en nuage à la comptabilité de poignée et autres formes de soutien, la demande de classification comptable, la spéculation, le dessin et d'autres modèles prennent en charge la visualisation des besoins, base de connaissances, aide à la décision et d'autres examens. Ainsi, les questions sont les compétences de résolution plutôt que les compétences à prendre en compte une base de transaction, c'est la première étude pour éviter les malentendus de données importantes. (2) apprendre à faire bon usage des données grand open source, ne répétez pas créer la roue: les compétences scientifiques des données gènes est open source. IT les zones frontalières de l'open source est devenue une tendance irréversible, Android open source afin que les civils de smartphone, laissez-nous dans l'ère de l'Internet mobile, les revenus du matériel intelligente conduira dans l'Internet de l'ère choses à Hadoop et Spark représenté par les grandes données écosystème open source pour accélérer le IOE (IBM, ORACLE, EMC) processus, géant traditionnel contraint à embrasser open source, Google et OpenAI Union open source d'apprentissage en profondeur (avec tensorflow, Torch, Caffe comme représentants) est d'accélérer le développement des compétences de l'intelligence artificielle. Les données scientifiques R et le langage standard de Python est né à cause de l'open source, open source et la prospérité en raison de Nokia parce qu'ils ne peuvent saisir la tendance open source et diminué. Pourquoi open source, grâce à l'industrialisation et de l'informatique réalisée par les membres des principaux domaines de compétences de base des piles et des bibliothèques sont maintenant des choses très sophistiqués, la prochaine étape est la question de savoir comment mettre rapidement ensemble les blocs de construction rapide, sortie rapide, quel que soit est linux, Anroid encore tensorflow, sa bibliothèque de composants de base il suffit d'utiliser les bibliothèques open source existantes, combinée à de nouvelles compétences approche de la fin, la combinaison est construite, rarement repeat-créer la roue. En outre, le développement open source de cette forme de crowdsourcing, est un programme de performance de la communauté du renseignement, une entreprise ne peut pas être ingénieurs mondiaux accumulés développer l'intelligence, tandis que l'étoile sur un projet open source GitHub peut, pour ainsi faire bon usage de la communauté open-source et la programmation du renseignement, ne pas recréer la roue tout, ce sont les grandes données d'apprentissage pour empêcher le second mythe. (3) Big apprentissage de données pour pointer vers une zone non Tandaqiuquan: la science des données à maîtriser la fragmentation du système. Big système d'analyse des données sur la base des compétences de ce qui précède, nous pouvons voir la grande compétences de données profondeur et l'étendue des compétences d'information traditionnelles sont difficiles à comparer. Notre énergie est limitée, dans un court laps de temps est difficile à saisir un certain nombre de domaines de données importantes et les compétences théoriques pour maîtriser les données scientifiques et relier les pièces du système. Quelle est la fragmentation, la fragmentation contient le niveau des transactions et le niveau de compétence, les grandes données sont non seulement Google, Amazon, BAT et d'autres sociétés Internet, toutes les professions, les entreprises qui doivent faire attention à elle trace les données: une ligne de production de capteurs en temps réel exploitation des données d'état, le corps des données des capteurs du véhicule, les données d'équipement ferroviaire à grande vitesse, la surveillance service du trafic de données, les données de cas des institutions médicales, les ministères d'énormes quantités de données, etc. scénarios de transaction et l'analyse des politiques de grandes quantités de données est fragmentée, et analyse des politiques très différents les uns des autres, l'autre, en termes de niveau de compétence, de grandes compétences de données est une taille unique de service dans l'analyse de données et de prise de décision sont attribués à cette catégorie, leur système de compétences est aussi fragmenté. Mais comment maîtriser le système de celui-ci, les grandes données dans différents domaines d'utilisation ont quelque chose dans les compétences clés communes, leur architecture compétences d'architecture est une communication hautement évolutive avec les autorités locales, tels que les systèmes capables de données horizontales de grands projets d'expansion, longitudinalement affaires forte expansion de la planification, soutenir haute tolérance aux pannes et environnements hétérogènes multi-sources, la compatibilité et l'intégration des systèmes existants et ainsi de suite, chacun des systèmes de données doivent tenir compte des problèmes mentionnés ci-dessus. Après avoir appris à maîtriser le système fragmenté de planification et de grandes quantités de données présentées est indissociable des deux précédentes erreurs, les défenseurs de l'utilisation de la coupe à un point, et commencer une pratique de l'utilisation de la catégorie a besoin de quitter, pour obtenir un point de compétence, il y a une certaine fondation puis réduire progressivement analogie pour comprendre le système de compétences. (4) Big Data pour apprendre et pratiquer, ne restez pas assis pontifiant: données scientifiques est encore projet de données? Big données aussi longtemps que l'utilisation des zones spécifiques se combinent à la valeur se produit, la science des données est encore projet de données est grand données d'apprentissage pour dégager les questions clés, une des données papier question académique scientifique OK, mais grand atterrissage d'utilisation des données, si l'effet des données scientifiques conversions de données à l'utilisation du sol d'ingénierie, il est très difficile, ce qui explique pourquoi de nombreuses entreprises mis en doute la valeur scientifique des raisons de données. Sans parler d'une demande pour un tel processus de transformation, mais aussi les besoins de leurs employés regarder à considérer. L'industrie comprennent les organismes gouvernementaux comment gérer l'introduction de la discussion intellectuelle, comment la transformation et l'analyse des données de la valeur de réalisation? La science et les données système Big personnel de recherche des données d'ingénieurs de développement de l'entreprise a dû réfléchir à ces questions cruciales. La question clé maintenant les données principales de la ligne à traiter est des données techniques (données) > Connaissance (Knowledge) > Service (Service), la collecte des données et le traitement, l'analyse du bon sens excavation acquisition, la régularité de bon sens et de l'utilisation des aide à la décision ont continué en service. Face à ces trois questions, l'utilisation de grandes données considérées comme étant l'atterrissage, pour ainsi dire du point de vue de l'apprentissage, DWS est d'apprendre à traiter les grandes quantités de données des questions de politique générale, avec un accent particulier sur des données scientifiques afin d'utiliser la pratique, et la pratique d'être plus importante que la théorie. A partir du modèle, caractéristiques, erreurs, test, test à utiliser, chaque étape doit se demander si elle peut traiter le problème réel, si le modèle peut être illustrative, pas peur de tester et itérative, le modèle et lui-même paquet n'est pas tout-puissant, à utiliser Big Data l'accent sur la robustesse et de l'efficacité du modèle à effet de serre est d'aucune utilité, la formation et les jeux de test pour OK il? Quelle est la taille des données du laboratoire et le plancher d'ingénierie, on ne peut pas être derrière des portes closes, le modèle de convergence pour tout accordé sera bien, le second est de sortir de l'abondance de laboratoire d'amarrage avec la pratique de l'industrie des problèmes de prise de décision, en troisième lieu, des liens et un lien de causalité moins, modèle ne peut pas représenter le lien de causalité ne aider à faire face aux problèmes réels; Quatrièmement, faire attention à des itérations du modèle de produit et de continuer à l'avance et l'optimisation, régler le problème de l'ajustement dynamique de l'apprentissage progressif et nouveau modèle de données. Ainsi, Big apprentissage des données doit faire clairement que je faisais la science des données est encore l'ingénierie de données, ce que chacun a besoin des compétences pour, maintenant à quel stade, sinon les compétences et les compétences qui sont difficiles à apprendre et de grandes données font bon usage. Big Data est maintenant le feu pendant longtemps, veulent toujours comprendre, apprendre ses réalisations à aucun moment, ont enfin temps après le Nouvel An, pour comprendre une partie du matériel, combiné avec ma propre situation, a commencé à organiser un parcours d'apprentissage, il y a un problème de grandes attentes de coaching Dieu . Apprendre la façon dont Linux (shell, architecture haute concurrency, Lucene, Solr) Hadoop (Hadoop, HDFS, MapReduce, fil, ruche, HBase, Sqoop, Zookeeper, flume) l'apprentissage de la machine (R, cornac) Storm (Tempête, kafka, Redis) Spark (scala, étincelle, noyau d'allumage, sql étincelle, une étincelle en continu, MLlib d'étincelle, une étincelle graphx) Python (python, python étincelle) canaux représentant des nuages noms (docker, kvm, OpenStack) expliquent une, Linux Lucene: moteur de recherche architecture texte intégral solr : basé sur le texte service de recherche, une conclusion qui peut être équipé, les fonctions d'évolutivité et d'interrogation sont optimisés et fournir une interface entièrement fonctionnelle pour gérer le Lucene. Deux, HDFS communs de Hadoop: système de stockage distribué comprenant NameNode, DataNode. NameNode: métadonnées, DataNode. DataNode: le nombre de données stockées. fil: MapReduce est en mesure de comprendre le mécanisme de l'harmonie, en substance, le mécanisme de profilage Hadoop, divisé en ResourceManager NodeManager. MapReduce: architecture logicielle, programmation. Ruche: Data Warehouse peut utiliser des requêtes SQL peuvent exécuter Map / Reduce programmes. Les journaux Web utilisés dans le calcul de la tendance ne peuvent pas être utilisés dans les requêtes en temps réel, il faut beaucoup de temps pour revenir les résultats. HBase: base de données. Très appropriés pour les données de requête en temps réel. Facebook Hbase des données audio de magasin avec une analyse en temps réel audio et ZooKeeper: la fiabilité du système harmonieux de grande distribution. Hadoop distribué par synchronisation extrémité Zookeeper, comme une pluralité de NameNode, le commutateur de veille active. Sqoop: base de données de manutention l'autre, touchent les bases de données de transport et HDFS Mahout: apprentissage machine évolutive et de la bibliothèque de l'exploration de données. Utilisé pour faire excavation renvois, la collecte, la classification, fréquente itemset explorons. Chukwa: système de recouvrement des recettes, la surveillance du système distribué à grande échelle, construit sur HDFS et Map / Reduce structure. Afficher, superviser, analyser les résultats. Ambari: pour l'équipement, la gestion et la supervision des clusters Hadoop, selon l'interface Web, conviviale. Deux, Cloudera Cloudera Responsable: Suivi poignée diagnostic intégré Cloudera CCQ: (Cloudera Distribution, y compris Apache Hadoop) Cloudera Hadoop pour apporter les changements appropriés, ne relâchez pas appelé OdVR. Cloudera Flume: les systèmes de collecte des journaux, supportant tous les types de système de journal de l'expéditeur de données personnalisées, utilisées pour recueillir des données. Cloudera Impala: à stocker dans Apache Hadoop HDFS et les données HBase fourni SQL directement interactif requête. Cloudera teinte: dispositif de manipulation web comprend ui teinte, serveur hui, db hui. CDH teinte fournir tous les composants de l'interface de la coquille de l'interface, peut être préparé de la teinte mr. En troisième lieu, l'apprentissage machine / RR: une analyse statistique, langage graphique et environnement d'exploitation, il y a Hadoop-R cornac: Fin des zones fournissant l'apprentissage automatique évolutive algorithme classique, comprenant le regroupement, la classification, référence filtrée, souvent sous-clé explorer similaires, et peut être étendue dans le nuage par Hadoop. Quatre, tempête Tempête: une distribution, à temps réel tolérant aux pannes en continu du système comptable peut être utilisé comme analyse en temps réel, l'apprentissage automatique en ligne, le traitement des flux d'information, la continuité comptable, distribuée RPC, traitement en temps réel audio et mettre à jour la base de données. Kafka: un débit élevé distribué publish-subscribe système audio, capable de gérer toutes les actions données en continu (lecture, recherche et autres) sites prévus dans le consommateur. l'analyse des données log et hors ligne par rapport Hadoop peut être la fin du traitement en temps réel. Après mécanisme de chargement Hadoop maintenant parallèle à la même ligne et hors ligne de traitement audio Redis: c préparée par la parole, le réseau de soutien, en fonction de la durée de vie de la mémoire de journal peut saisir, base de données de valeur de clé. Cinq, Spark Scala: Un langage de programmation Java similaire complètement orienté objet. Spark: fin Spark est commun dans le langage Scala Hadoop MapReduce structure parallèle similaire, sauf Hadoop MapReduce présente des avantages, mais est différent du centre du travail de sortie est des résultats MapReduce peuvent être stockés dans la mémoire, et ne pas besoin de lire et d'écrire HDFS, Spark ainsi mieux en mesure d'appliquer des algorithmes d'apprentissage exploration de données et la machine telles que MapReduce itération de la demande. système de fichiers Hadoop et peuvent fonctionner en parallèle, utilisé une structure de cluster tiers Mesos peut prendre en charge ce comportement. Spark SQL: Je aime l'attention, d'autres Spark en streaming: en temps réel la structure comptable construite sur la Spark, Spark pour gérer de grandes élargi de données de données en continu. Spark MLlib: bibliothèque fin MLlib est Spark est couramment utilisé dans les algorithmes d'apprentissage machine, et maintenant (2014,05) soutenir la classification binaire, la régression, et le regroupement de filtrage collaboratif. Elle comprend également une couche de fond avec une descente de gradient base de l'algorithme d'optimisation. jblas bibliothèque d'algèbre linéaire depuis MLlib, des programmes Fortran depuis longtemps jblas lui-même. Spark GraphX: GraphX API Spark est un schéma parallèle et la comptabilité, le programme peut être fourni sur un traitement Spark stop données, la conclusion peut être facilement et efficacement un ensemble de comptabilité chaîne de montage Fig. jblas: une rapide algèbre linéaire bibliothèque (JAVA). Selon BLAS et LAPACK, les pratiques comptables matrix normes professionnelles, et l'utilisation des installations d'art ATLAS final de pointe et toutes les procédures comptables de la fondation, ce qui rend très rapide. Fortran: programme comptable machines haut de gamme d'abord apparu dans la planification de la parole, largement utilisé dans la catégorie comptabilité sciences et en génie. BLAS: fondation de la bibliothèque de sous-programme d'algèbre linéaire, le programme a été préparé avec beaucoup de bien dans les opérations d'algèbre linéaire. LAPACK: célèbre exposer les logiciels, y compris la résolution des problèmes d'algèbre linéaire numérique les plus courantes dans le calcul de la science et de l'ingénierie, telles que la résolution des équations linéaires, linéaires problème des moindres carrés, des problèmes et des problèmes de valeurs propres valeurs singulières. ATLAS: version optimisée de BLAS linéaire algorithme bibliothèques ne le font pas. Spark Python: Spark est écrit par la langue scala, mais afin de promouvoir et compatible avec l'alimentation de l'interface java et python. Six, Python Python: un orienté objet, la parole de la planification des programmes de comptabilité de type commentaire. Sept canaux comptabilité nuage Docker: utilisation du moteur de conteneurs open source kvm: (Clavier Souris vidéo) de OpenStack: projet cloud open source canaux de traitement comptable

Big données nécessaires pour développer un ressources payant plein [accès libre]

Oracle principal directeur technique depuis de nombreuses années avec soin a créé un système de programme complet [grandes données] doit voir le développement de l'intelligence artificielle, aide complète développer Big Data entrée à base zéro + + + projet pour améliorer les = rémunérés de !

"Saisie de données-Zero Big."

"L'architecture Big Data des composants du système"

« Big data est un package d'installation complète Outils système. »
Un outil indispensable pour Java

Big data est un outil essentiel

"L'information doit-KNOW industrie Big Data."

« La qualité des données Big des cas réels. »

« Programme d'orientation de carrière Big Data »

Enfin, parler, ce qui est plus de tutoriels obtenir chemin!

Recevoir la méthode:

Ou que les mêmes années, les anciennes règles

1. examen, aucune limite de mot, un mot fera!

2. Devenir fan de petites séries à être!

3. La lettre privée Tracy: "Guide de développement Big Data" peut être!

Merci, je vous souhaite l'apprentissage heureux! (Assurez-vous d'obtenir les tutoriels pour apprendre, pratiquer Oh!)
Une grande expérience d'apprentissage des données
Précédent
Qu'est-ce que les grandes données? Résumé des connaissances
Prochain
Chemin ruche Big Data Learning
Qu'est-ce que les grandes applications de données? Il y a trois points clés
Comprendre rapidement la ruche
Ne sous-estimez pas le lourd Musk spatial premier lancement commercial de fusée X, Boeing fusée refroidir
Pourquoi l'Etat devrait développer l'intelligence artificielle et l'intelligence artificielle dans les secteurs clés de l'industrie dans la
notes d'étude Vision: gradient machine apprécié le fait que la direction inverse Apprentissage
Les deux parents s'enfuyant, abusés par la vie, comptant sur le courage et le talent, elle a contre-attaqué la gagnante adulte
notes d'étude Vision: réseau machine de BP Commentaires
École maternelle pendant 17 ans, la plupart des best-seller des livres d'images, de livres pour enfants auteur Qinshou ces méthodes parentales
notes d'étude Vision Machine: Knn basé sur un algorithme simple de reconnaissance numérique manuscrite
Plein d'énergie positive, le score de cresson 8,9, ce dessin animé d'enfance vous l'avez vu?
Quand les enfants rencontrent un livre: comment utiliser des livres d'images pour nourrir l'enfant?