Big Data cours d'apprentissage (I maintenant propre r�sum� de base z�ro)

Pour savoir comment Big Data: Donn�es Science et Big caract�ristiques d'apprentissage des donn�es telles que les erreurs concernent les petites s�ries, chuchotement grandes quantit�s de donn�es, il y aura des mat�riaux plus d'apprentissage (1) Big apprentissage de donn�es � �tre �v�nementielle, les comp�tences non motrices: centre de donn�es scientifiques peuvent �tre faire face au probl�me. Grande politique de centre de donn�es est l'intelligence ax�e sur les donn�es � traiter le probl�me en d�tail, si c'est le probl�me de la recherche scientifique, le probl�me est toujours la prise de d�cisions d'affaires, ou le gouvernement a trait� la question. Donc, pour effacer avant que les probl�mes d'apprentissage, de comprendre le probl�me, le soi-disant recherche, ax�e sur les politiques ax�es sur les probl�mes apr�s cette fois clair et s�lectionner les comp�tences n�cessaires pour les utiliser, de sorte que seul cibl�, fid�le � sa parole Hadoop, grande �tincelle d'analyse des donn�es est imprudente. Transaction r�pondent aux besoins des diff�rentes cat�gories dans les diff�rentes th�orie des directions, des comp�tences et des choses. Tel que le texte, les pages Web du mod�le de langage naturel, avec le changement de s�ries temporelles de donn�es de mod�lisation d�coulent des exigences, plusieurs images audio et vid�o sont la mod�lisation hybride temporelle, grandes quantit�s de donn�es de traitement collecte des besoins comme les reptiles, et vers� dans un pr�-traitement de soutien � l'exportation, les besoins de stockage stockage distribu� en nuage, les ressources en nuage � la comptabilit� de poign�e et autres formes de soutien, la demande de classification comptable, la sp�culation, le dessin et d'autres mod�les prennent en charge la visualisation des besoins, base de connaissances, aide � la d�cision et d'autres examens. Ainsi, les questions sont les comp�tences de r�solution plut�t que les comp�tences � prendre en compte une base de transaction, c'est la premi�re �tude pour �viter les malentendus de donn�es importantes. (2) apprendre � faire bon usage des donn�es grand open source, ne r�p�tez pas cr�er la roue: les comp�tences scientifiques des donn�es g�nes est open source. IT les zones frontali�res de l'open source est devenue une tendance irr�versible, Android open source afin que les civils de smartphone, laissez-nous dans l'�re de l'Internet mobile, les revenus du mat�riel intelligente conduira dans l'Internet de l'�re choses � Hadoop et Spark repr�sent� par les grandes donn�es �cosyst�me open source pour acc�l�rer le IOE (IBM, ORACLE, EMC) processus, g�ant traditionnel contraint � embrasser open source, Google et OpenAI Union open source d'apprentissage en profondeur (avec tensorflow, Torch, Caffe comme repr�sentants) est d'acc�l�rer le d�veloppement des comp�tences de l'intelligence artificielle. Les donn�es scientifiques R et le langage standard de Python est n� � cause de l'open source, open source et la prosp�rit� en raison de Nokia parce qu'ils ne peuvent saisir la tendance open source et diminu�. Pourquoi open source, gr�ce � l'industrialisation et de l'informatique r�alis�e par les membres des principaux domaines de comp�tences de base des piles et des biblioth�ques sont maintenant des choses tr�s sophistiqu�s, la prochaine �tape est la question de savoir comment mettre rapidement ensemble les blocs de construction rapide, sortie rapide, quel que soit est linux, Anroid encore tensorflow, sa biblioth�que de composants de base il suffit d'utiliser les biblioth�ques open source existantes, combin�e � de nouvelles comp�tences approche de la fin, la combinaison est construite, rarement repeat-cr�er la roue. En outre, le d�veloppement open source de cette forme de crowdsourcing, est un programme de performance de la communaut� du renseignement, une entreprise ne peut pas �tre ing�nieurs mondiaux accumul�s d�velopper l'intelligence, tandis que l'�toile sur un projet open source GitHub peut, pour ainsi faire bon usage de la communaut� open-source et la programmation du renseignement, ne pas recr�er la roue tout, ce sont les grandes donn�es d'apprentissage pour emp�cher le second mythe. (3) Big apprentissage de donn�es pour pointer vers une zone non Tandaqiuquan: la science des donn�es � ma�triser la fragmentation du syst�me. Big syst�me d'analyse des donn�es sur la base des comp�tences de ce qui pr�c�de, nous pouvons voir la grande comp�tences de donn�es profondeur et l'�tendue des comp�tences d'information traditionnelles sont difficiles � comparer. Notre �nergie est limit�e, dans un court laps de temps est difficile � saisir un certain nombre de domaines de donn�es importantes et les comp�tences th�oriques pour ma�triser les donn�es scientifiques et relier les pi�ces du syst�me. Quelle est la fragmentation, la fragmentation contient le niveau des transactions et le niveau de comp�tence, les grandes donn�es sont non seulement Google, Amazon, BAT et d'autres soci�t�s Internet, toutes les professions, les entreprises qui doivent faire attention � elle trace les donn�es: une ligne de production de capteurs en temps r�el exploitation des donn�es d'�tat, le corps des donn�es des capteurs du v�hicule, les donn�es d'�quipement ferroviaire � grande vitesse, la surveillance service du trafic de donn�es, les donn�es de cas des institutions m�dicales, les minist�res d'�normes quantit�s de donn�es, etc. sc�narios de transaction et l'analyse des politiques de grandes quantit�s de donn�es est fragment�e, et analyse des politiques tr�s diff�rents les uns des autres, l'autre, en termes de niveau de comp�tence, de grandes comp�tences de donn�es est une taille unique de service dans l'analyse de donn�es et de prise de d�cision sont attribu�s � cette cat�gorie, leur syst�me de comp�tences est aussi fragment�. Mais comment ma�triser le syst�me de celui-ci, les grandes donn�es dans diff�rents domaines d'utilisation ont quelque chose dans les comp�tences cl�s communes, leur architecture comp�tences d'architecture est une communication hautement �volutive avec les autorit�s locales, tels que les syst�mes capables de donn�es horizontales de grands projets d'expansion, longitudinalement affaires forte expansion de la planification, soutenir haute tol�rance aux pannes et environnements h�t�rog�nes multi-sources, la compatibilit� et l'int�gration des syst�mes existants et ainsi de suite, chacun des syst�mes de donn�es doivent tenir compte des probl�mes mentionn�s ci-dessus. Apr�s avoir appris � ma�triser le syst�me fragment� de planification et de grandes quantit�s de donn�es pr�sent�es est indissociable des deux pr�c�dentes erreurs, les d�fenseurs de l'utilisation de la coupe � un point, et commencer une pratique de l'utilisation de la cat�gorie a besoin de quitter, pour obtenir un point de comp�tence, il y a une certaine fondation puis r�duire progressivement analogie pour comprendre le syst�me de comp�tences. (4) Big Data pour apprendre et pratiquer, ne restez pas assis pontifiant: donn�es scientifiques est encore projet de donn�es? Big donn�es aussi longtemps que l'utilisation des zones sp�cifiques se combinent � la valeur se produit, la science des donn�es est encore projet de donn�es est grand donn�es d'apprentissage pour d�gager les questions cl�s, une des donn�es papier question acad�mique scientifique OK, mais grand atterrissage d'utilisation des donn�es, si l'effet des donn�es scientifiques conversions de donn�es � l'utilisation du sol d'ing�nierie, il est tr�s difficile, ce qui explique pourquoi de nombreuses entreprises mis en doute la valeur scientifique des raisons de donn�es. Sans parler d'une demande pour un tel processus de transformation, mais aussi les besoins de leurs employ�s regarder � consid�rer. L'industrie comprennent les organismes gouvernementaux comment g�rer l'introduction de la discussion intellectuelle, comment la transformation et l'analyse des donn�es de la valeur de r�alisation? La science et les donn�es syst�me Big personnel de recherche des donn�es d'ing�nieurs de d�veloppement de l'entreprise a d� r�fl�chir � ces questions cruciales. La question cl� maintenant les donn�es principales de la ligne � traiter est des donn�es techniques (donn�es) > Connaissance (Knowledge) > Service (Service), la collecte des donn�es et le traitement, l'analyse du bon sens excavation acquisition, la r�gularit� de bon sens et de l'utilisation des aide � la d�cision ont continu� en service. Face � ces trois questions, l'utilisation de grandes donn�es consid�r�es comme �tant l'atterrissage, pour ainsi dire du point de vue de l'apprentissage, DWS est d'apprendre � traiter les grandes quantit�s de donn�es des questions de politique g�n�rale, avec un accent particulier sur des donn�es scientifiques afin d'utiliser la pratique, et la pratique d'�tre plus importante que la th�orie. A partir du mod�le, caract�ristiques, erreurs, test, test � utiliser, chaque �tape doit se demander si elle peut traiter le probl�me r�el, si le mod�le peut �tre illustrative, pas peur de tester et it�rative, le mod�le et lui-m�me paquet n'est pas tout-puissant, � utiliser Big Data l'accent sur la robustesse et de l'efficacit� du mod�le � effet de serre est d'aucune utilit�, la formation et les jeux de test pour OK il? Quelle est la taille des donn�es du laboratoire et le plancher d'ing�nierie, on ne peut pas �tre derri�re des portes closes, le mod�le de convergence pour tout accord� sera bien, le second est de sortir de l'abondance de laboratoire d'amarrage avec la pratique de l'industrie des probl�mes de prise de d�cision, en troisi�me lieu, des liens et un lien de causalit� moins, mod�le ne peut pas repr�senter le lien de causalit� ne aider � faire face aux probl�mes r�els; Quatri�mement, faire attention � des it�rations du mod�le de produit et de continuer � l'avance et l'optimisation, r�gler le probl�me de l'ajustement dynamique de l'apprentissage progressif et nouveau mod�le de donn�es. Ainsi, Big apprentissage des donn�es doit faire clairement que je faisais la science des donn�es est encore l'ing�nierie de donn�es, ce que chacun a besoin des comp�tences pour, maintenant � quel stade, sinon les comp�tences et les comp�tences qui sont difficiles � apprendre et de grandes donn�es font bon usage. Big Data est maintenant le feu pendant longtemps, veulent toujours comprendre, apprendre ses r�alisations � aucun moment, ont enfin temps apr�s le Nouvel An, pour comprendre une partie du mat�riel, combin� avec ma propre situation, a commenc� � organiser un parcours d'apprentissage, il y a un probl�me de grandes attentes de coaching Dieu . Apprendre la fa�on dont Linux (shell, architecture haute concurrency, Lucene, Solr) Hadoop (Hadoop, HDFS, MapReduce, fil, ruche, HBase, Sqoop, Zookeeper, flume) l'apprentissage de la machine (R, cornac) Storm (Temp�te, kafka, Redis) Spark (scala, �tincelle, noyau d'allumage, sql �tincelle, une �tincelle en continu, MLlib d'�tincelle, une �tincelle graphx) Python (python, python �tincelle) canaux repr�sentant des nuages noms (docker, kvm, OpenStack) expliquent une, Linux Lucene: moteur de recherche architecture texte int�gral solr : bas� sur le texte service de recherche, une conclusion qui peut �tre �quip�, les fonctions d'�volutivit� et d'interrogation sont optimis�s et fournir une interface enti�rement fonctionnelle pour g�rer le Lucene. Deux, HDFS communs de Hadoop: syst�me de stockage distribu� comprenant NameNode, DataNode. NameNode: m�tadonn�es, DataNode. DataNode: le nombre de donn�es stock�es. fil: MapReduce est en mesure de comprendre le m�canisme de l'harmonie, en substance, le m�canisme de profilage Hadoop, divis� en ResourceManager NodeManager. MapReduce: architecture logicielle, programmation. Ruche: Data Warehouse peut utiliser des requ�tes SQL peuvent ex�cuter Map / Reduce programmes. Les journaux Web utilis�s dans le calcul de la tendance ne peuvent pas �tre utilis�s dans les requ�tes en temps r�el, il faut beaucoup de temps pour revenir les r�sultats. HBase: base de donn�es. Tr�s appropri�s pour les donn�es de requ�te en temps r�el. Facebook Hbase des donn�es audio de magasin avec une analyse en temps r�el audio et ZooKeeper: la fiabilit� du syst�me harmonieux de grande distribution. Hadoop distribu� par synchronisation extr�mit� Zookeeper, comme une pluralit� de NameNode, le commutateur de veille active. Sqoop: base de donn�es de manutention l'autre, touchent les bases de donn�es de transport et HDFS Mahout: apprentissage machine �volutive et de la biblioth�que de l'exploration de donn�es. Utilis� pour faire excavation renvois, la collecte, la classification, fr�quente itemset explorons. Chukwa: syst�me de recouvrement des recettes, la surveillance du syst�me distribu� � grande �chelle, construit sur HDFS et Map / Reduce structure. Afficher, superviser, analyser les r�sultats. Ambari: pour l'�quipement, la gestion et la supervision des clusters Hadoop, selon l'interface Web, conviviale. Deux, Cloudera Cloudera Responsable: Suivi poign�e diagnostic int�gr� Cloudera CCQ: (Cloudera Distribution, y compris Apache Hadoop) Cloudera Hadoop pour apporter les changements appropri�s, ne rel�chez pas appel� OdVR. Cloudera Flume: les syst�mes de collecte des journaux, supportant tous les types de syst�me de journal de l'exp�diteur de donn�es personnalis�es, utilis�es pour recueillir des donn�es. Cloudera Impala: � stocker dans Apache Hadoop HDFS et les donn�es HBase fourni SQL directement interactif requ�te. Cloudera teinte: dispositif de manipulation web comprend ui teinte, serveur hui, db hui. CDH teinte fournir tous les composants de l'interface de la coquille de l'interface, peut �tre pr�par� de la teinte mr. En troisi�me lieu, l'apprentissage machine / RR: une analyse statistique, langage graphique et environnement d'exploitation, il y a Hadoop-R cornac: Fin des zones fournissant l'apprentissage automatique �volutive algorithme classique, comprenant le regroupement, la classification, r�f�rence filtr�e, souvent sous-cl� explorer similaires, et peut �tre �tendue dans le nuage par Hadoop. Quatre, temp�te Temp�te: une distribution, � temps r�el tol�rant aux pannes en continu du syst�me comptable peut �tre utilis� comme analyse en temps r�el, l'apprentissage automatique en ligne, le traitement des flux d'information, la continuit� comptable, distribu�e RPC, traitement en temps r�el audio et mettre � jour la base de donn�es. Kafka: un d�bit �lev� distribu� publish-subscribe syst�me audio, capable de g�rer toutes les actions donn�es en continu (lecture, recherche et autres) sites pr�vus dans le consommateur. l'analyse des donn�es log et hors ligne par rapport Hadoop peut �tre la fin du traitement en temps r�el. Apr�s m�canisme de chargement Hadoop maintenant parall�le � la m�me ligne et hors ligne de traitement audio Redis: c pr�par�e par la parole, le r�seau de soutien, en fonction de la dur�e de vie de la m�moire de journal peut saisir, base de donn�es de valeur de cl�. Cinq, Spark Scala: Un langage de programmation Java similaire compl�tement orient� objet. Spark: fin Spark est commun dans le langage Scala Hadoop MapReduce structure parall�le similaire, sauf Hadoop MapReduce pr�sente des avantages, mais est diff�rent du centre du travail de sortie est des r�sultats MapReduce peuvent �tre stock�s dans la m�moire, et ne pas besoin de lire et d'�crire HDFS, Spark ainsi mieux en mesure d'appliquer des algorithmes d'apprentissage exploration de donn�es et la machine telles que MapReduce it�ration de la demande. syst�me de fichiers Hadoop et peuvent fonctionner en parall�le, utilis� une structure de cluster tiers Mesos peut prendre en charge ce comportement. Spark SQL: Je aime l'attention, d'autres Spark en streaming: en temps r�el la structure comptable construite sur la Spark, Spark pour g�rer de grandes �largi de donn�es de donn�es en continu. Spark MLlib: biblioth�que fin MLlib est Spark est couramment utilis� dans les algorithmes d'apprentissage machine, et maintenant (2014,05) soutenir la classification binaire, la r�gression, et le regroupement de filtrage collaboratif. Elle comprend �galement une couche de fond avec une descente de gradient base de l'algorithme d'optimisation. jblas biblioth�que d'alg�bre lin�aire depuis MLlib, des programmes Fortran depuis longtemps jblas lui-m�me. Spark GraphX: GraphX API Spark est un sch�ma parall�le et la comptabilit�, le programme peut �tre fourni sur un traitement Spark stop donn�es, la conclusion peut �tre facilement et efficacement un ensemble de comptabilit� cha�ne de montage Fig. jblas: une rapide alg�bre lin�aire biblioth�que (JAVA). Selon BLAS et LAPACK, les pratiques comptables matrix normes professionnelles, et l'utilisation des installations d'art ATLAS final de pointe et toutes les proc�dures comptables de la fondation, ce qui rend tr�s rapide. Fortran: programme comptable machines haut de gamme d'abord apparu dans la planification de la parole, largement utilis� dans la cat�gorie comptabilit� sciences et en g�nie. BLAS: fondation de la biblioth�que de sous-programme d'alg�bre lin�aire, le programme a �t� pr�par� avec beaucoup de bien dans les op�rations d'alg�bre lin�aire. LAPACK: c�l�bre exposer les logiciels, y compris la r�solution des probl�mes d'alg�bre lin�aire num�rique les plus courantes dans le calcul de la science et de l'ing�nierie, telles que la r�solution des �quations lin�aires, lin�aires probl�me des moindres carr�s, des probl�mes et des probl�mes de valeurs propres valeurs singuli�res. ATLAS: version optimis�e de BLAS lin�aire algorithme biblioth�ques ne le font pas. Spark Python: Spark est �crit par la langue scala, mais afin de promouvoir et compatible avec l'alimentation de l'interface java et python. Six, Python Python: un orient� objet, la parole de la planification des programmes de comptabilit� de type commentaire. Sept canaux comptabilit� nuage Docker: utilisation du moteur de conteneurs open source kvm: (Clavier Souris vid�o) de OpenStack: projet cloud open source canaux de traitement comptable

Big donn�es n�cessaires pour d�velopper un ressources payant plein [acc�s libre]

Oracle principal directeur technique depuis de nombreuses ann�es avec soin a cr�� un syst�me de programme complet [grandes donn�es] doit voir le d�veloppement de l'intelligence artificielle, aide compl�te d�velopper Big Data entr�e � base z�ro + + + projet pour am�liorer les = r�mun�r�s de !