Grande feuille de route de d�veloppement de l'apprentissage de donn�es, vous apprenez?

Mise en route

Livres recommand�s

1, � grande �poque de donn�es � de Schonberg;

2, Bala Br�sil "burst";

3, les Pei sous-rev�tement � grandes donn�es �;

4, Wu Jun "age intelligent";

5, � grand monde des affaires de l'architecture des donn�es: des exigences commerciales aux solutions techniques. �

comp�tences outil

1, hadoop: hors ligne couramment utilis� dans le traitement de grandes donn�es complexe

2, Spark: couramment utilis� dans les donn�es hors ligne de traitement d'un grand rapide

3, Temp�te: couramment utilis�s dans le traitement en temps r�el de donn�es en ligne de grande

4, HDFS: Hadoop Distributed File System. HDFS a une tol�rance aux pannes haute caract�ristiques et est con�u pour �tre d�ploy� sur du mat�riel peu co�teux. Et il offre un acc�s haut d�bit aux donn�es d'application pour ces applications avec de grands ensembles de donn�es.

5, Hbase: est r�partie, la colonne de base de donn�es orient�e vers la source ouverte. La technologie provient de papier Google �crit par Fay Chang � BigTable: un syst�me de stockage distribu� des donn�es structur�es. � Comme avantage BigTable du syst�me Google stockage de donn�es distribu� de fichiers (fichiers syst�me) fourni par le m�me, HBase fournit la capacit� similaire BigTable au-dessus de Hadoop. HBase est un sous-projet du projet Apache Hadoop. Hbase Contrairement � la base de donn�es relationnelle, il est adapt� � une base de donn�es de m�moire de donn�es non structur�es. HBase est un autre mod�le bas� non pas sur la ligne de la colonne.

6, Ruche: La ruche est un outil d'entreposage de donn�es � base de Hadoop, vous pouvez cartographier la structure du fichier de donn�es � une table de base de donn�es, et fournit une fonction simple requ�te SQL, vous pouvez convertir l'instruction SQL pour ex�cuter des t�ches MapReduce. L'avantage est le faible co�t de l'apprentissage, vous pouvez obtenir rapidement une simple statistique MapReduce par type d'instructions SQL, sans avoir � d�velopper des applications MapReduce sp�cialis�es, l'entrep�t de donn�es est tr�s appropri� pour l'analyse statistique.

7, Kafka: est un d�bit �lev� de syst�me de messagerie distribu� publish-subscribe qui peut g�rer toutes les actions streaming de donn�es site � grande �chelle des consommateurs. Cette action (navigation sur le Web, la recherche et d'autres actions de l'utilisateur) est un facteur cl� dans de nombreuses fonctions sociales dans les r�seaux modernes. Ces donn�es habituellement en raison du d�bit requis est atteint par le proc�d� de polym�risation et journal le journal. Comme pour comme Hadoop et l'analyse hors ligne des syst�mes de donn�es du journal, mais n�cessite des limitations de traitement en temps r�el, c'est une solution viable. Le but de Kafka est de Hadoop m�canisme de chargement parall�le � unifier en ligne et la messagerie en ligne, mais aussi par le groupe afin d'assurer la consommation en temps r�el.

8, REDIS: Redis est un syst�me de stockage de valeur de cl�. Et Memcached De m�me, il prend en charge le type de valeur relativement plus stock�e, comprenant une cha�ne (string), List (liste), SET (set), Zset (set reclass�es - ensemble ordonn�) et hachage (type de hachage). Ces types de donn�es sont pris en charge push / pop, ajouter / supprimer et � l'intersection et de l'union, et la diff�rence fonctionnement plus riche, et ces op�rations sont atomiques.

Dix algorithmes d'exploration de donn�es classiques

1: C4.5

Est un algorithme d'arbre de d�cision C4.5, il est un arbre de d�cision (arbre de d�cision qui est entre les nuds de prendre des d�cisions comme un arbre de la m�me organisation, en fait, est un arbre invers�) algorithme am�lior� de base algorithme ID3, donc comprendre essentiellement la moiti� de la m�thode de construction de l'arbre de d�cision sera en mesure de construire. Chaque m�thode de construction d'arbre de d�cision est en fait une bonne fonctionnalit� et s�lectionnez le point de partage que les conditions de classification du noeud courant. C4.5 que ID3 domaines � am�liorer:

ID3 s�lectionnez Propri�t�s est sous-arbre de gain d'information (o� vous pouvez utiliser de nombreuses fa�ons de d�finir les informations, ID3 utilisant l'entropie (Entropy) (entropie est une mesure du crit�re de puret� n'est pas)), � savoir le changement d'entropie, et C4 .5 utiliser le rapport de gain de l'information. C'est plus qu'une chose de taux. En g�n�ral, le taux est pris pour l'�quilibrage, la variance du r�le est presque comme il y a deux coureurs, un point de d�part est la personne 100m / s, apr�s quoi 1s de 110m / s, d'une autre vitesse de personne est de 1 m / s, apr�s quoi 1s de 11m / s. Si vous ne comptez que l'acc�l�ration (quantit� d'augmentation de la vitesse par unit� de temps), puis les deux est le m�me, mais si vous utilisez le taux augmentation de la vitesse (rapport d'augmentation de la vitesse) pour mesurer l'�cart entre les deux personnes sur la grande. Ici, il surmonte la valeur de polarisation et un plus grand choix lors de la s�lection des attributs propri�t� avec le manque de gain d'information. Taillez le processus de construction de l'arbre, je d�teste ces noeuds accroch�s plusieurs �l�ments lors de la construction d'un arbre de d�cision. Pour ce nud, il suffit de ne consid�rent pas le meilleur, sinon facilement conduire � surapprentissage. Pour les donn�es non discr�tes peuvent �tre trait�es, c'est en fait un style, look pour valeur continue o� la scission est bonne. Telle est la continuit� des donn�es en valeurs discr�tes sont trait�es. Peut traiter des donn�es incompl�tes, cet important et vital, en fait, pas si important, les donn�es manquantes � l'aide Comblez quelques-unes des fa�ons qu'il veut.

2: PANIER

CART est �galement un algorithme d'arbre de d�cision! En ce qui concerne la r�alisation d'un des nuds conditionnels ont des arbres de classification sous multivari�es, CART seulement deux arbre sous-classification, si facile � mettre en uvre un peu plus. Ainsi, l'algorithme d'arbre de d�cision CART pour g�n�rer une structure arborescente binaire simple.

3: KNN (k plus proches voisins)

Ceci est tr�s simple, est de vous voir autour de l'individu K (�chantillon) dans quelle cat�gorie de personnes repr�sentaient plus, ce qui plus je suis plus que cela. Est-ce � assurer la formation pour chaque �chantillon sont compt�s et leur similitude est les �chantillons de formation Top-K pour voir plus de ces �chantillons K o� cette cat�gorie, qui plus qui.

4: Naive Bayes

(Naive Bayes NB)

NB pense caract�ristiques sont ind�pendantes, personne qui a ferm� les choses. Par cons�quent, un �chantillon (collection de valeurs de caract�ristiques, telles que � structure de donn�es � appara�t deux fois, � fichiers � 1), multipli� par la probabilit� d'une classe donn�e toutes ses caract�ristiques sont apparues. Par exemple, � Structures de donn�es � appara�t est 0,5 la probabilit� de la classe 1, � fichiers � dans la probabilit� de la classe 1 est de 0,3, la probabilit� peut �tre consid�r� comme appartenant � la classe 10,5 * 0,5 * 0,3.

5: Support Vector Machine (SVM SVM)

SVM est � la recherche d'un classement des plus � bonne � surface ligne de classement / classification (certains types r�cents de l'�chantillon � la � ligne � du plus loin). Ce n'est pas mise en uvre sp�cifique au cours des derni�res conf�rences, les revendications des enseignants qu'il se rendit compte du SVM, admirent leur esprit d'�tude intensive. bo�te � outils commune est libsvm, SVMLight, MySVM.

6: EM (maximisation de l'esp�rance)

Je pense que c'est l'hypoth�se que lorsque les donn�es sont constitu�es de plusieurs gaussienne, l'argument final est de poser quelques gaussienne. En premier supposant plusieurs valeurs, puis par it�ration, de fa�on � obtenir le meilleur ajustement souhait�.

7: Apriori

Est de faire des r�gles d'association. Je ne sais pas pourquoi, je pense que des r�gles d'association afin d'am�liorer les donn�es de panier. Cela n'a pas r�alis� avant, mais aussi de comprendre, il est au travail gr�ce � l'appui et la confiance des deux montants, mais pour Apriori, qui, par certaines r�gles itemsets fr�quents (sous-ensemble de l'�l�ment fr�quent de l'ensemble doit �tre ensembles d'objets fr�quents, etc. amis, etc.) afin de r�duire la complexit� de calcul.

8: PageRank

Le c�l�bre PageRank vous devriez tout savoir (Google par cette fortune de brevet, la fortune ne peut vraiment pas dire!). Pour cet algorithme Ma compr�hension est la suivante: Si je tiens � vous (la connexion entre la page Web) alors je vous reconnaissez dans le calcul de votre importance lorsqu'elle est associ�e � l'importance d'une partie de moi (� la fin combien ils doivent me voir combien et combien de personnes me ont �t� admis). En r�p�tant cette fa�on, vous pouvez trouver une mesure stable de la valeur de chaque individu (web) importance. Mais cela doit �tre fait pour limiter (le d�but du d�faut de l'importance d'une personne est 1), ou ces valeurs seront de plus en plus grand et plus gros.

9: K-Means

K-Means est l'une des m�thodes les plus classiques de clustering et le plus largement utilis�, mais il y a beaucoup de lancer aujourd'hui propos�es sur la base du mod�le am�lior� de son. id�e K-Means est tr�s simple t�che pour un cluster (vous devez sp�cifier regroup�s en plusieurs cat�gories, selon le cours naturel, l'id�e de celui-ci ne devrait pas avoir besoin de sp�cifier le num�ro de classe, le probl�me est la valeur actuelle d'une t�che de groupe de recherche) premiers centres des grappes K choisis au hasard, et le calcul suivant est r�p�t� jusqu'� ce que tous les centres de cluster ne changent pas (ne change pas l'ensemble des grappes) vers le haut: l'�tape 1: pour chaque objet, le calcul de la similitude de chaque centre de groupe, qui est la inclus dans son plus similaire dans ce cluster.

�tape 2: Mettre � jour les centres de cluster, un nouveau centre de cluster appartiennent � tous les objets obtenus en calculant une valeur moyenne du cluster.

K-means algorithme processus de travail est le suivant: Tout d'abord, le k s�lectionn� en tant que centres de classes initiaux � tout de l'objet � partir des objets de donn�es de n; et � gauche pour d'autres objets, en fonction de la similitude de ceux-ci avec celles du centre de l'amas (� distance), ils sont respectivement affect�s aux plus similaires (centres de cluster repr�sent�s) grappe, puis calculer le centre de chaque grappe obtenue nouvelle grappe (moyenne de tous les objets de la grappe); r�p�te ce processus jusqu'au d�but converge fonction de mesure standard. Sont g�n�ralement utilis�s comme mesure standard de la fonction de la variance de k grappes pr�sente les caract�ristiques suivantes: chaque groupe lui-m�me aussi compact que possible, dans la mesure du possible parmi les groupes s�par�s.

10: AdaBoost

AdaBoost ne sais classement g�n�ral, il est une m�thode de rappel. Cela ne peut pas �tre consid�r� comme un algorithme qui devrait �tre une m�thode, car elle peut �tre bas�e sur tout type d'algorithme de classification, un arbre de d�cision peut �tre, Nouveau-Brunswick, et ainsi de suite SVM.

Adaboost est un algorithme it�ratif, l'id�e de base est la m�me pour l'ensemble d'apprentissage diff�rent est form� un classificateur (classificateurs faibles), ces faibles classificateurs ensemble, constituent un classificateur fort final (classificateur fort). L'algorithme lui-m�me est r�alis� en changeant la distribution des donn�es, class�es selon qu'il est correct dans chaque session de formation ensemble pour chaque �chantillon, ainsi que la pr�cision du classement g�n�ral pr�c�dent pour d�terminer le poids de chaque �chantillon. Les poids r�vis�s des nouvelles donn�es �tablies au classificateur inf�rieur est form� et, enfin, enfin int�grer chaque classificateur est form� comme un classificateur de d�cision finale. Utiliser la formation classificateur AdaBoost peut �liminer des donn�es inutiles et les donn�es relatives � la formation cl� ci-dessus.

Fondation de math�matiques appliqu�es

Alg�bre lin�aire

1, scalaire, vecteur, et des matrices de tenseurs

2, et la multiplication matrice vecteur

3, de la matrice et de la matrice inverse

4, la corr�lation lin�aire et pour g�n�rer des sous-espaces

5 norme

6, un type sp�cial de matrice et le vecteur

7, dans lequel la d�composition

8, la d�composition en valeurs singuli�res

9, la pseudo-inverse de Moore-Penrose

10, l'op�ration de tra�age

11, d�terminant

12. Exemple: analyse en composantes principales

La th�orie des probabilit�s et des informations

1. Pourquoi la probabilit� d'utilisation?

2, les variables al�atoires

3, la distribution de probabilit�

4, la probabilit� marginale

5, la probabilit� conditionnelle

6, la probabilit� conditionnelle de la r�gle de la cha�ne

7, l'ind�pendance et l'ind�pendance conditionnelle

8, l'attente, la variance et covariance

9, la distribution de probabilit� commune

10 propri�t�s utiles, les fonctions couramment utilis�es

11, r�gle Bayes

12, les d�tails techniques des variables continues

13, th�orie de l'information

14, mod�le probabiliste structur�

calcul num�rique

1, d�bordement et underflow

2, conditions pathologiques

3, un proc�d� d'optimisation � base de gradient

4, optimisation sous contraintes

5, Exemple: moindres carr�s lin�aires

Ces grandes quantit�s de donn�es doivent apprendre les connaissances que vous avez appris?

�Je veux devenir gros tutoriel de connaissances de donn�es, vous pouvez Regarder lettre priv�e m'a transmis � tutoriel � .

Route de la soie

Apprenez � conna�tre la Chine

Grande feuille de route de d�veloppement de l'apprentissage de donn�es, vous apprenez?