Grande feuille de route de développement de l'apprentissage de données, vous apprenez?

Mise en route

Livres recommandés

1, « grande époque de données » de Schonberg;

2, Bala Brésil "burst";

3, les Pei sous-revêtement « grandes données »;

4, Wu Jun "age intelligent";

5, « grand monde des affaires de l'architecture des données: des exigences commerciales aux solutions techniques. »

compétences outil

1, hadoop: hors ligne couramment utilisé dans le traitement de grandes données complexe

2, Spark: couramment utilisé dans les données hors ligne de traitement d'un grand rapide

3, Tempête: couramment utilisés dans le traitement en temps réel de données en ligne de grande

4, HDFS: Hadoop Distributed File System. HDFS a une tolérance aux pannes haute caractéristiques et est conçu pour être déployé sur du matériel peu coûteux. Et il offre un accès haut débit aux données d'application pour ces applications avec de grands ensembles de données.

5, Hbase: est répartie, la colonne de base de données orientée vers la source ouverte. La technologie provient de papier Google écrit par Fay Chang « BigTable: un système de stockage distribué des données structurées. » Comme avantage BigTable du système Google stockage de données distribué de fichiers (fichiers système) fourni par le même, HBase fournit la capacité similaire BigTable au-dessus de Hadoop. HBase est un sous-projet du projet Apache Hadoop. Hbase Contrairement à la base de données relationnelle, il est adapté à une base de données de mémoire de données non structurées. HBase est un autre modèle basé non pas sur la ligne de la colonne.

6, Ruche: La ruche est un outil d'entreposage de données à base de Hadoop, vous pouvez cartographier la structure du fichier de données à une table de base de données, et fournit une fonction simple requête SQL, vous pouvez convertir l'instruction SQL pour exécuter des tâches MapReduce. L'avantage est le faible coût de l'apprentissage, vous pouvez obtenir rapidement une simple statistique MapReduce par type d'instructions SQL, sans avoir à développer des applications MapReduce spécialisées, l'entrepôt de données est très approprié pour l'analyse statistique.

7, Kafka: est un débit élevé de système de messagerie distribué publish-subscribe qui peut gérer toutes les actions streaming de données site à grande échelle des consommateurs. Cette action (navigation sur le Web, la recherche et d'autres actions de l'utilisateur) est un facteur clé dans de nombreuses fonctions sociales dans les réseaux modernes. Ces données habituellement en raison du débit requis est atteint par le procédé de polymérisation et journal le journal. Comme pour comme Hadoop et l'analyse hors ligne des systèmes de données du journal, mais nécessite des limitations de traitement en temps réel, c'est une solution viable. Le but de Kafka est de Hadoop mécanisme de chargement parallèle à unifier en ligne et la messagerie en ligne, mais aussi par le groupe afin d'assurer la consommation en temps réel.

8, REDIS: Redis est un système de stockage de valeur de clé. Et Memcached De même, il prend en charge le type de valeur relativement plus stockée, comprenant une chaîne (string), List (liste), SET (set), Zset (set reclassées - ensemble ordonné) et hachage (type de hachage). Ces types de données sont pris en charge push / pop, ajouter / supprimer et à l'intersection et de l'union, et la différence fonctionnement plus riche, et ces opérations sont atomiques.

Dix algorithmes d'exploration de données classiques

1: C4.5

Est un algorithme d'arbre de décision C4.5, il est un arbre de décision (arbre de décision qui est entre les nuds de prendre des décisions comme un arbre de la même organisation, en fait, est un arbre inversé) algorithme amélioré de base algorithme ID3, donc comprendre essentiellement la moitié de la méthode de construction de l'arbre de décision sera en mesure de construire. Chaque méthode de construction d'arbre de décision est en fait une bonne fonctionnalité et sélectionnez le point de partage que les conditions de classification du noeud courant. C4.5 que ID3 domaines à améliorer:

ID3 sélectionnez Propriétés est sous-arbre de gain d'information (où vous pouvez utiliser de nombreuses façons de définir les informations, ID3 utilisant l'entropie (Entropy) (entropie est une mesure du critère de pureté n'est pas)), à savoir le changement d'entropie, et C4 .5 utiliser le rapport de gain de l'information. C'est plus qu'une chose de taux. En général, le taux est pris pour l'équilibrage, la variance du rôle est presque comme il y a deux coureurs, un point de départ est la personne 100m / s, après quoi 1s de 110m / s, d'une autre vitesse de personne est de 1 m / s, après quoi 1s de 11m / s. Si vous ne comptez que l'accélération (quantité d'augmentation de la vitesse par unité de temps), puis les deux est le même, mais si vous utilisez le taux augmentation de la vitesse (rapport d'augmentation de la vitesse) pour mesurer l'écart entre les deux personnes sur la grande. Ici, il surmonte la valeur de polarisation et un plus grand choix lors de la sélection des attributs propriété avec le manque de gain d'information. Taillez le processus de construction de l'arbre, je déteste ces noeuds accrochés plusieurs éléments lors de la construction d'un arbre de décision. Pour ce nud, il suffit de ne considèrent pas le meilleur, sinon facilement conduire à surapprentissage. Pour les données non discrètes peuvent être traitées, c'est en fait un style, look pour valeur continue où la scission est bonne. Telle est la continuité des données en valeurs discrètes sont traitées. Peut traiter des données incomplètes, cet important et vital, en fait, pas si important, les données manquantes à l'aide Comblez quelques-unes des façons qu'il veut.

2: PANIER

CART est également un algorithme d'arbre de décision! En ce qui concerne la réalisation d'un des nuds conditionnels ont des arbres de classification sous multivariées, CART seulement deux arbre sous-classification, si facile à mettre en uvre un peu plus. Ainsi, l'algorithme d'arbre de décision CART pour générer une structure arborescente binaire simple.

3: KNN (k plus proches voisins)

Ceci est très simple, est de vous voir autour de l'individu K (échantillon) dans quelle catégorie de personnes représentaient plus, ce qui plus je suis plus que cela. Est-ce à assurer la formation pour chaque échantillon sont comptés et leur similitude est les échantillons de formation Top-K pour voir plus de ces échantillons K où cette catégorie, qui plus qui.

4: Naive Bayes

(Naive Bayes NB)

NB pense caractéristiques sont indépendantes, personne qui a fermé les choses. Par conséquent, un échantillon (collection de valeurs de caractéristiques, telles que « structure de données » apparaît deux fois, « fichiers » 1), multiplié par la probabilité d'une classe donnée toutes ses caractéristiques sont apparues. Par exemple, « Structures de données » apparaît est 0,5 la probabilité de la classe 1, « fichiers » dans la probabilité de la classe 1 est de 0,3, la probabilité peut être considéré comme appartenant à la classe 10,5 * 0,5 * 0,3.

5: Support Vector Machine (SVM SVM)

SVM est à la recherche d'un classement des plus « bonne » surface ligne de classement / classification (certains types récents de l'échantillon à la « ligne » du plus loin). Ce n'est pas mise en uvre spécifique au cours des dernières conférences, les revendications des enseignants qu'il se rendit compte du SVM, admirent leur esprit d'étude intensive. boîte à outils commune est libsvm, SVMLight, MySVM.

6: EM (maximisation de l'espérance)

Je pense que c'est l'hypothèse que lorsque les données sont constituées de plusieurs gaussienne, l'argument final est de poser quelques gaussienne. En premier supposant plusieurs valeurs, puis par itération, de façon à obtenir le meilleur ajustement souhaité.

7: Apriori

Est de faire des règles d'association. Je ne sais pas pourquoi, je pense que des règles d'association afin d'améliorer les données de panier. Cela n'a pas réalisé avant, mais aussi de comprendre, il est au travail grâce à l'appui et la confiance des deux montants, mais pour Apriori, qui, par certaines règles itemsets fréquents (sous-ensemble de l'élément fréquent de l'ensemble doit être ensembles d'objets fréquents, etc. amis, etc.) afin de réduire la complexité de calcul.

8: PageRank

Le célèbre PageRank vous devriez tout savoir (Google par cette fortune de brevet, la fortune ne peut vraiment pas dire!). Pour cet algorithme Ma compréhension est la suivante: Si je tiens à vous (la connexion entre la page Web) alors je vous reconnaissez dans le calcul de votre importance lorsqu'elle est associée à l'importance d'une partie de moi (à la fin combien ils doivent me voir combien et combien de personnes me ont été admis). En répétant cette façon, vous pouvez trouver une mesure stable de la valeur de chaque individu (web) importance. Mais cela doit être fait pour limiter (le début du défaut de l'importance d'une personne est 1), ou ces valeurs seront de plus en plus grand et plus gros.

9: K-Means

K-Means est l'une des méthodes les plus classiques de clustering et le plus largement utilisé, mais il y a beaucoup de lancer aujourd'hui proposées sur la base du modèle amélioré de son. idée K-Means est très simple tâche pour un cluster (vous devez spécifier regroupés en plusieurs catégories, selon le cours naturel, l'idée de celui-ci ne devrait pas avoir besoin de spécifier le numéro de classe, le problème est la valeur actuelle d'une tâche de groupe de recherche) premiers centres des grappes K choisis au hasard, et le calcul suivant est répété jusqu'à ce que tous les centres de cluster ne changent pas (ne change pas l'ensemble des grappes) vers le haut: l'étape 1: pour chaque objet, le calcul de la similitude de chaque centre de groupe, qui est la inclus dans son plus similaire dans ce cluster.

Étape 2: Mettre à jour les centres de cluster, un nouveau centre de cluster appartiennent à tous les objets obtenus en calculant une valeur moyenne du cluster.

K-means algorithme processus de travail est le suivant: Tout d'abord, le k sélectionné en tant que centres de classes initiaux à tout de l'objet à partir des objets de données de n; et à gauche pour d'autres objets, en fonction de la similitude de ceux-ci avec celles du centre de l'amas (à distance), ils sont respectivement affectés aux plus similaires (centres de cluster représentés) grappe, puis calculer le centre de chaque grappe obtenue nouvelle grappe (moyenne de tous les objets de la grappe); répète ce processus jusqu'au début converge fonction de mesure standard. Sont généralement utilisés comme mesure standard de la fonction de la variance de k grappes présente les caractéristiques suivantes: chaque groupe lui-même aussi compact que possible, dans la mesure du possible parmi les groupes séparés.

10: AdaBoost

AdaBoost ne sais classement général, il est une méthode de rappel. Cela ne peut pas être considéré comme un algorithme qui devrait être une méthode, car elle peut être basée sur tout type d'algorithme de classification, un arbre de décision peut être, Nouveau-Brunswick, et ainsi de suite SVM.

Adaboost est un algorithme itératif, l'idée de base est la même pour l'ensemble d'apprentissage différent est formé un classificateur (classificateurs faibles), ces faibles classificateurs ensemble, constituent un classificateur fort final (classificateur fort). L'algorithme lui-même est réalisé en changeant la distribution des données, classées selon qu'il est correct dans chaque session de formation ensemble pour chaque échantillon, ainsi que la précision du classement général précédent pour déterminer le poids de chaque échantillon. Les poids révisés des nouvelles données établies au classificateur inférieur est formé et, enfin, enfin intégrer chaque classificateur est formé comme un classificateur de décision finale. Utiliser la formation classificateur AdaBoost peut éliminer des données inutiles et les données relatives à la formation clé ci-dessus.

Fondation de mathématiques appliquées

Algèbre linéaire

1, scalaire, vecteur, et des matrices de tenseurs

2, et la multiplication matrice vecteur

3, de la matrice et de la matrice inverse

4, la corrélation linéaire et pour générer des sous-espaces

5 norme

6, un type spécial de matrice et le vecteur

7, dans lequel la décomposition

8, la décomposition en valeurs singulières

9, la pseudo-inverse de Moore-Penrose

10, l'opération de traçage

11, déterminant

12. Exemple: analyse en composantes principales

La théorie des probabilités et des informations

1. Pourquoi la probabilité d'utilisation?

2, les variables aléatoires

3, la distribution de probabilité

4, la probabilité marginale

5, la probabilité conditionnelle

6, la probabilité conditionnelle de la règle de la chaîne

7, l'indépendance et l'indépendance conditionnelle

8, l'attente, la variance et covariance

9, la distribution de probabilité commune

10 propriétés utiles, les fonctions couramment utilisées

11, règle Bayes

12, les détails techniques des variables continues

13, théorie de l'information

14, modèle probabiliste structuré

calcul numérique

1, débordement et underflow

2, conditions pathologiques

3, un procédé d'optimisation à base de gradient

4, optimisation sous contraintes

5, Exemple: moindres carrés linéaires

Ces grandes quantités de données doivent apprendre les connaissances que vous avez appris?

 Je veux devenir gros tutoriel de connaissances de données, vous pouvez Regarder lettre privée m'a transmis « tutoriel » .

froid en direct Panda, après avoir combattu la Seconde Guerre mondiale que des plumes de poulet en direct partout!
Précédent
L'argent peut également être partagé! Cet argent gratuit vous osez prendre?
Prochain
Andrews ne mangeait pas Pie? LOS tiers Android 9.0 apparence native
Huawei vacances macareux AI camera panoramique sur le schéma de principe Tour: super oreilles de chat Meng
Apple a ouvert un rabais! Les étudiants achètent un ordinateur pour envoyer des écouteurs Beats!
Maintenant, quand nous sommes vieux, peut être écrit QQ off
ère Big Data no vie privée?
Qui avez-vous utilisé? inventaire des médias étrangers 201810 combinés sous-estimait
OPPO, Vivo deux frères ont été mis à jour Logo, Vivo soulèvera la plante de couleur pourpre?
Hangzhou Bay Bridge: un pont tirant parti d'un cercle économique
collective a chuté mémoire / SSD / graphiques retour à un prix historiquement élevé: le printemps arrive Installed
Réveillé pour trouver des icônes bureau suite changé!
La moitié - Ajax 0-0 Real Madrid, le feu Tadic dans la colonne
1 année trafic 120G utilisation gratuit! Millet Lecture d'évaluation: valeur de couleur Prix mille supérieur n ° 1