5 types d'algorithmes de regroupement doivent se familiariser avec les données scientifiques

Cet article est une compilation de technologie blog AI Yanxishe, le titre original:

Les 5 clustering de données scientifiques Algorithmes ont besoin de savoir

Auteur | George Seif

Traduction | Jeff Demps, arnold_hua, petits crayons Y

Relecture | Jeff Demps examen | finition Lam-W | soeur d'ananas

Lien original:

https://towardsdatascience.com/the-5-clustering-algorithms-data-scientists-need-to-know-a36d136ef68

L'algorithme est un algorithme de clustering pour regrouper les données se rapportent à l'apprentissage de la machine. Dans un ensemble de données, nous pouvons diviser en un certain nombre d'algorithmes différents groupes regroupement. En théorie, avec les mêmes attributs ou les caractéristiques des données entre le même groupe d'attributs ou des caractéristiques de la différence de phase entre les différents ensembles de données sera relativement importante. Clustering algorithme est un algorithme d'apprentissage non supervisé, et est couramment utilisé comme un algorithme d'analyse des données a été appliquée dans de nombreux domaines.

Dans le domaine des données scientifiques, nous utilisons l'analyse cluster, vous pouvez obtenir des informations plus claires pour les données par paquets de données. Aujourd'hui, nous prenons un coup d'oeil, les scientifiques de données doivent connaître et maîtriser les cinq algorithmes de regroupement relativement plus populaires.

K-means algorithme de classification

K-means regroupement peuvent être nous connaissons le mieux avec l'algorithme de clustering. Il doit être expliqué dans un certain nombre de cours de sciences de données de qualité industrielle et d'apprentissage de la machine. Et facile à comprendre et à mettre en uvre les codes de fonction correspondants. Par exemple, l'image suivante:

regroupement k-means

  • Tout d'abord, nous voulons déterminer le nombre de grappes, et aléatoire initialisation leur point central respectif. Afin de déterminer le nombre de grappes, on voit de préférence rapidement les données et essayer une identification de paquets différents. Le point central de chaque point de données avec la même longueur de vecteur du vecteur, la figure ci-dessus est « x ».

  • , Classant chaque point de données en calculant la distance entre le point courant et le centre de chaque groupe, puis revenir au groupe et la distance entre le centre de la plus proche.

  • Basé sur le résultat après itération, au sein de chaque catégorie est calculée, la moyenne de tous les points, comme le nouveau centre de cluster.

  • Ces étapes sont répétées de manière itérative, jusqu'à ce qu'un ensemble de centres ou peu de changement entre les itérations. Vous pouvez également sélectionner un ensemble aléatoire de centre d'initialisation quelques fois, puis sélectionnez apparaît pour fournir les meilleurs résultats.

  • K-means l'avantage est très rapide, parce que nous avons vraiment besoin de faire est de calculer la distance entre le point et le centre de jeu, petit calcul! En conséquence, il a une complexité linéaire o (n).

    D'autre part, k-means présente deux inconvénients. Tout d'abord, vous devez déterminer le nombre de grappes de grappes. Idéalement, pour un algorithme de clustering, nous espérons qu'il peut nous aider à résoudre ces problèmes, parce que son but est d'obtenir un aperçu des données. le regroupement des moyens k- est également sélectionnée à partir d'un centre aléatoire, de sorte qu'il peut produire des résultats différents dans différents algorithme de regroupement d'exploitation. Par conséquent, les résultats ne peuvent être répétées, le manque de cohérence.

    K médiane est un autre algorithme de regroupement associé aux K-means, en plus de ne pas recalculé en utilisant le point central moyen du groupe, nous utilisons la médiane du groupe Vector. Cette méthode est moins sensible à une déviation anormale de la valeur (car la valeur), mais beaucoup plus lent pour les grands ensembles de données, étant donné que lorsque le vecteur de valeur calculée, chaque itération requiert un tri.

    Clustering moyenne-Shift

    algorithme de classification moyenne-décalage est basé sur une fenêtre glissante, et essayer de trouver des points de zone de données à forte intensité. Il est un algorithme basé sur barycentre, ce qui signifie que son objectif est de localiser le point central de chaque groupe ou une classe en mettant à jour le point central du candidat, le candidat pour le point central est mis à jour au point moyen de la fenêtre coulissante. Ces candidats seront filtrés dans la fenêtre glissante après la phase de post-traitement pour réduire la duplication points voisins, la forme définitive du point central de l'ensemble et son groupe correspondant. Voir ci-dessous figure.

    Fenêtre coulissante à l'unité de clustering Mean-Shift

  • Pour expliquer la moyenne de décalage, on considère l'ensemble des points dans un espace à deux dimensions, l'image comme indiqué sur la figure. On commence par un point central du cercle C dans la fenêtre coulissante (sélection aléatoire), comme un rayon de coeur r. décalage de la moyenne est un algorithme de montagne d'escalade, qui itérativement chaque étape, les principaux se déplace vers une zone de densité plus élevée, jusqu'à ce que la position de convergence.

  • Dans chaque itération, en se déplaçant à la moyenne du point central au milieu de la fenêtre coulissante, fenêtre coulissante se déplace vers une zone de densité plus élevée (ce qui est l'origine du nom de l'algorithme). Proportionnelle à la densité du nombre de points à l'intérieur de la fenêtre coulissante. Bien entendu, en se déplaçant vers le centre à un point situé dans la moyenne de la fenêtre peut être déplacé progressivement d'avoir une zone de haute densité.

  • Nous continuons à se déplacer en fonction de la fenêtre glissante moyenne, il n'y a pas de direction jusqu'à ce que le noyau peut recevoir plus de points. Consultez le tableau ci-dessus, nous avons progressé cercle jusqu'à ce que la densité ne croît plus. (Le nombre de points dans la fenêtre n'est plus en croissance).

  • Cette procédure est répétée 1-3 avec beaucoup de fenêtre coulissante jusqu'à ce que tous les points sont inclus dans la fenêtre. Lorsqu'une pluralité de chevauchement des fenêtres coulissantes, fenêtre contient jusqu'à point sera conservée. Ensuite, la fenêtre coulissante de points de données où les points de données sont regroupées.

  • Les montre la figure suivante tout la fenêtre glissante processus de bout en bout. Chaque point noir représente la fenêtre coulissante du centre de masse pour chacun des points gris sont des points de données.

    Tous les processus Clustering Mean-Shift

    K-means et la différence est, moyenne-Shift pas besoin de choisir le nombre de grappes, car la moyenne de décalage trouver automatiquement. Ceci est un grand avantage. En fait il y a une densité maximale vers le point central du cluster de convergence est ce que nous voulions vraiment, car il est facile à comprendre et est bien adapté à la nature axée sur les données de la scène. L'inconvénient est que la taille de fenêtre coulissante / rayon sélection « r » nécessite un examen attentif.

    Densité de regroupement spatial des applications basées bruyants (dbscan)

    Dbscan est un algorithme de classification basé sur la densité similaire à la moyenne de décalage, il présente plusieurs avantages notables. Consultez les photos de fantaisie suivantes, on y va!

    regroupement sourire dbscan

  • départ dbscan d'un arbitraire n'a pas été visité initier un point de données. L'extrait avec un point ce quartier (tous les points à distance sont alors considérés comme un point voisin) de l'epsilon .

  • Si un nombre suffisant de points (selon minPoints) dans le quartier, le processus de regroupement commence, et le point de données actuel pour devenir le premier point dans le nouveau cluster. Dans le cas contraire, le point sera marqué comme bruit (bruit après ce point pourrait faire partie du cluster). Le point dans les deux cas sont marqués comme « l'accès ».

  • Pour le premier point de ce nouveau cluster, pointer vers le quartier de la distance est devenue une partie du même groupe. Cela permet à tous les processus à après toujours répéter le quartier de point appartiennent au même groupe, jusqu'à ce que tous les nouveaux points sont ajoutés au groupe de cluster.

  • Processus les étapes 2 et 3 sera répétée jusqu'à ce que tous les points ont été identifiés dans le cluster, qui est, tous les points dans le quartier de sont accessibles et être marqués avec des étiquettes.

  • Une fois que nous avons fait dans le groupe actuel, un nouveau point d'accès ne peut être extrait et traité, qui sera ensuite trouver le prochain cluster ou le bruit. Ce processus est répété jusqu'à ce que tous les points sont modifiés comme visités. Depuis le dernier accès à tous les points, chaque point est marqué comme appartenant à un groupe ou du bruit.

  • Par rapport à d'autres algorithmes de regroupement, dbscan a fait quelques grands avantages. Tout d'abord, il n'a pas besoin de nombre prédéfini de clusters. Il a également identifié comme valeurs aberrantes bruit, à la différence moyenne-changement de simplement les jeter dans un cluster, même, même si la différence de point de données est grande pour faire la même chose. De plus, l'algorithme peut aussi être un bon noyau de trouver une taille de cluster de forme arbitraire.

    Le plus gros inconvénient est que lorsque des grappes de densité SBSCAN lorsque, contrairement à d'autres algorithmes aussi bon que ses performances. En effet, lorsque la densité change, la valeur seuil pour déterminer les points de distance et minPoints voisin va aussi changer. Cet inconvénient se produit également en tant que données dans le haut, puisque la valeur de seuil de distance devient difficile à estimer.

    Sur la base de modèle de mélange gaussien (GMM) de la maximisation de l'espérance (EM) des clusters

    Un inconvénient majeur est son k-means en utilisant simplement la valeur moyenne des centres de cluster. L'image suivante, nous pouvons voir pourquoi ce n'est pas la meilleure façon. Dans le côté gauche, l'il humain peut voir clairement qu'il ya deux groupes différents avec le même rayon du centre circulaire de la valeur moyenne. k-means ne peuvent pas faire face à ce problème, parce que la moyenne des différents groupes sont très proches. Lorsque le cluster n'est pas circulaire, k-moyens échouent, ce qui est la valeur moyenne en raison du centre de cluster.

    K-means ne sont pas applicables dans le cas où

    Les modèles gaussiens de mélange (MGM) est plus flexible que les K-moyennes. Utilisez GMM, nous devons supposer que le point de données est une distribution gaussienne, par rapport à l'anneau de données, cette hypothèse est moins stricte que la moyenne par rapport à la plus faible. Dans ce cas, nous avons deux paramètres pour décrire le groupe de formes: l'écart moyen et standard. Un exemple de forme ovale à deux dimensions, un groupe peut être tout moyen (comme nous avons deux écarts-types dans les directions x et y). Par conséquent, chaque distribution gaussienne sera attribué à un seul amas de cluster.

    Afin de trouver ces deux paramètres gaussiennes (par exemple écart moyen et standard) dans chaque groupe de cluster, l'algorithme d'optimisation que nous utilisons est appelée la maximisation de l'espérance (EM). Considérez l'image ci-dessous pour illustrer les clades de montage gaussiennes. Ensuite, nous pouvons traiter avec le processus de regroupement EM en utilisant GMM.

    GMM utilisation du regroupement EM

  • Nous avons d'abord définir le nombre de grappes de grappes (tels que k-means), puis les paramètres d'initialisation aléatoires gaussiennes pour chaque cluster. Nous pouvons également fournir une bonne estimation pour les paramètres initiaux en visualiser rapidement les données. Comme indiqué plus haut, ce n'est pas 100% nécessaire parce que lorsque l'opération de démarrage est très pauvre gaussienne, mais bientôt l'optimisation.

  • Chaque groupe reçoit une distribution gaussienne, calculer la probabilité de chaque point de données appartenant à un groupe particulier. Un point plus proche du centre de la gaussienne, plus il appartient au cluster. Cela devrait être intuitive, parce que pour la distribution gaussienne, nous supposons que la plupart des proches des données au centre du cluster.

  • Sur la base de ces probabilités, on calcule un nouvel ensemble de paramètres pour la distribution gaussienne, afin que nous puissions maximiser la probabilité de points de données du cluster. Nous utilisons les points de données et le calcul de la position des nouveaux paramètres de pondération, dans lequel le poids est la probabilité d'appartenance à un groupe particulier de points de données. Pour expliquer de façon visuelle que l'on peut voir le graphique ci-dessus, en particulier dans le groupe jaune comme un exemple. Dans la première itération, la distribution est aléatoire début, mais nous pouvons voir que la plupart du point jaune dans la bonne distribution. Lorsque l'on calcule une pondération par la probabilité et même dans un certain point près du centre, mais la plupart sont à droite. Ainsi, la moyenne des points de distribution plus naturellement réglée. Nous pouvons également voir que la plupart du point est « droite à gauche en bas. » Ainsi, l'écart-type de changement, pour créer un point plus appropriés de l'ellipse, et en vue de maximiser la pondération des probabilités.

  • Étape 2 et l'étape 3 est répétée jusqu'à ce que la convergence, ce qui est dans le processus de convergence, peu de changement itérative.

  • L'utilisation GMMS présente deux avantages principaux. Tout d'abord, beaucoup MGM variance en termes de moyenne et de grappe K co flexibles, la présence du paramètre d'écart-type, la grappe peut se présenter sous toute forme elliptique, sans être limitée à une forme circulaire. k-means est en fait un cas particulier du GMM, dans lequel toutes les dimensions de la covariance pour chaque groupe sont proches de zéro. En second lieu, en raison de la probabilité de l'utilisation des GMM, chaque point de données peut avoir plusieurs clusters. Ainsi, si un point de données au milieu de deux groupes se chevauchent, nous pouvons simplement définir sa classe, il est d'appartenir à la classe de X% 1, appartenant à la classe de Y% 2. Que GMMS soutien mixte.

    classification ascendante hiérarchique

    algorithme de classification ascendante hiérarchique est en fait divisé en deux catégories: de haut en bas ou de bas en haut. méthode ascendante au début de chaque point de données traité comme un cluster unique, puis progressivement fusion (ou cohésion) paire de grappes jusqu'à ce que tous les groupes sont fusionnés en un cluster, le cluster se compose de tous les points . Bottom-up regroupement hiérarchique donc appelés classification hiérarchique ou une agglomération de HAC. Cette hiérarchie de regroupement est représenté sous la forme d'un arbre (ou l'arborescence). Racine est le seul groupe, il a rassemblé tous les échantillons, les feuilles ne sont qu'un échantillon de grappes. Avant de voir alors l'algorithme étape, s'il vous plaît voir l'illustration suivante.

    classification ascendante hiérarchique

  • Nous serons traités comme un seul point de chaque groupe en début, qui est, si notre jeu de données a des points de données X, alors nous avons un nombre X de clusters. Nous choisissons alors une mesure de distance pour mesurer la distance entre deux pôles. À titre d'exemple, nous allons utiliser la connexion moyenne, ce sera la distance entre deux groupes est défini comme la distance moyenne d'un point de données du premier groupe et le deuxième groupe de points de données.

  • Dans chaque itération, nous les deux groupes sont combinés en un. Deux groupes doivent être combinés sélectionnés parmi ces grappes connexion moyenne minimale, à savoir en fonction de la distance métrique nos critères de sélection, il y a une distance minimale entre ces vingt-deux groupes, et donc le plus devrait être plus semblable à combinaison.

  • La deuxième étape est répétée jusqu'à ce que nous arrivons à la racine de l'arbre, que nous avons un seul cluster qui contient tous les points de données. De cette façon, nous choisissons seulement le temps d'arrêter par la combinaison d'un cluster, choisir quand arrêter la construction de l'arbre, vous pouvez choisir le nombre de grappes à la fin que nous voulons.

  • classification hiérarchique ne nous oblige pas à préciser le nombre de grappes, et nous pouvons même choisir le nombre de grappes semble le meilleur, parce que nous construisons un arbre. De plus, l'algorithme n'est pas sensible au choix de la mesure de distance; Tous ces éléments et d'autres effets de l'algorithme regroupement aussi bien, et pour d'autres algorithmes, la sélection de mesure de distance est essentielle. Un cas d'utilisation typique est une méthode de classification hiérarchique lorsque les données sous-jacentes a une structure hiérarchique et la structure hiérarchique est à restaurer, d'autres algorithmes de regroupement ne peuvent pas le faire. L'avantage de prix de la classification hiérarchique d'entre eux sont inefficaces, parce que sa complexité est en O (n³), contrairement à la complexité linéaire et GMM comme K-means.

    conclusion

    Ce sont les scientifiques de données doivent être conscients du 5 algorithme le plus de clustering! Nous serons un très beau visuel que la visualisation fin montre comment bien comportés ces algorithmes et certains de ses algorithmes, grâce à la bibliothèque « Scikit savoir »!

    Je veux continuer à voir les articles liens et références connexes?

    Cliquez sur le lien pour ouvrir la presse ou cliquez sur [cinq types d'algorithmes regroupement doit se familiariser avec les données scientifiques]:

    https://ai.yanxishe.com/page/TextTranslation/1404

    AI Yanxishe contenu passionnant mis à jour quotidiennement, la visualisation de contenu plus excitant: Lei Feng Lei Feng Lei réseau de réseau de réseau Feng

    Classification des images Conseils d'inventaire

    Objectifs d'apprentissage en profondeur de l'algorithme de détection

    modèle de génération: Trouver la position d'un objet basé sur une seule image

    l'attention d'analyse d'animation (par exemple dans la traduction automatique)

    En attendant vous interprétez:

    Comment la structure sémantique référencé dans le traitement PNL nerveux

    (Python) en détectant les espaces inactifs Masque R-CNN

    DQNs Senior: Tirer profit de la profondeur de l'apprentissage de renforcement pour jouer au jeu Pac-Man

    La profondeur des nouvelles tendances d'apprentissage de renforcement: Google curiosité comment l'introduction de l'agent d'apprentissage par renforcement

    En tant que haut de gamme SUV autonome, VV5s ouvrent vraiment la texture des voitures de luxe faire?
    Précédent
    Qu'est-ce à la fin, le G-Class Mercedes-Benz depuis 38 ans ne respecte pas la nouvelle génération?
    Prochain
    "Shadow": Zhang Yimou monde d'encre, la fête audio-visuel ultime! Affichage des rapports
    QQ20 anniversaire Tencent si je me souviens de ces années ont fait des choses stupides?
    conception fragment x CONVERSE nouvelles Spy Shots communes, SF-AF1 nouvelle couleur d'hiver Camo | marée odeur de fast food
    Cook a promis d'enquêter sur l'événement « Les femmes saoudiennes avec la sortie du moniteur App », les dirigeants d'Apple impliqués dans les délits d'initiés poursuivis en justice | Lei Feng Matin
    Les deux duel de femmes, le monde entier est toujours préférable de voir la pièce!
    Dior PK Balenciaga quel côté vous vous situez? Dior chaussures, chaussettes nouvelle release Que pensez-vous?
    Ceci est peut-être le plus paisible dans l'histoire des pneus SUV
    La seule puce, vous ne trouverez probablement pas la même chose!
    À la fin Avril, la fenêtre du printemps brodé Misfits, Eros faveur, l'amour Lu Yu, alliance formant constellation à égalité
    Chaque produit défini grand fond! Mindseeker Tokyo limitée Pop-Up Store pour voir ici!
    Plus obtenu sur le lecteur de test de la nouvelle salle Skoda Octavia
    « Animaux Fantastiques 2 » CP populaire et le rôle mystérieux Exposed!