5 types d'algorithmes de regroupement doivent se familiariser avec les donn�es scientifiques

Cet article est une compilation de technologie blog AI Yanxishe, le titre original:

Les 5 clustering de donn�es scientifiques Algorithmes ont besoin de savoir

Auteur | George Seif

Traduction | Jeff Demps, arnold_hua, petits crayons Y

Relecture | Jeff Demps examen | finition Lam-W | soeur d'ananas

Lien original:

https://towardsdatascience.com/the-5-clustering-algorithms-data-scientists-need-to-know-a36d136ef68

L'algorithme est un algorithme de clustering pour regrouper les donn�es se rapportent � l'apprentissage de la machine. Dans un ensemble de donn�es, nous pouvons diviser en un certain nombre d'algorithmes diff�rents groupes regroupement. En th�orie, avec les m�mes attributs ou les caract�ristiques des donn�es entre le m�me groupe d'attributs ou des caract�ristiques de la diff�rence de phase entre les diff�rents ensembles de donn�es sera relativement importante. Clustering algorithme est un algorithme d'apprentissage non supervis�, et est couramment utilis� comme un algorithme d'analyse des donn�es a �t� appliqu�e dans de nombreux domaines.

Dans le domaine des donn�es scientifiques, nous utilisons l'analyse cluster, vous pouvez obtenir des informations plus claires pour les donn�es par paquets de donn�es. Aujourd'hui, nous prenons un coup d'oeil, les scientifiques de donn�es doivent conna�tre et ma�triser les cinq algorithmes de regroupement relativement plus populaires.

K-means algorithme de classification

K-means regroupement peuvent �tre nous connaissons le mieux avec l'algorithme de clustering. Il doit �tre expliqu� dans un certain nombre de cours de sciences de donn�es de qualit� industrielle et d'apprentissage de la machine. Et facile � comprendre et � mettre en uvre les codes de fonction correspondants. Par exemple, l'image suivante:

regroupement k-means

Tout d'abord, nous voulons d�terminer le nombre de grappes, et al�atoire initialisation leur point central respectif. Afin de d�terminer le nombre de grappes, on voit de pr�f�rence rapidement les donn�es et essayer une identification de paquets diff�rents. Le point central de chaque point de donn�es avec la m�me longueur de vecteur du vecteur, la figure ci-dessus est � x �.

, Classant chaque point de donn�es en calculant la distance entre le point courant et le centre de chaque groupe, puis revenir au groupe et la distance entre le centre de la plus proche.

Bas� sur le r�sultat apr�s it�ration, au sein de chaque cat�gorie est calcul�e, la moyenne de tous les points, comme le nouveau centre de cluster.

Ces �tapes sont r�p�t�es de mani�re it�rative, jusqu'� ce qu'un ensemble de centres ou peu de changement entre les it�rations. Vous pouvez �galement s�lectionner un ensemble al�atoire de centre d'initialisation quelques fois, puis s�lectionnez appara�t pour fournir les meilleurs r�sultats.

K-means l'avantage est tr�s rapide, parce que nous avons vraiment besoin de faire est de calculer la distance entre le point et le centre de jeu, petit calcul! En cons�quence, il a une complexit� lin�aire o (n).

D'autre part, k-means pr�sente deux inconv�nients. Tout d'abord, vous devez d�terminer le nombre de grappes de grappes. Id�alement, pour un algorithme de clustering, nous esp�rons qu'il peut nous aider � r�soudre ces probl�mes, parce que son but est d'obtenir un aper�u des donn�es. le regroupement des moyens k- est �galement s�lectionn�e � partir d'un centre al�atoire, de sorte qu'il peut produire des r�sultats diff�rents dans diff�rents algorithme de regroupement d'exploitation. Par cons�quent, les r�sultats ne peuvent �tre r�p�t�es, le manque de coh�rence.

K m�diane est un autre algorithme de regroupement associ� aux K-means, en plus de ne pas recalcul� en utilisant le point central moyen du groupe, nous utilisons la m�diane du groupe Vector. Cette m�thode est moins sensible � une d�viation anormale de la valeur (car la valeur), mais beaucoup plus lent pour les grands ensembles de donn�es, �tant donn� que lorsque le vecteur de valeur calcul�e, chaque it�ration requiert un tri.

Clustering moyenne-Shift

algorithme de classification moyenne-d�calage est bas� sur une fen�tre glissante, et essayer de trouver des points de zone de donn�es � forte intensit�. Il est un algorithme bas� sur barycentre, ce qui signifie que son objectif est de localiser le point central de chaque groupe ou une classe en mettant � jour le point central du candidat, le candidat pour le point central est mis � jour au point moyen de la fen�tre coulissante. Ces candidats seront filtr�s dans la fen�tre glissante apr�s la phase de post-traitement pour r�duire la duplication points voisins, la forme d�finitive du point central de l'ensemble et son groupe correspondant. Voir ci-dessous figure.

Fen�tre coulissante � l'unit� de clustering Mean-Shift

Pour expliquer la moyenne de d�calage, on consid�re l'ensemble des points dans un espace � deux dimensions, l'image comme indiqu� sur la figure. On commence par un point central du cercle C dans la fen�tre coulissante (s�lection al�atoire), comme un rayon de coeur r. d�calage de la moyenne est un algorithme de montagne d'escalade, qui it�rativement chaque �tape, les principaux se d�place vers une zone de densit� plus �lev�e, jusqu'� ce que la position de convergence.

Dans chaque it�ration, en se d�pla�ant � la moyenne du point central au milieu de la fen�tre coulissante, fen�tre coulissante se d�place vers une zone de densit� plus �lev�e (ce qui est l'origine du nom de l'algorithme). Proportionnelle � la densit� du nombre de points � l'int�rieur de la fen�tre coulissante. Bien entendu, en se d�pla�ant vers le centre � un point situ� dans la moyenne de la fen�tre peut �tre d�plac� progressivement d'avoir une zone de haute densit�.

Nous continuons � se d�placer en fonction de la fen�tre glissante moyenne, il n'y a pas de direction jusqu'� ce que le noyau peut recevoir plus de points. Consultez le tableau ci-dessus, nous avons progress� cercle jusqu'� ce que la densit� ne cro�t plus. (Le nombre de points dans la fen�tre n'est plus en croissance).

Cette proc�dure est r�p�t�e 1-3 avec beaucoup de fen�tre coulissante jusqu'� ce que tous les points sont inclus dans la fen�tre. Lorsqu'une pluralit� de chevauchement des fen�tres coulissantes, fen�tre contient jusqu'� point sera conserv�e. Ensuite, la fen�tre coulissante de points de donn�es o� les points de donn�es sont regroup�es.

Les montre la figure suivante tout la fen�tre glissante processus de bout en bout. Chaque point noir repr�sente la fen�tre coulissante du centre de masse pour chacun des points gris sont des points de donn�es.

Tous les processus Clustering Mean-Shift

K-means et la diff�rence est, moyenne-Shift pas besoin de choisir le nombre de grappes, car la moyenne de d�calage trouver automatiquement. Ceci est un grand avantage. En fait il y a une densit� maximale vers le point central du cluster de convergence est ce que nous voulions vraiment, car il est facile � comprendre et est bien adapt� � la nature ax�e sur les donn�es de la sc�ne. L'inconv�nient est que la taille de fen�tre coulissante / rayon s�lection � r � n�cessite un examen attentif.

Densit� de regroupement spatial des applications bas�es bruyants (dbscan)

Dbscan est un algorithme de classification bas� sur la densit� similaire � la moyenne de d�calage, il pr�sente plusieurs avantages notables. Consultez les photos de fantaisie suivantes, on y va!

regroupement sourire dbscan

d�part dbscan d'un arbitraire n'a pas �t� visit� initier un point de donn�es. L'extrait avec un point ce quartier (tous les points � distance sont alors consid�r�s comme un point voisin) de l'epsilon .

Si un nombre suffisant de points (selon minPoints) dans le quartier, le processus de regroupement commence, et le point de donn�es actuel pour devenir le premier point dans le nouveau cluster. Dans le cas contraire, le point sera marqu� comme bruit (bruit apr�s ce point pourrait faire partie du cluster). Le point dans les deux cas sont marqu�s comme � l'acc�s �.

Pour le premier point de ce nouveau cluster, pointer vers le quartier de la distance est devenue une partie du m�me groupe. Cela permet � tous les processus � apr�s toujours r�p�ter le quartier de point appartiennent au m�me groupe, jusqu'� ce que tous les nouveaux points sont ajout�s au groupe de cluster.

Processus les �tapes 2 et 3 sera r�p�t�e jusqu'� ce que tous les points ont �t� identifi�s dans le cluster, qui est, tous les points dans le quartier de sont accessibles et �tre marqu�s avec des �tiquettes.

Une fois que nous avons fait dans le groupe actuel, un nouveau point d'acc�s ne peut �tre extrait et trait�, qui sera ensuite trouver le prochain cluster ou le bruit. Ce processus est r�p�t� jusqu'� ce que tous les points sont modifi�s comme visit�s. Depuis le dernier acc�s � tous les points, chaque point est marqu� comme appartenant � un groupe ou du bruit.

Par rapport � d'autres algorithmes de regroupement, dbscan a fait quelques grands avantages. Tout d'abord, il n'a pas besoin de nombre pr�d�fini de clusters. Il a �galement identifi� comme valeurs aberrantes bruit, � la diff�rence moyenne-changement de simplement les jeter dans un cluster, m�me, m�me si la diff�rence de point de donn�es est grande pour faire la m�me chose. De plus, l'algorithme peut aussi �tre un bon noyau de trouver une taille de cluster de forme arbitraire.

Le plus gros inconv�nient est que lorsque des grappes de densit� SBSCAN lorsque, contrairement � d'autres algorithmes aussi bon que ses performances. En effet, lorsque la densit� change, la valeur seuil pour d�terminer les points de distance et minPoints voisin va aussi changer. Cet inconv�nient se produit �galement en tant que donn�es dans le haut, puisque la valeur de seuil de distance devient difficile � estimer.

Sur la base de mod�le de m�lange gaussien (GMM) de la maximisation de l'esp�rance (EM) des clusters

Un inconv�nient majeur est son k-means en utilisant simplement la valeur moyenne des centres de cluster. L'image suivante, nous pouvons voir pourquoi ce n'est pas la meilleure fa�on. Dans le c�t� gauche, l'il humain peut voir clairement qu'il ya deux groupes diff�rents avec le m�me rayon du centre circulaire de la valeur moyenne. k-means ne peuvent pas faire face � ce probl�me, parce que la moyenne des diff�rents groupes sont tr�s proches. Lorsque le cluster n'est pas circulaire, k-moyens �chouent, ce qui est la valeur moyenne en raison du centre de cluster.

K-means ne sont pas applicables dans le cas o�

Les mod�les gaussiens de m�lange (MGM) est plus flexible que les K-moyennes. Utilisez GMM, nous devons supposer que le point de donn�es est une distribution gaussienne, par rapport � l'anneau de donn�es, cette hypoth�se est moins stricte que la moyenne par rapport � la plus faible. Dans ce cas, nous avons deux param�tres pour d�crire le groupe de formes: l'�cart moyen et standard. Un exemple de forme ovale � deux dimensions, un groupe peut �tre tout moyen (comme nous avons deux �carts-types dans les directions x et y). Par cons�quent, chaque distribution gaussienne sera attribu� � un seul amas de cluster.

Afin de trouver ces deux param�tres gaussiennes (par exemple �cart moyen et standard) dans chaque groupe de cluster, l'algorithme d'optimisation que nous utilisons est appel�e la maximisation de l'esp�rance (EM). Consid�rez l'image ci-dessous pour illustrer les clades de montage gaussiennes. Ensuite, nous pouvons traiter avec le processus de regroupement EM en utilisant GMM.

GMM utilisation du regroupement EM

Nous avons d'abord d�finir le nombre de grappes de grappes (tels que k-means), puis les param�tres d'initialisation al�atoires gaussiennes pour chaque cluster. Nous pouvons �galement fournir une bonne estimation pour les param�tres initiaux en visualiser rapidement les donn�es. Comme indiqu� plus haut, ce n'est pas 100% n�cessaire parce que lorsque l'op�ration de d�marrage est tr�s pauvre gaussienne, mais bient�t l'optimisation.

Chaque groupe re�oit une distribution gaussienne, calculer la probabilit� de chaque point de donn�es appartenant � un groupe particulier. Un point plus proche du centre de la gaussienne, plus il appartient au cluster. Cela devrait �tre intuitive, parce que pour la distribution gaussienne, nous supposons que la plupart des proches des donn�es au centre du cluster.

Sur la base de ces probabilit�s, on calcule un nouvel ensemble de param�tres pour la distribution gaussienne, afin que nous puissions maximiser la probabilit� de points de donn�es du cluster. Nous utilisons les points de donn�es et le calcul de la position des nouveaux param�tres de pond�ration, dans lequel le poids est la probabilit� d'appartenance � un groupe particulier de points de donn�es. Pour expliquer de fa�on visuelle que l'on peut voir le graphique ci-dessus, en particulier dans le groupe jaune comme un exemple. Dans la premi�re it�ration, la distribution est al�atoire d�but, mais nous pouvons voir que la plupart du point jaune dans la bonne distribution. Lorsque l'on calcule une pond�ration par la probabilit� et m�me dans un certain point pr�s du centre, mais la plupart sont � droite. Ainsi, la moyenne des points de distribution plus naturellement r�gl�e. Nous pouvons �galement voir que la plupart du point est � droite � gauche en bas. � Ainsi, l'�cart-type de changement, pour cr�er un point plus appropri�s de l'ellipse, et en vue de maximiser la pond�ration des probabilit�s.

�tape 2 et l'�tape 3 est r�p�t�e jusqu'� ce que la convergence, ce qui est dans le processus de convergence, peu de changement it�rative.

L'utilisation GMMS pr�sente deux avantages principaux. Tout d'abord, beaucoup MGM variance en termes de moyenne et de grappe K co flexibles, la pr�sence du param�tre d'�cart-type, la grappe peut se pr�senter sous toute forme elliptique, sans �tre limit�e � une forme circulaire. k-means est en fait un cas particulier du GMM, dans lequel toutes les dimensions de la covariance pour chaque groupe sont proches de z�ro. En second lieu, en raison de la probabilit� de l'utilisation des GMM, chaque point de donn�es peut avoir plusieurs clusters. Ainsi, si un point de donn�es au milieu de deux groupes se chevauchent, nous pouvons simplement d�finir sa classe, il est d'appartenir � la classe de X% 1, appartenant � la classe de Y% 2. Que GMMS soutien mixte.

classification ascendante hi�rarchique

algorithme de classification ascendante hi�rarchique est en fait divis� en deux cat�gories: de haut en bas ou de bas en haut. m�thode ascendante au d�but de chaque point de donn�es trait� comme un cluster unique, puis progressivement fusion (ou coh�sion) paire de grappes jusqu'� ce que tous les groupes sont fusionn�s en un cluster, le cluster se compose de tous les points . Bottom-up regroupement hi�rarchique donc appel�s classification hi�rarchique ou une agglom�ration de HAC. Cette hi�rarchie de regroupement est repr�sent� sous la forme d'un arbre (ou l'arborescence). Racine est le seul groupe, il a rassembl� tous les �chantillons, les feuilles ne sont qu'un �chantillon de grappes. Avant de voir alors l'algorithme �tape, s'il vous pla�t voir l'illustration suivante.

classification ascendante hi�rarchique

Nous serons trait�s comme un seul point de chaque groupe en d�but, qui est, si notre jeu de donn�es a des points de donn�es X, alors nous avons un nombre X de clusters. Nous choisissons alors une mesure de distance pour mesurer la distance entre deux p�les. � titre d'exemple, nous allons utiliser la connexion moyenne, ce sera la distance entre deux groupes est d�fini comme la distance moyenne d'un point de donn�es du premier groupe et le deuxi�me groupe de points de donn�es.

Dans chaque it�ration, nous les deux groupes sont combin�s en un. Deux groupes doivent �tre combin�s s�lectionn�s parmi ces grappes connexion moyenne minimale, � savoir en fonction de la distance m�trique nos crit�res de s�lection, il y a une distance minimale entre ces vingt-deux groupes, et donc le plus devrait �tre plus semblable � combinaison.

La deuxi�me �tape est r�p�t�e jusqu'� ce que nous arrivons � la racine de l'arbre, que nous avons un seul cluster qui contient tous les points de donn�es. De cette fa�on, nous choisissons seulement le temps d'arr�ter par la combinaison d'un cluster, choisir quand arr�ter la construction de l'arbre, vous pouvez choisir le nombre de grappes � la fin que nous voulons.

classification hi�rarchique ne nous oblige pas � pr�ciser le nombre de grappes, et nous pouvons m�me choisir le nombre de grappes semble le meilleur, parce que nous construisons un arbre. De plus, l'algorithme n'est pas sensible au choix de la mesure de distance; Tous ces �l�ments et d'autres effets de l'algorithme regroupement aussi bien, et pour d'autres algorithmes, la s�lection de mesure de distance est essentielle. Un cas d'utilisation typique est une m�thode de classification hi�rarchique lorsque les donn�es sous-jacentes a une structure hi�rarchique et la structure hi�rarchique est � restaurer, d'autres algorithmes de regroupement ne peuvent pas le faire. L'avantage de prix de la classification hi�rarchique d'entre eux sont inefficaces, parce que sa complexit� est en O (n�), contrairement � la complexit� lin�aire et GMM comme K-means.

conclusion

Ce sont les scientifiques de donn�es doivent �tre conscients du 5 algorithme le plus de clustering! Nous serons un tr�s beau visuel que la visualisation fin montre comment bien comport�s ces algorithmes et certains de ses algorithmes, gr�ce � la biblioth�que � Scikit savoir �!

Je veux continuer � voir les articles liens et r�f�rences connexes?

Cliquez sur le lien pour ouvrir la presse ou cliquez sur [cinq types d'algorithmes regroupement doit se familiariser avec les donn�es scientifiques]:

https://ai.yanxishe.com/page/TextTranslation/1404

AI Yanxishe contenu passionnant mis � jour quotidiennement, la visualisation de contenu plus excitant: Lei Feng Lei Feng Lei r�seau de r�seau de r�seau Feng

Classification des images Conseils d'inventaire

Objectifs d'apprentissage en profondeur de l'algorithme de d�tection

mod�le de g�n�ration: Trouver la position d'un objet bas� sur une seule image

l'attention d'analyse d'animation (par exemple dans la traduction automatique)

En attendant vous interpr�tez:

Comment la structure s�mantique r�f�renc� dans le traitement PNL nerveux

(Python) en d�tectant les espaces inactifs Masque R-CNN

DQNs Senior: Tirer profit de la profondeur de l'apprentissage de renforcement pour jouer au jeu Pac-Man

La profondeur des nouvelles tendances d'apprentissage de renforcement: Google curiosit� comment l'introduction de l'agent d'apprentissage par renforcement

Route de la soie

Apprenez � conna�tre la Chine

5 types d'algorithmes de regroupement doivent se familiariser avec les donn�es scientifiques

K-means algorithme de classification

Clustering moyenne-Shift

Densit� de regroupement spatial des applications bas�es bruyants (dbscan)

Sur la base de mod�le de m�lange gaussien (GMM) de la maximisation de l'esp�rance (EM) des clusters

classification ascendante hi�rarchique

conclusion

Classification des images Conseils d'inventaire

Objectifs d'apprentissage en profondeur de l'algorithme de d�tection

mod�le de g�n�ration: Trouver la position d'un objet bas� sur une seule image

l'attention d'analyse d'animation (par exemple dans la traduction automatique)

Comment la structure s�mantique r�f�renc� dans le traitement PNL nerveux

(Python) en d�tectant les espaces inactifs Masque R-CNN

DQNs Senior: Tirer profit de la profondeur de l'apprentissage de renforcement pour jouer au jeu Pac-Man

La profondeur des nouvelles tendances d'apprentissage de renforcement: Google curiosit� comment l'introduction de l'agent d'apprentissage par renforcement