Sur la base algorithme am�lior� K-means de classification du trafic r�seau

R�sum�: Pour le syst�me de classification du trafic r�seau, en particulier pour le syst�me d'identification en temps r�el la mise en uvre complexit� et les exigences de pr�cision de la classification, nous avons propos� un taux de compromis et de pr�cision complexe. Effectu� par K-means centres de classe initiaux choisis au hasard cette densit� de d�faut critique bas�e sur l'id�e d'une am�lioration, et l'introduction de la fonction de crit�re de validit� du cluster pour d�terminer le nombre final de clusters pour atteindre l'algorithme complet d'optimisation, puis propos�e sur la base K am�lior�e -un moyen algorithme de classification du trafic r�seau, tout en prenant en compte l'algorithme K-means est simple et facile � mettre en uvre, rapide propose la classification pour am�liorer la pr�cision de la classification. Exp�riences sur le d�crit des ensembles de donn�es de trafic r�seau de l'�mission d'autorit� par rapport � la m�thode normale K-means a une pr�cision de classification sup�rieur et une meilleure stabilit� dans la classification du trafic r�seau.

TP393

10,16157 / j.issn.0258-7998.171337

format de citation chinois: Liu Jiwei, Zhao Yang, Li Shaohui Une m�thode de classification de trafic r�seau bas� sur algorithme am�lior� K-means Technologie �lectronique, 2017,43 (11): 86-89,94.

Anglais format de citation: Liu Jiwei, Zhao Yang, Li Shaohui. Une m�thode de classification du trafic r�seau en fonction algorithme am�lior� K-means .Application Technique �lectronique, 2017,43 (11): 86-89,94.

0 introduction

R�seau des moyens de classification du trafic pour m�langer une vari�t� d'applications trafic class� par le trafic de protocole d'application de production. la classification du trafic r�seau est � la fois une conception de protocole de r�seau haute performance bas� sur le fonctionnement du r�seau et la gestion est un moyen important selon le plan de d�veloppement du r�seau, ainsi que la d�tection des attaques de r�seau et le code malveillant .

Depuis la naissance de l'Internet, du monde universitaire et de l'industrie ont �t� �tudi�s pour la classification du trafic r�seau. Sur les progr�s actuels dans la recherche, la classification du trafic r�seau peuvent �tre class�s en quatre m�thodes principales: en fonction de la mise en correspondance de port standard, le protocole de r�seau bas� sur l'inspection approfondie des paquets (Deep Packet Inspection, DPI) sur la base analytique et bas� sur des algorithmes d'apprentissage statistique.

L'ampleur du d�veloppement a donn� lieu � la cartographie Internet d'aujourd'hui entre le port et l'application est plus fixe, la classification du trafic bas�e sur le port pour le d�pistage g�n�ral de l'�coulement � gros grains, une faiblesse majeure de la m�thode de classification � base de DPI ne convient pas pour le trafic crypt�, en plus des questions juridiques impliquera atteinte � la vie priv�e, la classification de l'analyse du trafic du r�seau de protocole bas� sur le r�seau se r�f�re � l'analyse du trafic de protocole ou de comportement, l'utilisation des caract�ristiques d'�coulement ou des caract�ristiques de comportement pour mettre en uvre la classification du trafic, le trafic r�seau bas� sur la classification de l'apprentissage statistique d�finir un ensemble de flux (flux, g�n�ralement l'adresse IP source, l'adresse IP de destination, num�ro de port source, num�ro de port de destination et le protocole pentad d�fini) caract�ristiques statistiques, puis en utilisant un algorithme d'apprentissage machine pour former le mod�le de classification, puis en utilisant ce mod�le classification ult�rieure du trafic r�seau. Actuellement, les deux cat�gories inqui�tude g�n�ralis�e dans les milieux universitaires. Document avec SVM (Support Vector Machine, SVM) d�cision avantage arbre de classification multi-classe, une m�thode de classification du trafic r�seau avec un arbre de d�cision SVM, les r�sultats exp�rimentaux montrent que l'ensemble de donn�es est divulgu�e la m�thode de taux de pr�cision de la classification a atteint 98,8%. Document mod�le de classification Pertinence Vector machine (Pertinence Vector Machine, RVM) est appliqu�e � la classification du trafic r�seau, il est propos� une m�thodes de classification du trafic hybride, et est sup�rieur en termes de pr�cision et d'autres indicateurs de performance 3 SVM. ERMAN J et al. Dans d�crit une m�thode de classification des flux de donn�es algorithme de classification d'apprentissage semi-supervis� bas� sur l'utilisation de K-means, les r�sultats exp�rimentaux montrent que cette m�thode peut atteindre un taux de pr�cision globale de reconnaissance de 70% � 90% , mais l'algorithme de s�lection dans les centres de cluster initial est encore bien choisi au hasard. Document K-means pour s�lectionner les centres de cluster initial a �t� am�lior� par la fonction de similarit� en fonction du facteur de densit� pour r�pondre aux exigences de la coh�rence globale des grappes de donn�es pour un centre de cluster initial plus appropri�s, mais encore besoin de nombre pr�d�termin� de clusters k.

Dans de nombreux algorithmes d'apprentissage machine actuellement utilis�s dans la classification du trafic r�seau, l'algorithme K-means est les algorithmes les plus utilis�s. Cependant, l'algorithme K-means pr�sente deux inconv�nients majeurs: (1) n�cessite la d�termination pr�alable de la taille du num�ro de groupe k, (2) un algorithme standard centres initialement grappe pour les r�sultats de l'algorithme de s�lection al�atoire dans les donn�es sensibles anormale, la classification la pr�cision ont un impact plus grand. �tudes ant�rieures chercheurs en liaison avec cet article, pour deux inconv�nients principaux algorithme K-means de l'algorithme est enti�rement optimis�, la zone de donn�es est divis�e par l'id�ologie sur la base de la densit�, g�n�rant des centres de classes initiaux � partir d'une zone � haute densit�; d�terminer l'efficacit� de l'introduction de la grappe la fonction de crit�re, pour d�terminer le nombre optimal de groupes k. Les r�sultats exp�rimentaux montrent que l'algorithme optimis� pour am�liorer la pr�cision de la classification du trafic r�seau, am�liorer la stabilit� de la classification.

Une description de l'algorithme

1.1 d�finitions

Les K-moyens traditionnels de clustering besoins de l'algorithme pour d�terminer � l'avance le nombre de k, k et s�lectionn�s au hasard des centres de cluster initial, mais cette s�lection al�atoire souvent conduit � des r�sultats de clustering sont tr�s volatils. Selon les caract�ristiques du comportement et les caract�ristiques statistiques des �missions de trafic r�seau que le m�me type de donn�es de flux d'application sont souvent r�parties dans une des r�gions relativement denses, diff�rentes zones de for�ts denses et seront d'isoler une partie de la zone clairsem�e. Ainsi, le choix des centres de cluster initial, compte tenu de la densit� de l'objet de donn�es, la r�gion � haute densit� est g�n�r�e comme un ensemble de candidats des centres de cluster. Pendant ce temps, afin de d�terminer le nombre optimal de clusters k, fix�s artificiellement � l'impact d'�viter, la fonction de crit�re de validit� du cluster est d�fini sur la pr�cision de la classification, le nombre de grappes lorsque la valeur minimale que la fonction de crit�re optimal pour obtenir le nombre de grappes.

les donn�es fournies ensemble S = {xi | xiRp, i = 1,2,3, ..., n}, o� n est le nombre de l'ensemble des objets de donn�es, p est la dimension spatiale des donn�es.

Ensemble de donn�es S 1 est d�fini entre deux objets de donn�es xi, xj est la distance entre la distance euclidienne, � savoir:

O�, k et k est le nombre de grappes > 2, | Ci | Ci est le nombre de donn�es d'objets dans un cluster, xi, xj respectivement cluster Ci, Cj objet de donn�es centrale moyenne. di (k), db (k) d�signe la distance entre le p�le et les donn�es de groupe de l'ensemble S, il est utilis� pour d�crire la similitude entre la dissimilarit� entre le m�me type de donn�es et diff�rents types de donn�es.

Vu de la formule (6) � (9), la distance intra-groupe est d�fini comme le minimum grappe chaque objet de donn�es et la distance moyenne entre tous les autres objets de la m�me grappe, les donn�es de la grappe de l'ensemble S de k classes de valeur maximale des distances, la distance du centre moyen minimum entre les objets de donn�es entre des groupes de donn�es ensemble S est d�finie comme �tant la distance entre les k classes. Par la formule (5) peut �tre vu, plus le di (k), db (k), la plus petite de la fonction de crit�re valeur J (k), lorsque J (k) prend une valeur minimale repr�sentant l'ensemble de donn�es de grappe S la plus forte similarit� entre les objets de donn�es, la diff�rence maximale inter-groupe entre les objets de donn�es. choisissez donc de faire J (k) � la valeur minimale de k le nombre optimal de clusters.

1.2 Classification bas�e sur l'am�lioration de K-means du trafic r�seau

Alors que C = {c1, c2, c3, ..., ck} repr�sente l'ensemble des clusters clusters de trafic r�seau, k est le nombre de grappes. M = {m1, m2, m3, ..., m} r�seau d'application de la circulation un ensemble de types, r est le nombre de types d'application, rk, la classification actuelle du trafic r�seau application f: C M.

Dans ce document, l'estimation du maximum de vraisemblance pour mettre en uvre l'application f. Sur la base de l'estimation du maximum de vraisemblance, le mod�le probabiliste est la carte d�finie f:

Pour le cluster ne contient aucun type de marques de flux de r�seau, il correspond au trafic r�seau est identifi� comme un type d'application inconnus.

m�thode de classification du trafic r�seau est d�crit en d�tail comme suit:

Entr�e: trafic r�seau (le trafic) circulant caract�ristiques statistiques (Flow) Propri�t�s Caract�risation ensemble S = {x1, x2, ..., xn}, xi = (t1, t2, ..., tp), xi repr�sente un comprend p item flux de r�seau attributs caract�ristiques du vecteur de caract�ristique.

Sortie: le trafic r�seau d'application d'un ensemble de type M.

mod�le de classification de processus de classification peut �tre r�sum� comme configur� g: S C et les mod�les de mappage f: C M.

2 r�sultats et analyse exp�rimentale

2.1 outil exp�rimental, jeu de fonctions de donn�es de s�lection

Les principaux outils exp�rimentaux utilis�s ici sont Matlab 8.1 et 3.8 Weka. Universit� de Waikato, Nouvelle-Z�lande Weka est un environnement de d�veloppement bas� sur l'apprentissage JAVA machine open-source et des donn�es software mining, le logiciel comprend une vari�t� d'algorithmes d'apprentissage machine, et de fournir des interfaces Java pour le d�veloppement de l'algorithme de code �crit par l'utilisateur .

Des exp�riences utilisant MOORE A W et al. Dans l'ensemble des donn�es exp�rimentales Moore_set utilis� comme ensemble de donn�es de source, qui est la classification du trafic de r�seau dans l'ensemble de donn�es d'essai la plus autoris�e. Moore_set r�seau contient des flux d'�chantillons 378,101, un total de 10 types d'applications, de l'information statistique, comme indiqu� dans le tableau 1.

�tant donn� que le r�seau d'�coulement Moore_set plus grand nombre total d'�chantillons, le nombre d'�chantillons et INT JEUX deux types d'application est relativement trop faible, pas repr�sentatif, il est un sous-ensemble de donn�es s�lectionn� Moore_set de Moore_subset ici en tant que jeu de donn�es exp�rimentales, et supprime INT JEUX deux applications et types. statistiques exp�rimentales ensemble de donn�es pr�sent�es dans le tableau 2.

MOORE AW et al 249 propri�t�s caract�ristiques statistiques peuvent �tre utilis�es pour la classification des flux dans le document (la derni�re propri�t� caract�ristique est une propri�t� cible, � savoir, ce qui indique le type de trafic r�seau de l'application appartient, de sorte que les r�elles propri�t�s caract�ristiques au total 248), il couvre la grande majorit� des caract�ristiques de la classification des flux de courant utilis� dans l'�tude. Ces caract�ristiques peuvent �tre divis�s en traits caract�ristiques unidirectionnelles et bidirectionnelles, y compris les deux sens fonctionnalit�s du serveur et un num�ro de port de client, les statistiques des temps inter-arriv�e des paquets, les statistiques longueur de trame d'octets Ethernet, la longueur des octets des statistiques sur les paquets et analogues, dans lequel le sens unique nombre total d'octets transf�r�s, diff�rents nombre de paquets de transmission de donn�es (y compris le paquet ACK, paquet pur ACK, le paquet de SACK, le paquet PUSH, le paquet SYN, etc.), le nombre de paquets de donn�es utiles TCP, le nombre de paquets d'une fen�tre de retransmission des param�tres statistiques associ�s, temps de transmission de donn�es, le temps de repos, le d�bit et analogues.

� l'heure actuelle classification du trafic bas� sur les m�thodes d'apprentissage statistique, en g�n�ral 10 � 20 longs m�trages s�lectionn�s de la fonction 248. En effet, il y a de nombreuses fonctionnalit�s redondantes et des caract�ristiques non li�es au-dessus de 248 caract�ristiques, si tout usage augmentera non seulement consid�rablement le syst�me de classification des flux de charge, ou encore plus faible pr�cision de la classification. K-means algorithme prenant en compte les caract�ristiques intrins�ques, nous avons s�lectionn� 11 attributs caract�ristiques repr�sentatives de caract�risation de flux de r�seau, des informations sp�cifiques, comme indiqu� dans le tableau 3, dans lequel l'identificateur est d�fini conform�ment � la litt�rature est.

2.2 Analyse des r�sultats exp�rimentaux

L'ensemble des donn�es exp�rimentales est d�fini dans chaque type d'application Moore_subset nombre respectif de flux de flux de r�seau est marqu� pour le type comportant une partie � la fois de . Dans l'algorithme de classification bas� sur la densit�, la densit� de la d�finition de l'ensemble des donn�es exp�rimentales varie varie, en fonction de l'exp�rience, de sorte que le rayon du coefficient exp�rimental = 1.

A = 5%, = 1 cas, les K-moyennes algorithme ex�cut� (k = 8) ci-dessus et am�lior� algorithme K-means, respectivement, pour obtenir la pr�cision de classification pour chaque application, comme le montre la Fig. Comme on peut le voir sur la figure, m�me dans le cas o� le nombre optimal de clusters est donn�e � l'avance, les K-means pour am�liorer la pr�cision de la classification du trafic r�seau est encore plus �lev� que les K-means algorithme standard, puisque le groupe initial s�lectionnez le centre affectent directement les r�sultats de clustering, et une meilleure optimisation de l'algorithme a �t� effectu�.

Ainsi , le nombre de flux d'impact de l'ensemble de donn�es de test est marqu� sur la taille des r�sultats de classification du r�seau. Le trafic r�seau dans le cas de valeurs diff�rentes de pr�cision globale de la classification repr�sent�e sur la figure. Comme on peut le voir sur la figure, plus la proportion du flux r�seau marqu�, � savoir, plus le nombre est �lev�, plus la pr�cision globale de la classification.

En g�n�ral, la classification du trafic r�seau gr�ce � la m�thode am�lior�e a une meilleure pr�cision en termes de stabilit�, le taux de pr�cision de la classification de l'ensemble du trafic r�seau peut atteindre 90% pour r�pondre � certaines exigences de la classification des applications de r�seau.

3 Conclusion

Tout d'abord, deux inconv�nients majeurs pour les K-moyennes normalis�es algorithme pour d�terminer le nombre optimal de clusters en am�liorant la s�lection de centres de cluster initiales bas�es sur la densit� des id�es et l'introduction de l'algorithme de la fonction de crit�re de validit� de la grappe est enti�rement optimis�e, selon puis � ce document pr�sente une m�thode de classification de trafic r�seau bas� sur algorithme am�lior� K-means. Des exp�riences sur des donn�es fiables montrent ensembles Moore_set que la m�thode de classification peut obtenir de meilleurs r�sultats de classification, pour r�pondre � certaines classification des applications de r�seau demande. Mais il convient de noter �galement que le d�veloppement de la technologie, de nouvelles applications r�seau �mergentes, la conception de l'architecture de r�seau optimiser en permanence l'�volution, de sorte que les probl�mes de classification du trafic r�seau continuent de faire face � d'�normes nouveaux d�fis, comme les donn�es sans perte � temps r�el � haut d�bit d�fis li�s � l'acquisition, l'application du protocole de privatisation et les caract�ristiques de diversification � l'analyse de protocole d'application d�fis du classificateur d�fis de d�ploiement en ligne face. Ce sont la direction future des efforts de recherche se poursuivent.

r�f�rences

Wang Lidong, Qian Liping, Wang Dawei, etc. m�thodes de classification du trafic r�seau et la pratique . P�kin: Messages populaire et des t�l�communications Press, 2013.

Qiu Jing, XIA Jing-bo, Parc juin Bas� sur la classification des arbres de d�cision SVM du trafic r�seau contr�le �lectro-optique, 2012,19 (6): 13-16.

Bo Chun, XIA Jing-bo, pays Lu Chuan, la classification du trafic r�seau et en fonction de la RVM Universit� des sciences et de la technologie �lectronique, 2014,43 (2): 241-246.

ERMAN J, MAHATI A, Arlitt, la classification du trafic r�seau M.Semi supervis� .Proceedings de 2007 ACM Sigmetrics Conf�rence internationale sur la mesure et la mod�lisation des syst�mes informatiques, New York, �tats-Unis, 2007: 369-371.

Zhouwen Gang, Chen Thunder Dong Shi, algorithme de classification du trafic r�seau et sur la base semi-supervis� �lectronique de mesure et instrument, 2014,28 (4): 381-386.

. Yuanmei Yu exploration de donn�es et l'apprentissage de la machine: WEKA technologie et la pratique d'application . P�kin: Tsinghua University Press, 2014.

MOORE A W, Zuev D.Internet classification du trafic en utilisant des techniques d'analyse bay�sienne .Proceedings de 2005 ACM Sigmetrics Conf�rence internationale sur la mesure et la mod�lisation des syst�mes informatiques, Banff, Canada, 2005: 50-60.

MOORE A W, D Zuev, M.Discriminators Crogan pour une utilisation dans la classification bas� sur des flux, RR-05-13 .London: Universit� Queen Mary de Londres 2005.

Route de la soie

Apprenez � conna�tre la Chine

Sur la base algorithme am�lior� K-means de classification du trafic r�seau