Sur la base algorithme amélioré K-means de classification du trafic réseau

Résumé: Pour le système de classification du trafic réseau, en particulier pour le système d'identification en temps réel la mise en uvre complexité et les exigences de précision de la classification, nous avons proposé un taux de compromis et de précision complexe. Effectué par K-means centres de classe initiaux choisis au hasard cette densité de défaut critique basée sur l'idée d'une amélioration, et l'introduction de la fonction de critère de validité du cluster pour déterminer le nombre final de clusters pour atteindre l'algorithme complet d'optimisation, puis proposée sur la base K améliorée -un moyen algorithme de classification du trafic réseau, tout en prenant en compte l'algorithme K-means est simple et facile à mettre en uvre, rapide propose la classification pour améliorer la précision de la classification. Expériences sur le décrit des ensembles de données de trafic réseau de l'émission d'autorité par rapport à la méthode normale K-means a une précision de classification supérieur et une meilleure stabilité dans la classification du trafic réseau.

TP393

A

10,16157 / j.issn.0258-7998.171337

format de citation chinois: Liu Jiwei, Zhao Yang, Li Shaohui Une méthode de classification de trafic réseau basé sur algorithme amélioré K-means Technologie électronique, 2017,43 (11): 86-89,94.

Anglais format de citation: Liu Jiwei, Zhao Yang, Li Shaohui. Une méthode de classification du trafic réseau en fonction algorithme amélioré K-means .Application Technique électronique, 2017,43 (11): 86-89,94.

0 introduction

Réseau des moyens de classification du trafic pour mélanger une variété d'applications trafic classé par le trafic de protocole d'application de production. la classification du trafic réseau est à la fois une conception de protocole de réseau haute performance basé sur le fonctionnement du réseau et la gestion est un moyen important selon le plan de développement du réseau, ainsi que la détection des attaques de réseau et le code malveillant .

Depuis la naissance de l'Internet, du monde universitaire et de l'industrie ont été étudiés pour la classification du trafic réseau. Sur les progrès actuels dans la recherche, la classification du trafic réseau peuvent être classés en quatre méthodes principales: en fonction de la mise en correspondance de port standard, le protocole de réseau basé sur l'inspection approfondie des paquets (Deep Packet Inspection, DPI) sur la base analytique et basé sur des algorithmes d'apprentissage statistique.

L'ampleur du développement a donné lieu à la cartographie Internet d'aujourd'hui entre le port et l'application est plus fixe, la classification du trafic basée sur le port pour le dépistage général de l'écoulement à gros grains, une faiblesse majeure de la méthode de classification à base de DPI ne convient pas pour le trafic crypté, en plus des questions juridiques impliquera atteinte à la vie privée, la classification de l'analyse du trafic du réseau de protocole basé sur le réseau se réfère à l'analyse du trafic de protocole ou de comportement, l'utilisation des caractéristiques d'écoulement ou des caractéristiques de comportement pour mettre en uvre la classification du trafic, le trafic réseau basé sur la classification de l'apprentissage statistique définir un ensemble de flux (flux, généralement l'adresse IP source, l'adresse IP de destination, numéro de port source, numéro de port de destination et le protocole pentad défini) caractéristiques statistiques, puis en utilisant un algorithme d'apprentissage machine pour former le modèle de classification, puis en utilisant ce modèle classification ultérieure du trafic réseau. Actuellement, les deux catégories inquiétude généralisée dans les milieux universitaires. Document avec SVM (Support Vector Machine, SVM) décision avantage arbre de classification multi-classe, une méthode de classification du trafic réseau avec un arbre de décision SVM, les résultats expérimentaux montrent que l'ensemble de données est divulguée la méthode de taux de précision de la classification a atteint 98,8%. Document modèle de classification Pertinence Vector machine (Pertinence Vector Machine, RVM) est appliquée à la classification du trafic réseau, il est proposé une méthodes de classification du trafic hybride, et est supérieur en termes de précision et d'autres indicateurs de performance 3 SVM. ERMAN J et al. Dans décrit une méthode de classification des flux de données algorithme de classification d'apprentissage semi-supervisé basé sur l'utilisation de K-means, les résultats expérimentaux montrent que cette méthode peut atteindre un taux de précision globale de reconnaissance de 70% à 90% , mais l'algorithme de sélection dans les centres de cluster initial est encore bien choisi au hasard. Document K-means pour sélectionner les centres de cluster initial a été amélioré par la fonction de similarité en fonction du facteur de densité pour répondre aux exigences de la cohérence globale des grappes de données pour un centre de cluster initial plus appropriés, mais encore besoin de nombre prédéterminé de clusters k.

Dans de nombreux algorithmes d'apprentissage machine actuellement utilisés dans la classification du trafic réseau, l'algorithme K-means est les algorithmes les plus utilisés. Cependant, l'algorithme K-means présente deux inconvénients majeurs: (1) nécessite la détermination préalable de la taille du numéro de groupe k, (2) un algorithme standard centres initialement grappe pour les résultats de l'algorithme de sélection aléatoire dans les données sensibles anormale, la classification la précision ont un impact plus grand. études antérieures chercheurs en liaison avec cet article, pour deux inconvénients principaux algorithme K-means de l'algorithme est entièrement optimisé, la zone de données est divisée par l'idéologie sur la base de la densité, générant des centres de classes initiaux à partir d'une zone à haute densité; déterminer l'efficacité de l'introduction de la grappe la fonction de critère, pour déterminer le nombre optimal de groupes k. Les résultats expérimentaux montrent que l'algorithme optimisé pour améliorer la précision de la classification du trafic réseau, améliorer la stabilité de la classification.

Une description de l'algorithme

1.1 définitions

Les K-moyens traditionnels de clustering besoins de l'algorithme pour déterminer à l'avance le nombre de k, k et sélectionnés au hasard des centres de cluster initial, mais cette sélection aléatoire souvent conduit à des résultats de clustering sont très volatils. Selon les caractéristiques du comportement et les caractéristiques statistiques des émissions de trafic réseau que le même type de données de flux d'application sont souvent réparties dans une des régions relativement denses, différentes zones de forêts denses et seront d'isoler une partie de la zone clairsemée. Ainsi, le choix des centres de cluster initial, compte tenu de la densité de l'objet de données, la région à haute densité est générée comme un ensemble de candidats des centres de cluster. Pendant ce temps, afin de déterminer le nombre optimal de clusters k, fixés artificiellement à l'impact d'éviter, la fonction de critère de validité du cluster est défini sur la précision de la classification, le nombre de grappes lorsque la valeur minimale que la fonction de critère optimal pour obtenir le nombre de grappes.

les données fournies ensemble S = {xi | xiRp, i = 1,2,3, ..., n}, où n est le nombre de l'ensemble des objets de données, p est la dimension spatiale des données.

Ensemble de données S 1 est défini entre deux objets de données xi, xj est la distance entre la distance euclidienne, à savoir:

Où, k et k est le nombre de grappes > 2, | Ci | Ci est le nombre de données d'objets dans un cluster, xi, xj respectivement cluster Ci, Cj objet de données centrale moyenne. di (k), db (k) désigne la distance entre le pôle et les données de groupe de l'ensemble S, il est utilisé pour décrire la similitude entre la dissimilarité entre le même type de données et différents types de données.

Vu de la formule (6) à (9), la distance intra-groupe est défini comme le minimum grappe chaque objet de données et la distance moyenne entre tous les autres objets de la même grappe, les données de la grappe de l'ensemble S de k classes de valeur maximale des distances, la distance du centre moyen minimum entre les objets de données entre des groupes de données ensemble S est définie comme étant la distance entre les k classes. Par la formule (5) peut être vu, plus le di (k), db (k), la plus petite de la fonction de critère valeur J (k), lorsque J (k) prend une valeur minimale représentant l'ensemble de données de grappe S la plus forte similarité entre les objets de données, la différence maximale inter-groupe entre les objets de données. choisissez donc de faire J (k) à la valeur minimale de k le nombre optimal de clusters.

1.2 Classification basée sur l'amélioration de K-means du trafic réseau

Alors que C = {c1, c2, c3, ..., ck} représente l'ensemble des clusters clusters de trafic réseau, k est le nombre de grappes. M = {m1, m2, m3, ..., m} réseau d'application de la circulation un ensemble de types, r est le nombre de types d'application, rk, la classification actuelle du trafic réseau application f: C M.

Dans ce document, l'estimation du maximum de vraisemblance pour mettre en uvre l'application f. Sur la base de l'estimation du maximum de vraisemblance, le modèle probabiliste est la carte définie f:

Pour le cluster ne contient aucun type de marques de flux de réseau, il correspond au trafic réseau est identifié comme un type d'application inconnus.

méthode de classification du trafic réseau est décrit en détail comme suit:

Entrée: trafic réseau (le trafic) circulant caractéristiques statistiques (Flow) Propriétés Caractérisation ensemble S = {x1, x2, ..., xn}, xi = (t1, t2, ..., tp), xi représente un comprend p item flux de réseau attributs caractéristiques du vecteur de caractéristique.

Sortie: le trafic réseau d'application d'un ensemble de type M.

modèle de classification de processus de classification peut être résumé comme configuré g: S C et les modèles de mappage f: C M.

2 résultats et analyse expérimentale

2.1 outil expérimental, jeu de fonctions de données de sélection

Les principaux outils expérimentaux utilisés ici sont Matlab 8.1 et 3.8 Weka. Université de Waikato, Nouvelle-Zélande Weka est un environnement de développement basé sur l'apprentissage JAVA machine open-source et des données software mining, le logiciel comprend une variété d'algorithmes d'apprentissage machine, et de fournir des interfaces Java pour le développement de l'algorithme de code écrit par l'utilisateur .

Des expériences utilisant MOORE A W et al. Dans l'ensemble des données expérimentales Moore_set utilisé comme ensemble de données de source, qui est la classification du trafic de réseau dans l'ensemble de données d'essai la plus autorisée. Moore_set réseau contient des flux d'échantillons 378,101, un total de 10 types d'applications, de l'information statistique, comme indiqué dans le tableau 1.

Étant donné que le réseau d'écoulement Moore_set plus grand nombre total d'échantillons, le nombre d'échantillons et INT JEUX deux types d'application est relativement trop faible, pas représentatif, il est un sous-ensemble de données sélectionné Moore_set de Moore_subset ici en tant que jeu de données expérimentales, et supprime INT JEUX deux applications et types. statistiques expérimentales ensemble de données présentées dans le tableau 2.

MOORE AW et al 249 propriétés caractéristiques statistiques peuvent être utilisées pour la classification des flux dans le document (la dernière propriété caractéristique est une propriété cible, à savoir, ce qui indique le type de trafic réseau de l'application appartient, de sorte que les réelles propriétés caractéristiques au total 248), il couvre la grande majorité des caractéristiques de la classification des flux de courant utilisé dans l'étude. Ces caractéristiques peuvent être divisés en traits caractéristiques unidirectionnelles et bidirectionnelles, y compris les deux sens fonctionnalités du serveur et un numéro de port de client, les statistiques des temps inter-arrivée des paquets, les statistiques longueur de trame d'octets Ethernet, la longueur des octets des statistiques sur les paquets et analogues, dans lequel le sens unique nombre total d'octets transférés, différents nombre de paquets de transmission de données (y compris le paquet ACK, paquet pur ACK, le paquet de SACK, le paquet PUSH, le paquet SYN, etc.), le nombre de paquets de données utiles TCP, le nombre de paquets d'une fenêtre de retransmission des paramètres statistiques associés, temps de transmission de données, le temps de repos, le débit et analogues.

À l'heure actuelle classification du trafic basé sur les méthodes d'apprentissage statistique, en général 10 à 20 longs métrages sélectionnés de la fonction 248. En effet, il y a de nombreuses fonctionnalités redondantes et des caractéristiques non liées au-dessus de 248 caractéristiques, si tout usage augmentera non seulement considérablement le système de classification des flux de charge, ou encore plus faible précision de la classification. K-means algorithme prenant en compte les caractéristiques intrinsèques, nous avons sélectionné 11 attributs caractéristiques représentatives de caractérisation de flux de réseau, des informations spécifiques, comme indiqué dans le tableau 3, dans lequel l'identificateur est défini conformément à la littérature est.

2.2 Analyse des résultats expérimentaux

L'ensemble des données expérimentales est défini dans chaque type d'application Moore_subset nombre respectif de flux de flux de réseau est marqué pour le type comportant une partie à la fois de . Dans l'algorithme de classification basé sur la densité, la densité de la définition de l'ensemble des données expérimentales varie varie, en fonction de l'expérience, de sorte que le rayon du coefficient expérimental = 1.

A = 5%, = 1 cas, les K-moyennes algorithme exécuté (k = 8) ci-dessus et amélioré algorithme K-means, respectivement, pour obtenir la précision de classification pour chaque application, comme le montre la Fig. Comme on peut le voir sur la figure, même dans le cas où le nombre optimal de clusters est donnée à l'avance, les K-means pour améliorer la précision de la classification du trafic réseau est encore plus élevé que les K-means algorithme standard, puisque le groupe initial sélectionnez le centre affectent directement les résultats de clustering, et une meilleure optimisation de l'algorithme a été effectué.

Ainsi , le nombre de flux d'impact de l'ensemble de données de test est marqué sur la taille des résultats de classification du réseau. Le trafic réseau dans le cas de valeurs différentes de précision globale de la classification représentée sur la figure. Comme on peut le voir sur la figure, plus la proportion du flux réseau marqué, à savoir, plus le nombre est élevé, plus la précision globale de la classification.

En général, la classification du trafic réseau grâce à la méthode améliorée a une meilleure précision en termes de stabilité, le taux de précision de la classification de l'ensemble du trafic réseau peut atteindre 90% pour répondre à certaines exigences de la classification des applications de réseau.

3 Conclusion

Tout d'abord, deux inconvénients majeurs pour les K-moyennes normalisées algorithme pour déterminer le nombre optimal de clusters en améliorant la sélection de centres de cluster initiales basées sur la densité des idées et l'introduction de l'algorithme de la fonction de critère de validité de la grappe est entièrement optimisée, selon puis à ce document présente une méthode de classification de trafic réseau basé sur algorithme amélioré K-means. Des expériences sur des données fiables montrent ensembles Moore_set que la méthode de classification peut obtenir de meilleurs résultats de classification, pour répondre à certaines classification des applications de réseau demande. Mais il convient de noter également que le développement de la technologie, de nouvelles applications réseau émergentes, la conception de l'architecture de réseau optimiser en permanence l'évolution, de sorte que les problèmes de classification du trafic réseau continuent de faire face à d'énormes nouveaux défis, comme les données sans perte à temps réel à haut débit défis liés à l'acquisition, l'application du protocole de privatisation et les caractéristiques de diversification à l'analyse de protocole d'application défis du classificateur défis de déploiement en ligne face. Ce sont la direction future des efforts de recherche se poursuivent.

références

Wang Lidong, Qian Liping, Wang Dawei, etc. méthodes de classification du trafic réseau et la pratique . Pékin: Messages populaire et des télécommunications Press, 2013.

Qiu Jing, XIA Jing-bo, Parc juin Basé sur la classification des arbres de décision SVM du trafic réseau contrôle électro-optique, 2012,19 (6): 13-16.

Bo Chun, XIA Jing-bo, pays Lu Chuan, la classification du trafic réseau et en fonction de la RVM Université des sciences et de la technologie électronique, 2014,43 (2): 241-246.

ERMAN J, MAHATI A, Arlitt, la classification du trafic réseau M.Semi supervisé .Proceedings de 2007 ACM Sigmetrics Conférence internationale sur la mesure et la modélisation des systèmes informatiques, New York, États-Unis, 2007: 369-371.

Zhouwen Gang, Chen Thunder Dong Shi, algorithme de classification du trafic réseau et sur la base semi-supervisé Électronique de mesure et instrument, 2014,28 (4): 381-386.

. Yuanmei Yu exploration de données et l'apprentissage de la machine: WEKA technologie et la pratique d'application . Pékin: Tsinghua University Press, 2014.

MOORE A W, Zuev D.Internet classification du trafic en utilisant des techniques d'analyse bayésienne .Proceedings de 2005 ACM Sigmetrics Conférence internationale sur la mesure et la modélisation des systèmes informatiques, Banff, Canada, 2005: 50-60.

MOORE A W, D Zuev, M.Discriminators Crogan pour une utilisation dans la classification basé sur des flux, RR-05-13 .London: Université Queen Mary de Londres 2005.

Lire une application de papier et d'explorer Facebook ad AI +
Précédent
Square Enix nouveau « Silence » et est publié par Août plus
Prochain
Qualcomm Xiaolong Xiaolong 845855 par rapport au jeu de course le pouvoir d'économiser plus de 20%
affiche « Yi Chuan comme » exposé « dignité royale », le mariage du couple Monarch Siège
Le Parlement britannique est maintenant à moitié nus protestent contre brillante réaction des législateurs
Je ne pensais pas que vous êtes une telle personne, Yoo Ah-in
SE nouvelle uvre, « La Chute de Babylone », publié par les opérations de production Platinum Studios
conférence « épicerie Grief » facturé fichier donné l'exposition 1229 des troubles cardiaques cure réchauffent la Saint-Sylvestre
Pour vous donner creusa un carburant pour l'explosion de l'homme de jour de Dieu
Etude H-arbre et de maille d'horloge de mélange mettre en uvre l'arbre d'horloge sur la base du procédé 14 nm
"Call of Duty Black Ops 4" publication d'informations sur la version
2049 Quel genre de monde? Quel temps pris au piège Daniel?
Pourquoi la « dernière nuit » pas sur l'E3? Écoutez le producteur explication
Accéléromètre système de sortie avec la conception analogique-numérique mixte et la vérification