摘要
arXiv:2411.14550v2 宣告类型: replace-cross
摘要:在当前的数字时代,由各种网络活动生成的数据量变得巨大且不断增长。这些数据可能包含有价值的见解,可以被用来提高网络安全措施。然而,其中大部分数据是未分类的和定性的,这对传统分析方法提出了重大挑战。聚类通过将相似的数据点分组来识别数据中的隐藏模式和结构,从而简化了对威胁的识别和应对。聚类可以定义为数据挖掘(DM)方法,它利用相似性计算将数据集划分为多个类别。常见的聚类算法有层次聚类、基于密度的聚类和划分聚类算法。本研究使用了K-means算法,这是一种常见的聚类技术。通过使用K-means算法,我们处理了两种不同类型的数据:首先,我们使用XG-boost算法进行了数据聚合,之后使用K-means算法收集数据。数据是通过Kali Linux环境、cicflowmeter流量和Putty软件工具以及各种简单的攻击收集的。这个概念可以帮助识别与已知攻击类型不同的新攻击类型,并根据它们所表现出的特征对它们进行标记,因为网络威胁的动态性意味着经常会涌现出新的攻击类型,而这些攻击类型可能尚未有标记的数据。模型统计了攻击数量并将每个攻击分配了一个数字。其次,我们在Kaggle存储库中的名为(Intrusion Detection in Internet of Things Network)的现成数据上进行了同样的工作,聚类模型表现良好,正确检测了攻击的数量,如结果部分所示。