LLM2D

摘要

arXiv:2411.14550v2 宣告类型: replace-cross 摘要：在当前的数字时代，由各种网络活动生成的数据量变得巨大且不断增长。这些数据可能包含有价值的见解，可以被用来提高网络安全措施。然而，其中大部分数据是未分类的和定性的，这对传统分析方法提出了重大挑战。聚类通过将相似的数据点分组来识别数据中的隐藏模式和结构，从而简化了对威胁的识别和应对。聚类可以定义为数据挖掘(DM)方法，它利用相似性计算将数据集划分为多个类别。常见的聚类算法有层次聚类、基于密度的聚类和划分聚类算法。本研究使用了K-means算法，这是一种常见的聚类技术。通过使用K-means算法，我们处理了两种不同类型的数据：首先，我们使用XG-boost算法进行了数据聚合，之后使用K-means算法收集数据。数据是通过Kali Linux环境、cicflowmeter流量和Putty软件工具以及各种简单的攻击收集的。这个概念可以帮助识别与已知攻击类型不同的新攻击类型，并根据它们所表现出的特征对它们进行标记，因为网络威胁的动态性意味着经常会涌现出新的攻击类型，而这些攻击类型可能尚未有标记的数据。模型统计了攻击数量并将每个攻击分配了一个数字。其次，我们在Kaggle存储库中的名为(Intrusion Detection in Internet of Things Network)的现成数据上进行了同样的工作，聚类模型表现良好，正确检测了攻击的数量，如结果部分所示。