LLM2D

摘要

在当今数字时代，各种网络活动产生的数据量巨大且不断增长。这些数据可能包含可用于改进网络安全措施的宝贵见解。然而，大部分数据未经分类且属于定性数据，这对传统的分析方法提出了重大挑战。聚类通过对相似数据点进行分组来帮助识别数据中隐藏的模式和结构，从而简化了威胁的识别和应对。聚类可以定义为一种数据挖掘 (DM) 方法，它使用相似性计算将数据集划分为多个类别。典型的聚类算法包括层次聚类、基于密度的聚类和划分聚类算法。本研究使用了 K 均值算法，这是一种流行的聚类技术。利用 K 均值算法，我们处理了两种不同类型的数据：首先，我们在使用 XG-Boost 算法完成聚合后，利用 K 均值算法收集数据。数据是利用 Kali Linux 环境、cicflowmeter 流量和 Putty 软件工具以及各种简单的攻击收集的。该方法有助于识别与已知攻击不同的新型攻击，并根据它们将展现的特征对其进行标记，因为网络威胁的动态特性意味着新型攻击经常出现，而这些攻击可能尚无标记数据。该模型对攻击进行了计数，并为每个攻击分配了编号。其次，我们尝试在 Kaggle 存储库中名为（物联网网络中的入侵检测）的现有数据集上进行了同样的工作，聚类模型运行良好，并正确检测了攻击数量，结果部分对此进行了展示。