LLM2D

摘要

arXiv:2403.15509v2 通知类型: 交叉替换摘要：针对网络攻击检测的表示学习（RL）方法面临着攻击数据的多样性和复杂性，导致不同类别的混合表示问题，尤其是在类别数量增加时更为突出。为了解决这个问题，本文提出了一种新的深度学习架构/模型，称为双自动编码器（TAE）。TAE首先将输入数据映射到潜在空间，然后确定性地将不同类别的数据样本进一步分开，以创建可分的数据表示，称为表示目标。TAE的解码器将输入数据投影到这些表示目标中。经过训练后，TAE的解码器提取数据表示。TAE的表示目标充当一种新的动态码字，指的是表示特定类别的向量。这个向量在每次训练周期后都会根据每个数据样本更新，而传统的固定码字不包含输入数据的信息。我们对多种网络空间安全数据集进行了广泛的实验，包括七个IoT僵尸网络数据集、两个网络安全IDS数据集、三个恶意软件数据集、一个云DDoS数据集以及随着类别数量增加的十个人工数据集。当类别数量增加时，TAE在攻击检测中的准确性和F分数提高了约2%，在IoT攻击检测中的平均准确率达到了96.1%。此外，TAE非常适合网络安全应用，并且可能适用于IoT系统，其模型大小约为1 MB，从提取一个数据样本的平均运行时间约为2.6E-07秒。