LLM2D
TrafficLLM:通过通用流量表示增强大规模语言模型的网络流量分析
TrafficLLM: Enhancing Large Language Models for Network Traffic Analysis with Generic Traffic Representation
作者: Tianyu Cui, Xinjie Lin, Sijia Li, Miao Chen, Qilei Yin, Qi Li, Ke Xu
发布日期: 4/16/2025
arXiv ID: oai:arXiv.org:2504.04222v2

摘要

arXiv:2504.04222v2 宣告类型: replace-cross 摘要:基于机器学习(ML)的网络流量分析已经被广泛用于威胁检测的目的。不幸的是,它们在不同任务和未见过的数据上的泛化能力非常有限。大型语言模型(LLMs),因其强大的泛化能力而闻名,在各个领域中表现出令人鼓舞的性能。然而,LLMs 在应用于网络流量分析领域时受到限制,因为网络流量具有非常不同的特征。为了解决这个问题,本文提出了一种名为 TrafficLLM 的技术,它引入了一种双阶段微调架构,可以从异构的原始流量数据中学习通用的流量表示。该架构使用基于网络流量领域的标记化、双阶段微调流水线和可扩展的适应性来帮助 LLM 在动态流量分析任务中释放泛化能力,从而使其能够在广泛的目标下游任务中实现流量检测和流量生成。我们跨越了 10 种不同的场景和 229 类流量对 TrafficLLM 进行了评估。TrafficLLM 达到了 0.9875 和 0.9483 的 F1 分数,在检测和生成方法上的性能分别提高了 80.12% 和 33.92%。此外,它在未见过的流量上的泛化能力也表现出色,性能提高了 18.6%。我们进一步在实际场景中对 TrafficLLM 进行了评估。结果证实,TrafficLLM 可以轻松扩展,并且在企业流量上实现了准确的检测性能。