摘要
arXiv:2504.04222v1 声明类型: cross
摘要:机器学习(ML)驱动的网络流量分析广泛应用于威胁检测。不幸的是,它们在不同任务和未见数据上的泛化能力非常有限。大型语言模型(LLMs),因其强大的泛化能力而备受关注,在多个领域表现出了令人鼓舞的性能。然而,由于网络流量的独特特性,其在流量分析领域的应用受到限制。为了解决这一问题,本文提出了一种名为TrafficLLM的双重阶段微调框架,该框架从异构的原始流量数据中学习通用的流量表示。该框架通过流量领域标记化、双重阶段调优管道以及可扩展的适应性,帮助LLM在动态流量分析任务中释放泛化能力,从而使其能够跨多种下游任务进行流量检测和流量生成。我们在10种不同的场景和229种类型的流量上评估了TrafficLLM。TrafficLLM在检测和生成方法上的F1分数分别为0.9875和0.9483,与现有方法相比,分别提升了80.12%和33.92%的性能。此外,它在未见过的流量上的泛化能力也得到了增强,性能提升了18.6%。我们进一步在现实场景中评估了TrafficLLM。结果表明,TrafficLLM易于扩展,并在企业流量上实现了准确的检测性能。