LLM2D

摘要

开发适用于网络安全中不同学习问题的通用化基于机器学习的解决方案非常需要。然而，尽管机器学习在网络安全领域有着悠久的应用历史，但大多数现有解决方案都缺乏泛化能力。这一进展的缺乏可归因于过度依赖监督学习技术以及与之相关的精心策划良好指定标记训练数据的挑战。本文通过引入一种新颖的基于Transformer的网络基础模型netFound来解决这一根本差距。我们利用丰富的未标记网络遥测数据进行自监督学习预训练。此预训练模型随后可以微调，以创建用于不同学习任务的通用化学习工件，即使使用常见但具有挑战性的标记数据集（这些数据集稀疏、嘈杂且存在偏差）。为了实现这一目标，netFound通过开发多模态嵌入、协议感知标记化、数据驱动标记组合和分层Transformer，利用网络数据（数据包跟踪）特有的各种特定领域属性和约束。我们的结果表明，netFound的特定领域设计选择确保其：(1)有效捕获生产环境中的隐藏网络上下文；(2)在五个不同的学习任务上优于四种不同的最先进方法；(3)对噪声标签和学习捷径具有鲁棒性——这对于在实际环境中开发通用的机器学习模型至关重要。