LLM2D
通过在线学习与自适应推测实现自动化安全响应
Automated Security Response through Online Learning with Adaptive Conjectures
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2402.12499v3

摘要

我们研究了 IT 基础设施的自动化安全响应,并将攻击者和防御者之间的互动建模为一个部分可观察的、非平稳的博弈。我们放宽了博弈模型正确指定的标准假设,考虑每个玩家对模型有一个概率性的猜测,而这种猜测可能是错误的,即真实模型的概率为 0。这个模型允许我们捕捉对基础设施和玩家意图的不确定性和误解。为了在线学习有效的博弈策略,我们设计了推测在线学习(COL)方法,这是一种新颖的方法,玩家通过贝叶斯学习迭代地调整其猜测,并通过展开更新其策略。我们证明了这些猜测会收敛到最佳拟合,并提供了展开在猜测模型中所带来的性能提升的界限。为了描述博弈的稳态,我们提出了 Berk-Nash 均衡的一个变体。我们通过一个高级持续性威胁的案例展示了 COL。测试平台的评估显示,COL 产生了有效的安全策略,能够适应不断变化的环境。我们还发现,COL 比当前的强化学习技术收敛速度更快。