LLM2D

摘要

我们研究了 IT 基础设施的自动化安全响应，并将攻击者和防御者之间的互动建模为一个部分可观察的、非平稳的博弈。我们放宽了博弈模型正确指定的标准假设，考虑每个玩家对模型有一个概率性的猜测，而这种猜测可能是错误的，即真实模型的概率为 0。这个模型允许我们捕捉对基础设施和玩家意图的不确定性和误解。为了在线学习有效的博弈策略，我们设计了推测在线学习（COL）方法，这是一种新颖的方法，玩家通过贝叶斯学习迭代地调整其猜测，并通过展开更新其策略。我们证明了这些猜测会收敛到最佳拟合，并提供了展开在猜测模型中所带来的性能提升的界限。为了描述博弈的稳态，我们提出了 Berk-Nash 均衡的一个变体。我们通过一个高级持续性威胁的案例展示了 COL。测试平台的评估显示，COL 产生了有效的安全策略，能够适应不断变化的环境。我们还发现，COL 比当前的强化学习技术收敛速度更快。