摘要
arXiv:2501.19206v1 宣告类型: 新
摘要: 近期日益 sophisticated 的网络攻击促使需要具备强大和弹性自主网络防御(ACD)代理。鉴于网络攻击战术、技术和程序(TTPs)的多样性,学习能够返回可泛化的策略的方法是有必要的。同时,ACD代理的保障仍然是一个开放的挑战。我们通过 实证博弈论分析的方法,利用原则性的双方oracle (DO)算法来解决这两种挑战,这种方法是通过对手迭代学习针对对方策略的 (近似的) 最佳响应。这是一个对于自主网络操作代理来说计算上昂贵的过程。在这项工作中,我们介绍并评估了一种理论上合理且基于潜力的奖励塑造方法,以加速这一过程。此外,鉴于开源的 ACD-DRL方法的不断增加,我们扩展了DO形式化方法,以允许多个响应oracle (MRO),从而提供了一种综合评估ACD方法的框架。