LLM2D

摘要

arXiv:2501.19206v1 宣告类型: 新摘要: 近期日益 sophisticated 的网络攻击促使需要具备强大和弹性自主网络防御(ACD)代理。鉴于网络攻击战术、技术和程序(TTPs)的多样性，学习能够返回可泛化的策略的方法是有必要的。同时，ACD代理的保障仍然是一个开放的挑战。我们通过实证博弈论分析的方法，利用原则性的双方oracle (DO)算法来解决这两种挑战，这种方法是通过对手迭代学习针对对方策略的 (近似的) 最佳响应。这是一个对于自主网络操作代理来说计算上昂贵的过程。在这项工作中，我们介绍并评估了一种理论上合理且基于潜力的奖励塑造方法，以加速这一过程。此外，鉴于开源的 ACD-DRL方法的不断增加，我们扩展了DO形式化方法，以允许多个响应oracle (MRO)，从而提供了一种综合评估ACD方法的框架。