摘要
arXiv:2505.08459v1 对手类型: 新
摘要: 在对抗领域中,有效地建模和利用对手一直是长期存在的挑战。经过大量文本数据训练的大语言模型(LLMs)最近在通用任务中表现出色,为对手建模带来了新的研究方向。一些研究主要侧重于直接利用LLMs根据包含对手描述的详细提示上下文生成决策,而这些方法局限于LLMs具备充足领域专业知识的场景。为了解决这个问题,我们引入了一种两阶段策略增强规划(SAP)框架,显著增强了基于LLM的代理的对手利用能力,利用了一个关键组件,策略评估网络(SEN)。具体来说,在离线阶段,我们构建了一个明确的策略空间,随后收集策略-结果对数据以训练SEN网络。在在线阶段,SAP动态识别对手的策略,并通过在充分训练的SEN中搜索最佳响应策略贪婪地利用它们,最终通过精心设计的提示将策略转化为行动方案。实验结果显示,SAP表现出色的应用能力,不仅能够有效地对抗之前遇到的对手策略,还能有效应对全新的未知策略。在MicroRTS环境中,SAP相对于基线方法实现了85.35%的性能提升,并且与基于最新规则的AI的竞争性相匹配,达到了强化学习方法对最先进的(SOTA)规则基础AI的竞争力。