LLM2D

摘要

arXiv:2505.08459v1 对手类型: 新摘要: 在对抗领域中，有效地建模和利用对手一直是长期存在的挑战。经过大量文本数据训练的大语言模型（LLMs）最近在通用任务中表现出色，为对手建模带来了新的研究方向。一些研究主要侧重于直接利用LLMs根据包含对手描述的详细提示上下文生成决策，而这些方法局限于LLMs具备充足领域专业知识的场景。为了解决这个问题，我们引入了一种两阶段策略增强规划（SAP）框架，显著增强了基于LLM的代理的对手利用能力，利用了一个关键组件，策略评估网络（SEN）。具体来说，在离线阶段，我们构建了一个明确的策略空间，随后收集策略-结果对数据以训练SEN网络。在在线阶段，SAP动态识别对手的策略，并通过在充分训练的SEN中搜索最佳响应策略贪婪地利用它们，最终通过精心设计的提示将策略转化为行动方案。实验结果显示，SAP表现出色的应用能力，不仅能够有效地对抗之前遇到的对手策略，还能有效应对全新的未知策略。在MicroRTS环境中，SAP相对于基线方法实现了85.35%的性能提升，并且与基于最新规则的AI的竞争性相匹配，达到了强化学习方法对最先进的（SOTA）规则基础AI的竞争力。