摘要
arXiv:2502.04686v1
公告类型: 新文
摘要: 基于大型语言模型(LLM)的代理最近在多个领域中表现出显著的进步,包括开放性对话和多步决策。然而,将这些代理应用于如狼人杀这样的社交推理游戏仍然具有挑战性,因为这种游戏需要战略性决策和自由形式的语言交互。传统的基于反事实遗憾最小化(CFR)或强化学习(RL)的方法通常依赖于预定义的动作空间,这使得它们不适合语言游戏中的无约束文本动作空间。同时,纯粹基于LLM的代理往往受到内在偏见的影响,并且需要庞大且难以获取的精细调优数据集。我们提出了潜空间策略优化(LSPO),这是一种迭代框架,通过首先将自由形式的文本映射到一个离散的潜空间,在该空间中,像CFR和RL这样的方法可以更有效地学习战略性策略。然后,我们将学习到的策略翻译回自然语言对话,这些对话用于通过直接偏好优化(DPO)对LLM进行精细调优。通过交替进行这些阶段,我们的LSPO代理逐步提升了战略推理和语言交流能力。在狼人杀游戏上的实验结果表明,我们的方法在每次迭代中都提高了代理的表现,并且优于现有的狼人杀代理,这突显了其在自由形式语言决策中的潜力。