LLM2D

摘要

arXiv:2502.04686v1 公告类型: 新文摘要: 基于大型语言模型（LLM）的代理最近在多个领域中表现出显著的进步，包括开放性对话和多步决策。然而，将这些代理应用于如狼人杀这样的社交推理游戏仍然具有挑战性，因为这种游戏需要战略性决策和自由形式的语言交互。传统的基于反事实遗憾最小化（CFR）或强化学习（RL）的方法通常依赖于预定义的动作空间，这使得它们不适合语言游戏中的无约束文本动作空间。同时，纯粹基于LLM的代理往往受到内在偏见的影响，并且需要庞大且难以获取的精细调优数据集。我们提出了潜空间策略优化（LSPO），这是一种迭代框架，通过首先将自由形式的文本映射到一个离散的潜空间，在该空间中，像CFR和RL这样的方法可以更有效地学习战略性策略。然后，我们将学习到的策略翻译回自然语言对话，这些对话用于通过直接偏好优化（DPO）对LLM进行精细调优。通过交替进行这些阶段，我们的LSPO代理逐步提升了战略推理和语言交流能力。在狼人杀游戏上的实验结果表明，我们的方法在每次迭代中都提高了代理的表现，并且优于现有的狼人杀代理，这突显了其在自由形式语言决策中的潜力。