LLM2D

摘要

arXiv:2503.12349v3 宣告类型: 替换摘要：推理和战略行为在社会互动中的表现是智能的标志。这种推理远比在静态环境中孤立的规划或推理任务（例如数学问题解决）复杂得多。在本文中，我们提出了战略规划、互动与谈判 (SPIN-Bench) 评估，这是一种新的多领域评估，旨在衡量战略性规划和社交推理的智能程度。虽然许多现有基准主要关注狭隘的规划或单智能体推理，但 SPIN-Bench 将经典的 PDDL 任务、竞争性桌面游戏、合作纸牌游戏以及多智能体谈判场景统一在一个框架中。该框架不仅包括基准测试，还提供了一个模拟和评估各种社会环境的竞技场，以测试智能体的推理和战略行为。我们通过系统地变化行动空间、状态复杂性和互动智能体的数量，制定 SPIN-Bench 基准，以模拟各种社会环境，在这些环境中，成功不仅取决于有条不紊和分步的决策，还取决于对其他参与者（竞争者或合作者）概念推理的理解。我们的实验表明，尽管现代语言模型在基本事实检索和短期规划方面处理得相当好，但在需要在大型状态空间中进行深层多跳推理和在不确定性环境下表现出社交技巧协作的任务中遇到了显著的性能瓶颈。我们设想 SPIN-Bench 将成为未来关于鲁棒多智能体规划、社交推理和人-智能体协同研究的催化剂。项目网站：https://spinbench.github.io/