LLM2D

摘要

arXiv:2503.22674v1 任务类型: 新摘要: 近年来，大量工作集中于提高大规模语言模型（LLMs）在数学和逻辑等推理基准任务上的表现。然而，过去的工作很大程度上假定任务是明确定义的。在现实世界中，对LLMs的查询通常并不明确，仅通过获取缺失信息才能解决。我们将这一问题形式化为包含缺失变量赋值的约束满足问题（CSP）。在这一形式化问题的一个特殊情况下，即仅缺少一个必要变量赋值的情况下，我们可以严格评估LLM识别最低必要询问的能力，并量化每个问题的难度轴。我们提出了QuestBench，这是一个可通过最多提出一个询问来解决的未充分说明的推理任务集，其中包括：（1）Logic-Q：缺失一个命题的逻辑推理任务，（2）Planning-Q：初始状态部分观察的PDDL规划问题，（3）GSM-Q：由人类标注的初中数学问题，缺失一个变量赋值，（4）GSME-Q：GSM-Q的版本，其中文字问题由人类标注者翻译成等式。LLM的任务是从列表选项中选择正确的澄清问题。虽然最新模型在GSM-Q和GSME-Q上表现出色，但在Logic-Q和Planning-Q上的准确率仅有40-50%。分析表明，能够解决明确定义的推理问题可能不足以在我们的基准测试中取得成功：即使他们能够解决完全定义的问题版本，模型也难以确定要提问的正确问题。此外，在Planning-Q领域，LLMs倾向于不进行含糊回答，即使明确提供了预测“不确定”的选项也是如此。这凸显了需要更深入地研究模型获取信息的能力。