LLM2D

摘要

arXiv:2406.05055v2 宣告类型：替换摘要：大型语言模型（LLMs）在推理任务中，包括数学推理方面表现出令人印象深刻的能力。然而，当前的评估主要集中在精心构建的基准上，并忽视了真实世界推理问题的考虑，这些问题由于缺失或矛盾的条件而被称为不明确的问题。为更深入研究这一问题，我们开发了一个大规模基准，称为缺失和矛盾条件下的问题（PMC），包含超过5000个验证过的不明确数学问题。通过PMC进行的初步实验揭示了现有方法面临的两个挑战：（1）传统方法在解题准确性和拒绝能力之间存在权衡，（2）形式化方法在建模复杂问题时存在困难。为了应对这些挑战，我们开发了变量约束搜索（VCSEARCH），这是一种无需训练的框架，利用形式语言检测不明确的问题，其中结合了变量约束对的搜索策略以提高形式语言的建模能力。广泛的实验表明，VCSEARCH 在不同LLMs中识别不可解问题的准确性至少提高了12%，从而实现了更强的稳健数学推理能力。