摘要
arXiv:2406.05055v2 宣告类型:替换
摘要:大型语言模型(LLMs)在推理任务中,包括数学推理方面表现出令人印象深刻的能力。然而,当前的评估主要集中在精心构建的基准上,并忽视了真实世界推理问题的考虑,这些问题由于缺失或矛盾的条件而被称为不明确的问题。为更深入研究这一问题,我们开发了一个大规模基准,称为缺失和矛盾条件下的问题(PMC),包含超过5000个验证过的不明确数学问题。通过PMC进行的初步实验揭示了现有方法面临的两个挑战:(1)传统方法在解题准确性和拒绝能力之间存在权衡,(2)形式化方法在建模复杂问题时存在困难。为了应对这些挑战,我们开发了变量约束搜索(VCSEARCH),这是一种无需训练的框架,利用形式语言检测不明确的问题,其中结合了变量约束对的搜索策略以提高形式语言的建模能力。广泛的实验表明,VCSEARCH 在不同LLMs中识别不可解问题的准确性至少提高了12%,从而实现了更强的稳健数学推理能力。