LLM2D
从盲解者到逻辑思考者:评估LLM在故障数学问题上的逻辑完整性
From Blind Solvers to Logical Thinkers: Benchmarking LLMs' Logical Integrity on Faulty Mathematical Problems
作者: A M Muntasir Rahman, Junyi Ye, Wei Yao, Sierra S. Liu, Jesse Yu, Jonathan Yu, Wenpeng Yin, Guiling Wang
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2410.18921v2

摘要

arXiv:2410.18921v2 宣告类型: 交叉替换 摘要: 考虑这样一个数学问题:“莉莉昨天从她最好的朋友那里收到了3块饼干,早餐时吃了5块。今天,她的朋友又给了她3块饼干。莉莉现在有多少块饼干?” 在之前的许多研究中,大型语言模型(LLMs)通过计算“3 - 5 + 3”来得出答案“1”。但从人类的视角来看,我们知道这个问题本身存在一个固有的缺陷:莉莉不可能吃掉5块饼干,如果她最初只有3块。这种不一致引发了关键问题:当前的LLMs仅仅是盲目的解题者,他们在没有更深层次的推理时仅仅是应用数学运算,还是能够成为能够识别逻辑不一致性的逻辑思考者? 为了探讨这一问题,我们提出了一组基准数据集,名为FaultyMath,其中包括丰富多样且存在错误的数学问题:i) 多个数学类别,例如代数、几何、数论等;ii) 不同的难度级别;iii) 不同的错误来源——从违反常识和含糊的陈述到数学矛盾等。我们使用FaultyMath对开源、封闭源和专门针对数学的模型进行了全面的评估,在三个维度上进行测量:(i) 模型在没有明确提示的情况下,能够多准确地检测到错误的数学问题?(ii) 当提供关于问题有效性的提示(无论是正确的还是误导性的)时,LLMs在多大程度上能适应成为可靠的逻辑思考者?(iii) 当LLMs识别出一个数学问题存在缺陷时,它们生成的解释有多可靠?通过广泛的实验和详细的分析,我们的结果表明,现有的LLMs主要表现为盲目的解题者,在执行逻辑思考者的推理能力方面仍然不足。