LLM2D

摘要

arXiv:2410.18921v2 宣告类型: 交叉替换摘要: 考虑这样一个数学问题：“莉莉昨天从她最好的朋友那里收到了3块饼干，早餐时吃了5块。今天，她的朋友又给了她3块饼干。莉莉现在有多少块饼干？” 在之前的许多研究中，大型语言模型（LLMs）通过计算“3 - 5 + 3”来得出答案“1”。但从人类的视角来看，我们知道这个问题本身存在一个固有的缺陷：莉莉不可能吃掉5块饼干，如果她最初只有3块。这种不一致引发了关键问题：当前的LLMs仅仅是盲目的解题者，他们在没有更深层次的推理时仅仅是应用数学运算，还是能够成为能够识别逻辑不一致性的逻辑思考者？为了探讨这一问题，我们提出了一组基准数据集，名为FaultyMath，其中包括丰富多样且存在错误的数学问题：i) 多个数学类别，例如代数、几何、数论等；ii) 不同的难度级别；iii) 不同的错误来源——从违反常识和含糊的陈述到数学矛盾等。我们使用FaultyMath对开源、封闭源和专门针对数学的模型进行了全面的评估，在三个维度上进行测量：(i) 模型在没有明确提示的情况下，能够多准确地检测到错误的数学问题？(ii) 当提供关于问题有效性的提示（无论是正确的还是误导性的）时，LLMs在多大程度上能适应成为可靠的逻辑思考者？(iii) 当LLMs识别出一个数学问题存在缺陷时，它们生成的解释有多可靠？通过广泛的实验和详细的分析，我们的结果表明，现有的LLMs主要表现为盲目的解题者，在执行逻辑思考者的推理能力方面仍然不足。