LLM2D

摘要

arXiv:2504.07080v1 类型:跨领域摘要:尽管在奥林匹克级推理问题上表现出色，前沿的大语言模型在面对标准化基准之外的高中数学新问题时仍然可能会遇到困难。着眼于最终准确率之外，我们提出了一种演绎一致性度量来分析语言模型（LMs）的链式思考输出。形式上，演绎推理涉及两个子任务：理解输入前提集以及推理从这些前提得出的结论。提出的方法研究了LMs在这两个子任务上的表现，旨在解释LMs在新问题上的推理错误：随着上下文长度的增加，LMs理解输入前提的能力如何，以及它们能够在多次推理跳跃中推断哪些结论？由于现有的基准可能被记忆化，我们开发了一个管道来评估LMs在具有扰动版本的基准问题上的演绎一致性。在新的小学数学问题（GSM-8k）上，我们发现LMs对输入前提的数量增加表现出相当的鲁棒性，但在推理跳跃的数量增加时，准确性会显著下降。有趣的是，这些错误在原始基准中被隐藏，因为所有模型都达到了接近100%的准确性。当我们使用合成数据集增加解决方案步骤的数量时，多次跳跃的预测仍然是的主要出错点，而非理解输入前提。其他因素，如语言风格的变化或早期错误的自然传播，不能解释这种趋势。我们的分析为LM推理提供了一个新的视角，即作为输入前提和推理跳跃窗口上的计算，这可以提供跨问题领域的统一评估。