LLM2D

摘要

arXiv:2502.08550v1 交叉类型公告摘要：从错误中学习是人类智能的基本特征。以往研究表明，当提供详细的错误答案解释或如何纠正错误的答案时，大规模语言模型（LLMs）也可以从错误答案中学习。在这项工作中，我们探讨在未提供此类解释的情况下，LLMs是否可以从数学推理任务中的错误中学习。我们研究LLMs是否能够仅通过观察不正确和正确的答案来隐含推断出这种解释。令人惊讶的是，我们发现，当从上下文中消除解释并仅显示不正确和正确的答案时，LLMs的平均表现更好。这种方法在我们的评估中还显著优于链式思考提示。我们展示了这些结果在不同规模和不同推理能力的LLMs中是一致的。此外，我们进行了深入分析，并展示了使用不正确和正确答案的提示比引入更多样化的其他问题-答案对获得了更好的性能和更好的泛化能力。最后，我们表明，仅观察过不正确和正确答案的模型生成的新解释，由人类评估的得分与使用示范解释生成的解释相当。我们的结果显示，LLMs确实具备上下文中的隐含学习能力。