LLM2D
探究大型语言模型的演绎推理 robustness
Investigating the Robustness of Deductive Reasoning with Large Language Models
作者: Fabian Hoppe, Filip Ilievski, Jan-Christoph Kalo
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04352v1

摘要

arXiv:2502.04352v1 公告类型:交叉 摘要:大型语言模型(LLMs)在许多基于推理的自然语言处理(NLP)任务中取得了令人印象深刻的成果,这表明它们具有一定的演绎推理能力。然而,仍然不清楚LLMs在非正式和自动形式化方法中在逻辑推理任务上的鲁棒性程度如何。此外,尽管已经提出了许多基于LLM的推理方法,但缺乏对它们设计组件影响的系统研究。为了解决这两个挑战,我们提出了首个基于LLM的演绎推理方法的鲁棒性研究。我们设计了一个框架,其中包括两类扰动:对抗性噪声和反事实陈述,这两者共同生成了七个扰动数据集。我们根据推理格式、形式化语法以及错误恢复反馈将LLM推理器的景观组织起来。结果显示,对抗性噪声影响自动形式化,而反事实陈述影响所有方法。尽管详细的反馈减少了语法错误,但并未提高总体准确性,这表明基于LLM的方法在自我纠正方面存在挑战。