LLM2D

摘要

arXiv:2502.04352v1 公告类型：交叉摘要：大型语言模型（LLMs）在许多基于推理的自然语言处理（NLP）任务中取得了令人印象深刻的成果，这表明它们具有一定的演绎推理能力。然而，仍然不清楚LLMs在非正式和自动形式化方法中在逻辑推理任务上的鲁棒性程度如何。此外，尽管已经提出了许多基于LLM的推理方法，但缺乏对它们设计组件影响的系统研究。为了解决这两个挑战，我们提出了首个基于LLM的演绎推理方法的鲁棒性研究。我们设计了一个框架，其中包括两类扰动：对抗性噪声和反事实陈述，这两者共同生成了七个扰动数据集。我们根据推理格式、形式化语法以及错误恢复反馈将LLM推理器的景观组织起来。结果显示，对抗性噪声影响自动形式化，而反事实陈述影响所有方法。尽管详细的反馈减少了语法错误，但并未提高总体准确性，这表明基于LLM的方法在自我纠正方面存在挑战。