摘要
arXiv:2502.15652v1 宣布类型: 新
摘要: 大型语言模型(LLMs)在各种自然语言任务中取得了显著的成功。然而,最近的研究发现,LLMs在逻辑推理能力方面仍然存在显著挑战。本文总结并分类了主要的挑战为两个方面:(1) 逻辑问题回答,当给定一系列前提和限制条件时,LLMs往往无法在复杂的逻辑问题中生成正确的答案,这需要进行复杂的演绎、归纳或 abduction 理论推理。(2) 逻辑一致性,LLMs可能会在其回答不同问题时自相矛盾。例如,最先进的Macaw问题回答LLM对“喜鹊是鸟吗?”和“鸟有翅膀吗?”两个问题都给出了“是”的回答,但对“喜鹊有翅膀吗?”却给出了“否”的回答。为了促进这一研究方向,我们全面研究了最前沿的方法,并提出了这些方法的详细分类。具体来说,为了准确回答复杂的逻辑问题,先前的方法可以根据对外部求解器、提示词、预训练和微调的依赖程度进行分类。为了避免逻辑矛盾,我们讨论了各种逻辑一致性概念及解决方案,包括蕴含、否定、传递性、事实一致性及其复合形式。此外,我们回顾了常用的标准数据集和评估指标,并讨论了令人期待的研究方向,例如扩展至模态逻辑以考虑不确定性,以及同时满足多种逻辑一致性高效的算法。