LLM2D
生成中重要顺序:推理顺序作为基准和反思性提示用于大型语言模型
Order Matters in Hallucination: Reasoning Order as Benchmark and Reflexive Prompting for Large-Language-Models
作者: Zikai Xie
发布日期: 5/13/2025
arXiv ID: oai:arXiv.org:2408.05093v4

摘要

arXiv:2408.05093v4 论文类型: 替换-交叉 摘要:自大型语言模型(LLMs)问世以来,它们在学术和工业各个领域引起了广泛关注,并找到了广泛的应用。然而,这些模型常常受到所谓的“幻觉问题”的困扰,即输出虽然在语法和逻辑上是连贯的,但缺乏事实准确性或完全是虚构的。最近发现并广泛讨论的一个特别令人担忧的问题是,在多个LLMs错误地推断出“9.11>9.9”时发生的数字比较错误。我们发现,LLMs生成答案和推理的顺序对其一致性产生了影响。具体而言,在LLMs先生成答案然后提供推理与先提供推理过程然后生成结论的情况下,结果差异显著。受此启发,我们提出了一种新的评估LLMs一致性的基准方法:通过这两种不同方法生成的响应进行比较。该基准有效地识别了LLMs生成虚构答案并随后生成论证的情况。此外,我们还引入了一种新颖且简单的提示策略,旨在缓解这一问题。实验结果表明,与直接提问相比,这种方法在各种LLMs中提高了性能。这项工作不仅揭示了LLMs的一个关键缺陷,而且还提供了一种实用的解决方案来增强其可靠性。