摘要
arXiv:2408.05093v4 论文类型: 替换-交叉
摘要:自大型语言模型(LLMs)问世以来,它们在学术和工业各个领域引起了广泛关注,并找到了广泛的应用。然而,这些模型常常受到所谓的“幻觉问题”的困扰,即输出虽然在语法和逻辑上是连贯的,但缺乏事实准确性或完全是虚构的。最近发现并广泛讨论的一个特别令人担忧的问题是,在多个LLMs错误地推断出“9.11>9.9”时发生的数字比较错误。我们发现,LLMs生成答案和推理的顺序对其一致性产生了影响。具体而言,在LLMs先生成答案然后提供推理与先提供推理过程然后生成结论的情况下,结果差异显著。受此启发,我们提出了一种新的评估LLMs一致性的基准方法:通过这两种不同方法生成的响应进行比较。该基准有效地识别了LLMs生成虚构答案并随后生成论证的情况。此外,我们还引入了一种新颖且简单的提示策略,旨在缓解这一问题。实验结果表明,与直接提问相比,这种方法在各种LLMs中提高了性能。这项工作不仅揭示了LLMs的一个关键缺陷,而且还提供了一种实用的解决方案来增强其可靠性。