LLM2D

摘要

arXiv:2408.05093v4 论文类型: 替换-交叉摘要：自大型语言模型（LLMs）问世以来，它们在学术和工业各个领域引起了广泛关注，并找到了广泛的应用。然而，这些模型常常受到所谓的“幻觉问题”的困扰，即输出虽然在语法和逻辑上是连贯的，但缺乏事实准确性或完全是虚构的。最近发现并广泛讨论的一个特别令人担忧的问题是，在多个LLMs错误地推断出“9.11>9.9”时发生的数字比较错误。我们发现，LLMs生成答案和推理的顺序对其一致性产生了影响。具体而言，在LLMs先生成答案然后提供推理与先提供推理过程然后生成结论的情况下，结果差异显著。受此启发，我们提出了一种新的评估LLMs一致性的基准方法：通过这两种不同方法生成的响应进行比较。该基准有效地识别了LLMs生成虚构答案并随后生成论证的情况。此外，我们还引入了一种新颖且简单的提示策略，旨在缓解这一问题。实验结果表明，与直接提问相比，这种方法在各种LLMs中提高了性能。这项工作不仅揭示了LLMs的一个关键缺陷，而且还提供了一种实用的解决方案来增强其可靠性。