LLM2D

摘要

arXiv:2310.19347v4 公布类型: replace-cross 摘要: 尽管大型语言模型（LLMs）在新闻摘要方面取得了近期进展，但它们经常生成与原始文章事实不一致的摘要，这种情况称为文本生成中的“幻觉”。与之前的小型模型（如BART、T5）相比，当前的LLMs犯的错误较少但更复杂，如错误地强加因果关系、添加虚假细节、过分概括等。这些幻觉通过传统方法很难检测，这给提高文本摘要的事实一致性带来了巨大挑战。本文中，我们提出了一种对比偏好优化（CPO）方法，以分离LLMs生成真实和虚假内容的倾向。此外，我们采用了基于探针的特定训练方法，以提高它们区分两种倾向的能力。这样，LLMs可以更准确地执行指令，并增强对幻觉的感知。实验结果显示，CPO显着提高了基于LLMs的摘要可靠性。