LLM2D

摘要

在抽象摘要中，从源文档中包含的大量信息中生成简洁准确的摘要是一项挑战。因此，虽然大型语言模型 (LLM) 可以生成流畅的文本，但它们经常通过幻觉出原始来源中没有的内容而引入不准确之处。虽然最大化似然的监督微调方法会加剧这个问题，但它们并不始终如一地提高摘要的忠实度。基于偏好的优化方法，例如直接偏好优化 (DPO)，可以进一步优化模型以符合人类偏好。然而，这些方法仍然严重依赖于昂贵的用户反馈。在这项工作中，我们介绍了一种新颖且直接的方法，称为基于模型的偏好优化 (MPO)，用于微调 LLM 以提高摘要能力，而无需任何用户反馈。通过利用模型固有的摘要能力，我们创建了一个偏好数据集，该数据集完全由模型使用不同的解码策略生成。我们在标准摘要数据集和各种指标上的实验表明，我们提出的 MPO 显着提高了生成摘要的质量，而无需依赖用户反馈。