LLM2D
基于模型的无人工反馈摘要偏好优化
Model-based Preference Optimization in Abstractive Summarization without Human Feedback
作者: Jaepill Choi, Kyubyung Chae, Jiwoo Song, Yohan Jo, Taesup Kim
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2409.18618v1

摘要

在抽象摘要中,从源文档中包含的大量信息中产生简洁准确的摘要是一个挑战。因此,尽管大型语言模型 (LLMs) 可以生成流畅的文本,但它们经常通过幻觉生成原始来源中不存在的内容而引入不准确性。虽然最大化似然的监督微调方法会导致这个问题,但它们并不能始终如一地提高摘要的忠实度。基于偏好的优化方法,如直接偏好优化 (DPO),可以进一步优化模型,使其与人类偏好一致。然而,这些方法仍然严重依赖于昂贵的人工反馈。在这项工作中,我们介绍了一种新颖且直接的方法,称为基于模型的偏好优化 (MPO),用于微调 LLMs 以提高摘要能力,而无需任何人工反馈。通过利用模型固有的摘要能力,我们创建了一个偏好数据集,该数据集完全由模型使用不同的解码策略生成。我们在标准摘要数据集和各种指标上的实验表明,我们提出的 MPO 显著提高了生成摘要的质量,而无需依赖人工反馈。