摘要
在医疗领域,许多场景都需要大型语言模型 (LLM) 的长文本生成能力。特别是在回答患者问题时,模型的回答必须传达事实性主张,因此需要一种自动方法来评估这些主张。为此,我们引入了 MedLFQA,这是一个使用与生物医学领域相关的长文本问答数据集重建的基准数据集。我们使用 MedLFQA 来促进对事实性的经济高效的自动评估。我们还提出了 OLAPH,这是一个简单而新颖的框架,它利用经济高效的多方面自动评估来构建合成偏好集并以我们偏好的方式回答问题。我们的框架使我们能够逐步训练 LLM,以减少幻觉并包含重要的医学主张。我们强调,即使在训练期间未使用的评估指标上,使用我们的 OLAPH 框架训练的 LLM 在事实性方面也表现出显著的性能提升。我们的研究结果表明,使用我们的 OLAPH 框架训练的 7B LLM 可以提供与医学专家答案在事实性方面相当的长答案。我们相信,我们的工作可以阐明在医疗领域评估 LLM 的长文本生成能力。我们的代码和数据集现已开放。