摘要
大型语言模型(LLM)的微调在医学领域尚未得到充分利用。两种最常见的微调方法是监督微调(SFT)和直接偏好优化(DPO),但很少有指导建议告知用户何时使用哪种技术。在本研究中,我们比较了SFT和DPO在医学领域五个常见自然语言任务中的性能:文本数据分类、数值数据分类、临床推理、摘要生成和临床分诊。我们发现,单独使用SFT对于文本数据分类已经足够,而DPO则能提升在临床推理、摘要生成和临床分诊这些更复杂任务中的性能。我们的研究结果确立了DPO微调在医学中的角色和重要性,并因此引起了对当前软件缺陷的关注,这些缺陷阻碍了这种技术的广泛部署。