LLM2D

摘要

大型语言模型（LLM）的微调在医学领域尚未得到充分利用。两种最常见的微调方法是监督微调（SFT）和直接偏好优化（DPO），但很少有指导建议告知用户何时使用哪种技术。在本研究中，我们比较了SFT和DPO在医学领域五个常见自然语言任务中的性能：文本数据分类、数值数据分类、临床推理、摘要生成和临床分诊。我们发现，单独使用SFT对于文本数据分类已经足够，而DPO则能提升在临床推理、摘要生成和临床分诊这些更复杂任务中的性能。我们的研究结果确立了DPO微调在医学中的角色和重要性，并因此引起了对当前软件缺陷的关注，这些缺陷阻碍了这种技术的广泛部署。