LLM2D

摘要

大型语言模型（LLM）在医学领域的微调应用尚未得到充分利用。两种最常见的微调方法是监督微调（SFT）和直接参数优化（DPO），但目前缺乏指导用户何时使用这两种技术的信息。在本研究中，我们比较了SFT和DPO在医学领域五种常见自然语言任务中的表现：文本数据分类、数值数据分类、临床推理、摘要生成和临床分诊。我们发现，对于文本数据分类，单独使用SFT已足够；而对于临床推理、摘要生成和临床分诊等更复杂的任务，DPO则能提升性能。我们的研究结果确立了DPO微调在医学领域中的作用和重要性，并因此引起了对当前软件差距的关注，这些差距阻碍了该技术的广泛应用。