LLM2D
使用持续预训练和推理偏好优化稳定医疗大语言模型的推理
Stabilizing Reasoning in Medical LLMs with Continued Pretraining and Reasoning Preference Optimization
作者: Wataru Kawakami, Keita Suzuki, Junichiro Iwasawa
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2504.18080v1

摘要

arXiv:2504.18080v1 宣布类型: 交叉 摘要: 大型语言模型(LLMs)在医学领域展现出潜力,但在临床上的应用却因事实准确性问题、语言特定的限制(例如,日语)以及最关键的是,当需要生成推理解释时的可靠性问题而受到阻碍——这是实现信任的前提。本文介绍了一种名为Preferred-MedLLM-Qwen-72B的720亿参数模型,专门优化用于日本医学领域,同时实现了高准确性和稳定的推理能力。我们采用两阶段微调过程对Qwen2.5-72B基础模型进行优化:首先,通过综合日语医学语料库的持续预训练(CPT)培养了深厚的领域知识。其次,采用基于偏好的方法进行推理偏好优化(RPO),增强了可靠推理路径的生成能力,同时保持了高的答案准确性。在日语医学执照考试基准测试(IgakuQA)上的评估表明,Preferred-MedLLM-Qwen-72B达到了最先进的性能(准确率为0.868),超越了强产权模型如GPT-4o(准确率为0.866)。更重要的是,与基准模型或仅进行CPT的模型不同,这两种模型在被要求提供解释时表现出了显著的准确性下降(分别在IgakuQA上最多达到11.5%和3.8%),而我们的模型在这些情况下仍然保持了其高水平的准确性(0.868)。这突显了RPO在稳定生成推理方面的效果。这项工作强调了在提高准确性的同时,优化可靠解释的重要性。我们发布了Preferred-MedLLM-Qwen-72B模型权重,以促进对可信的专门化、高风险应用环境中语言模型的研究。