LLM2D

摘要

arXiv:2504.18080v1 宣布类型: 交叉摘要: 大型语言模型（LLMs）在医学领域展现出潜力，但在临床上的应用却因事实准确性问题、语言特定的限制（例如，日语）以及最关键的是，当需要生成推理解释时的可靠性问题而受到阻碍——这是实现信任的前提。本文介绍了一种名为Preferred-MedLLM-Qwen-72B的720亿参数模型，专门优化用于日本医学领域，同时实现了高准确性和稳定的推理能力。我们采用两阶段微调过程对Qwen2.5-72B基础模型进行优化：首先，通过综合日语医学语料库的持续预训练（CPT）培养了深厚的领域知识。其次，采用基于偏好的方法进行推理偏好优化（RPO），增强了可靠推理路径的生成能力，同时保持了高的答案准确性。在日语医学执照考试基准测试（IgakuQA）上的评估表明，Preferred-MedLLM-Qwen-72B达到了最先进的性能（准确率为0.868），超越了强产权模型如GPT-4o（准确率为0.866）。更重要的是，与基准模型或仅进行CPT的模型不同，这两种模型在被要求提供解释时表现出了显著的准确性下降（分别在IgakuQA上最多达到11.5%和3.8%），而我们的模型在这些情况下仍然保持了其高水平的准确性（0.868）。这突显了RPO在稳定生成推理方面的效果。这项工作强调了在提高准确性的同时，优化可靠解释的重要性。我们发布了Preferred-MedLLM-Qwen-72B模型权重，以促进对可信的专门化、高风险应用环境中语言模型的研究。