摘要
arXiv:2504.09421v1 Announce Type: cross
摘要:近年来,大语言模型(LLMs)在推理方面取得了显著的进步,特别是在数学和编程领域展示了卓越的推理能力,然而它们在临床诊断中的应用仍然未被充分探索。在这里,我们介绍了ClinicalGPT-R1,这是一种用于疾病诊断的增强推理通用大语言模型。ClinicalGPT-R1基于包含20,000份真实临床记录的数据集进行训练,并利用多样化的训练策略来增强诊断推理。为了评估性能,我们整理了MedBench-Hard,这是一个涵盖七个主要医学专科和代表性疾病的具有挑战性的数据集。实验结果表明,ClinicalGPT-R1在中文诊断任务中优于GPT-4o,在英文环境中达到与GPT-4相当的性能。这项比较研究有效地验证了ClinicalGPT-R1在疾病诊断任务中的优越性能。资源可在https://github.com/medfound/medfound获取。