摘要
arXiv:2504.09421v2 宣告类型: replace-cross
摘要:近年来,大型语言模型(LLMs)在推理方面的进展在数学和编程等领域展示了显著的推理能力,但在临床诊断方面的应用仍然未被充分探索。在这里,我们提出了ClinicalGPT-R1,一种用于疾病诊断的增强推理通用大型语言模型。它基于包含20,000份真实临床记录的数据集进行训练,并通过多种训练策略增强了诊断推理能力。为了评估性能,我们收集了MedBench-Hard,一个涵盖七个主要医学专科和代表性疾病的具有挑战性的数据集。实验结果表明,在中文诊断任务中,ClinicalGPT-R1优于GPT-4o,在英语环境中则与GPT-4达到了相当的性能。这种比较研究有效地验证了ClinicalGPT-R1在疾病诊断任务中表现出色。有关资源 avail https://github.com/medfound/medfound。