LLM2D

摘要

arXiv:2504.09421v2 宣告类型: replace-cross 摘要：近年来，大型语言模型（LLMs）在推理方面的进展在数学和编程等领域展示了显著的推理能力，但在临床诊断方面的应用仍然未被充分探索。在这里，我们提出了ClinicalGPT-R1，一种用于疾病诊断的增强推理通用大型语言模型。它基于包含20,000份真实临床记录的数据集进行训练，并通过多种训练策略增强了诊断推理能力。为了评估性能，我们收集了MedBench-Hard，一个涵盖七个主要医学专科和代表性疾病的具有挑战性的数据集。实验结果表明，在中文诊断任务中，ClinicalGPT-R1优于GPT-4o，在英语环境中则与GPT-4达到了相当的性能。这种比较研究有效地验证了ClinicalGPT-R1在疾病诊断任务中表现出色。有关资源 avail https://github.com/medfound/medfound。