摘要
arXiv:2504.20930v1 通知类型: 新
摘要: 近年来,在推理增强的大语言模型(LLMs)和多模态大语言模型(MLLMs)方面的进展显著提高了复杂任务的性能,但医疗AI模型往往忽略了临床实践中固有的结构化推理过程。在本研究中,我们介绍了一种用于放射学诊断的MLLM,称为ChestX-Reasoner,它旨在利用直接从临床报告中挖掘的过程监督,反映放射科医生遵循的逐步推理过程。我们通过从常规放射学报告中提取和提炼推理链构建了一个大型数据集。我们的两阶段训练框架结合了监督微调和由过程奖励引导的强化学习,以更好地使模型的推理与临床标准相一致。我们引入了RadRBench-CXR,这是一个包含59,000个视觉问答样本和301,000个临床验证推理步骤的综合基准,并提出了RadRScore,这是一个评估推理事实性、完整性和有效性的度量标准。ChestX-Reasoner在诊断准确性和推理能力方面分别优于现有医疗和一般领域的大语言模型,相比最佳医疗大语言模型、最佳通用大语言模型及其基模型,其推理能力分别提高了16%、5.9%和18%,在结果准确率方面分别提高了3.3%、24%和27%。所有资源均已开源,旨在促进对医疗推理大语言模型进一步研究。