摘要
arXiv:2502.03333v1 交叉公告类型:
摘要:胸部X光片(CXR)的广泛应用与放射科医生短缺相结合,推动了自动CXR分析和AI辅助报告的兴趣增长。虽然现有的视觉-语言模型(VLMs)在报告生成或异常检测等特定任务上显示出前景,但它们通常缺乏交互式诊断能力的支持。在这项工作中,我们提出了RadVLM,这是一个专为CXR解释设计的小型多任务对话基础模型。为此,我们收集了一个包含超过100万张图像-指令对的大规模指令数据集,这些指令对包含了单轮任务(如报告生成、异常分类和视觉映射)和多轮多任务对话交互。在对这一指令数据集进行微调后,我们在多种任务上评估了RadVLM,并与重新实现的基线VLMs进行了比较。我们的结果显示,RadVLM在对话能力和视觉映射方面达到了最佳性能,同时在其他放射学任务上保持竞争力。进一步的消融研究强调了在多个任务上联合训练的好处,特别是在标注数据有限的情况下。综合来看,这些发现突显了RadVLM作为临床相关AI助理的潜力,它可以提供结构化的CXR解释和对话能力,以支持更加高效和易于访问的诊断工作流程。