LLM2D
RadVLM:医学影像多任务对话视觉语言模型
RadVLM: A Multitask Conversational Vision-Language Model for Radiology
作者: Nicolas Deperrois, Hidetoshi Matsuo, Samuel Ruip\'erez-Campillo, Moritz Vandenhirtz, Sonia Laguna, Alain Ryser, Koji Fujimoto, Mizuho Nishio, Thomas M. Sutter, Julia E. Vogt, Jonas Kluckert, Thomas Frauenfelder, Christian Bl\"uthgen, Farhad Nooralahzadeh, Michael Krauthammer
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.03333v1

摘要

arXiv:2502.03333v1 交叉公告类型: 摘要:胸部X光片(CXR)的广泛应用与放射科医生短缺相结合,推动了自动CXR分析和AI辅助报告的兴趣增长。虽然现有的视觉-语言模型(VLMs)在报告生成或异常检测等特定任务上显示出前景,但它们通常缺乏交互式诊断能力的支持。在这项工作中,我们提出了RadVLM,这是一个专为CXR解释设计的小型多任务对话基础模型。为此,我们收集了一个包含超过100万张图像-指令对的大规模指令数据集,这些指令对包含了单轮任务(如报告生成、异常分类和视觉映射)和多轮多任务对话交互。在对这一指令数据集进行微调后,我们在多种任务上评估了RadVLM,并与重新实现的基线VLMs进行了比较。我们的结果显示,RadVLM在对话能力和视觉映射方面达到了最佳性能,同时在其他放射学任务上保持竞争力。进一步的消融研究强调了在多个任务上联合训练的好处,特别是在标注数据有限的情况下。综合来看,这些发现突显了RadVLM作为临床相关AI助理的潜力,它可以提供结构化的CXR解释和对话能力,以支持更加高效和易于访问的诊断工作流程。