LLM2D

摘要

arXiv:2502.03333v1 交叉公告类型：摘要：胸部X光片（CXR）的广泛应用与放射科医生短缺相结合，推动了自动CXR分析和AI辅助报告的兴趣增长。虽然现有的视觉-语言模型（VLMs）在报告生成或异常检测等特定任务上显示出前景，但它们通常缺乏交互式诊断能力的支持。在这项工作中，我们提出了RadVLM，这是一个专为CXR解释设计的小型多任务对话基础模型。为此，我们收集了一个包含超过100万张图像-指令对的大规模指令数据集，这些指令对包含了单轮任务（如报告生成、异常分类和视觉映射）和多轮多任务对话交互。在对这一指令数据集进行微调后，我们在多种任务上评估了RadVLM，并与重新实现的基线VLMs进行了比较。我们的结果显示，RadVLM在对话能力和视觉映射方面达到了最佳性能，同时在其他放射学任务上保持竞争力。进一步的消融研究强调了在多个任务上联合训练的好处，特别是在标注数据有限的情况下。综合来看，这些发现突显了RadVLM作为临床相关AI助理的潜力，它可以提供结构化的CXR解释和对话能力，以支持更加高效和易于访问的诊断工作流程。