LLM2D
基于grounded知识增强的医疗视觉-语言预训练模型:胸部X光图像场景理解
Grounded Knowledge-Enhanced Medical Vision-Language Pre-training for Chest X-Ray
作者: Qiao Deng, Zhongzhen Huang, Yunqi Wang, Zhichuan Wang, Zhao Wang, Xiaofan Zhang, Qi Dou, Yeung Yu Hui, Edward S. Hui
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2404.14750v2

摘要

arXiv:2404.14750v2 宣告类型: replace-cross 摘要:医疗基础模型有潜力通过提供医学数据的稳健和通用表示来彻底改变医疗保健。基于医学的视觉-语言预训练已成为学习医学图像和文本通用表示的一种有前景的方法。然而,当前利用医学图像和文本之间全局和局部对齐的算法可能会受到医学数据中冗余信息的影响。为了解决这个问题,我们提出了一种针对胸部X射线的基于接地知识增强的医学视觉-语言预训练(GK-MVLP)框架。在此框架中,通过使用基于变换器的接地知识增强模块,将医学知识与相应的解剖区域级视觉特征进行了细粒度对齐,从而将医学知识接地到适当的解剖区域。GK-MVLP在下游图像理解任务(胸部X射线疾病分类、疾病定位)、生成任务(报告生成)以及视觉-语言理解任务(医学视觉问答)中的表现与最新技术水平相当或更胜一筹。我们的结果表明,通过引入接地机制消除偏见并提高胸部X射线图像与放射学报告之间的对齐具有优势。