LLM2D
基于跨注意力融合的分层建模在医疗视觉问答中的应用
Hierarchical Modeling for Medical Visual Question Answering with Cross-Attention Fusion
作者: Junkai Zhang, Bin Li, Shoujun Zhou, Yue Du
发布日期: 4/7/2025
arXiv ID: oai:arXiv.org:2504.03135v1

摘要

arXiv:2504.03135v1 Announce Type: cross 摘要:医学视觉问答(Med-VQA)使用医学影像回答临床问题,辅助诊断。设计MedVQA系统在辅助临床诊断和提高诊断准确性方面具有深远的重要性。在此基础上,层次化医学视觉问答通过将医学问题组织成层次结构并进行级别特定的预测来处理细微差异。近年来,许多研究提出了层次化的MedVQA任务并建立了数据集,然而仍存在一些问题:(1)不完善的层次化建模导致不同层次间语义碎片化;(2)过度依赖基于Transformer的跨模态自注意力融合方法中的隐式学习,这在医学场景中掩盖了关键的局部语义关联。为解决这些问题,本研究提出了HiCA-VQA方法,包括两个模块:层次化提示用于细粒度医学问题和层次化答案解码器。层次化提示模块预先对齐层次化的文本提示与图像特征,以引导模型根据问题类型关注特定的图像区域,而层次化解码器则分别对不同层次的问题进行预测,以在不同粒度上提升准确性。该框架还包含一个交叉注意力融合模块,其中图像作为查询,文本作为键值对。在Rad-Restruct基准上的实验表明,HiCA-VQA框架在回答层次化的细粒度问题方面比现有最先进的方法表现更好。本研究为层次化视觉问答系统提供了一条有效途径,推动了医学影像理解的发展。