摘要
arXiv:2504.03135v2 宣告类型: replace-cross
摘要: 医学视觉问答(Med-VQA)利用医学图像回答临床问题,有助于诊断。设计MedVQA系统在临床诊断辅助和提高诊断准确性方面具有深远的重要性。在此基础上,层次化医学视觉问答通过将医学问题组织成层次结构,并针对不同层级进行特定预测,来处理细微差别。近年来,许多研究提出了层次化MedVQA任务并建立了相应的数据集,但仍然存在几个问题:(1) 不完美的层次化建模导致不同层级的问题难以区分,造成层次间的语义碎片化。(2) 在基于Transformer的跨模态自注意力融合方法中过分依赖隐式学习,这在医学场景中遮蔽了重要的局部语义关联。为了解决这些问题,本研究提出了一种HiCA-VQA方法,包括两个模块:层次化提示和层次化答案解码器。层次化提示模块预先将层次化的文本提示与图像特征对齐,以指导模型根据问题类型关注特定的图像区域,而层次化解码器对不同层级的问题进行单独预测,以提高各粒度的准确性。该框架还包含一个跨注意力融合模块,其中图像作为查询,文本作为键值对。在Rad-Restruct基准测试上的实验表明,HiCA-VQA框架在回答层次化细粒度问题方面优于现有最先进的方法。本研究为层次化视觉问答系统提供了有效的途径,推进了医学图像理解。