LLM2D

摘要

arXiv:2504.03135v2 宣告类型: replace-cross 摘要: 医学视觉问答（Med-VQA）利用医学图像回答临床问题，有助于诊断。设计MedVQA系统在临床诊断辅助和提高诊断准确性方面具有深远的重要性。在此基础上，层次化医学视觉问答通过将医学问题组织成层次结构，并针对不同层级进行特定预测，来处理细微差别。近年来，许多研究提出了层次化MedVQA任务并建立了相应的数据集，但仍然存在几个问题：(1) 不完美的层次化建模导致不同层级的问题难以区分，造成层次间的语义碎片化。(2) 在基于Transformer的跨模态自注意力融合方法中过分依赖隐式学习，这在医学场景中遮蔽了重要的局部语义关联。为了解决这些问题，本研究提出了一种HiCA-VQA方法，包括两个模块：层次化提示和层次化答案解码器。层次化提示模块预先将层次化的文本提示与图像特征对齐，以指导模型根据问题类型关注特定的图像区域，而层次化解码器对不同层级的问题进行单独预测，以提高各粒度的准确性。该框架还包含一个跨注意力融合模块，其中图像作为查询，文本作为键值对。在Rad-Restruct基准测试上的实验表明，HiCA-VQA框架在回答层次化细粒度问题方面优于现有最先进的方法。本研究为层次化视觉问答系统提供了有效的途径，推进了医学图像理解。