摘要
arXiv:2410.20327v4 宣告类型: replace-cross
摘要:人工智能在医学视觉问答(Med-VQA)方面取得了显著进展,但目前许多研究往往整体性地解释图像,忽略了可能包含关键信息的视觉兴趣区域,这些信息可能与医生的先验知识相吻合,可以通过最少的标注(例如,边界框)融入其中。为了解决这一问题,本文介绍了 R-LLaVA,它通过 CLIP 将简单的医学标注直接集成到图像空间中,以增强医学图像理解。在训练过程中,这些标注的兴趣视觉区域被提供给 LLaVA 模型,旨在丰富其对医学健康查询的理解。在四个标准 Med-VQA 数据集上的实验评估表明,R-LLaVA 在现有最佳方法(SoTA)上具有优势。此外,为了验证模型在视觉理解方面的能力,引入了一个新的多选医学视觉理解数据集,证实了关注视觉兴趣区域在促进医学健康查询理解方面具有积极影响。