摘要
arXiv:2502.20964v2 宣告类型: 替换-交叉
摘要: 视觉问答(VQA)旨在通过利用图像信息来回答自然语言问题。虽然最先进的多模态大型语言模型(MLLMs),如GPT-4o,在VQA任务上表现出色,但在访问领域特定的知识或最新知识方面经常表现不佳。为了解决这一问题,利用外部知识库(KBs)的检索增强生成(RAG),即KB-VQA,作为一种有前途的方法逐渐兴起。然而,传统的单一模态检索技术,将图像转化为文本描述,往往会导致关键视觉细节的损失。本研究提出了细粒度的知识单元,这些单元将文本片段与存储在向量数据库中的实体图片结合起来。此外,我们引入了一种细粒度检索增强生成框架(KU-RAG),将细粒度检索与MLLMs集成。所提出的KU-RAG框架确保了相关知识的精确检索,并通过知识修正链增强了推理能力。实验结果表明,我们的方法显著提升了领先KB-VQA方法的性能,平均提高了约3%,在最佳情况下提高了11%。