LLM2D

摘要

arXiv:2502.20964v2 宣告类型: 替换-交叉摘要: 视觉问答（VQA）旨在通过利用图像信息来回答自然语言问题。虽然最先进的多模态大型语言模型（MLLMs），如GPT-4o，在VQA任务上表现出色，但在访问领域特定的知识或最新知识方面经常表现不佳。为了解决这一问题，利用外部知识库（KBs）的检索增强生成（RAG），即KB-VQA，作为一种有前途的方法逐渐兴起。然而，传统的单一模态检索技术，将图像转化为文本描述，往往会导致关键视觉细节的损失。本研究提出了细粒度的知识单元，这些单元将文本片段与存储在向量数据库中的实体图片结合起来。此外，我们引入了一种细粒度检索增强生成框架（KU-RAG），将细粒度检索与MLLMs集成。所提出的KU-RAG框架确保了相关知识的精确检索，并通过知识修正链增强了推理能力。实验结果表明，我们的方法显著提升了领先KB-VQA方法的性能，平均提高了约3%，在最佳情况下提高了11%。