LLM2D
量化检索增强视觉语言模型中记忆化和检索器性能
Quantifying Memorization and Retriever Performance in Retrieval-Augmented Vision-Language Models
作者: Peter Carragher, Abhinand Jha, R Raghav, Kathleen M. Carley
发布日期: 2/20/2025
arXiv ID: oai:arXiv.org:2502.13836v1

摘要

arXiv:2502.13836v1 交叉类型公告 摘要:大语言模型(LLMs)在问答(QA)方面展现出了令人瞩目的能力,但评估其依赖记忆与检索(记忆化与检索)的现有指标仍相当欠缺。此外,虽然微调模型在封闭域任务上达到最先进的水平,但通用模型如GPT-4o在零样本表现上非常优秀。这引发了对记忆化、泛化与检索之间权衡取舍的质疑。在此项工作中,我们分析了多模态检索增强VLM相较于基线VLM在训练数据记忆化程度上的差异。使用WebQA基准测试,我们将微调模型与基线VLM在多跳检索和问答方面进行对比,探讨微调对数据记忆化的影响。为了量化端到端检索和问答系统中的记忆化程度,我们通过调查问答成功而检索失败的实例,提出了一些代理指标。我们的结果揭示了微调模型对记忆化的依赖程度。相比之下,检索增强的VLM的记忆化得分较低,但准确性有所下降(WebQA测试集上为72% vs 52%)。因此,我们的度量标准为未来工作在开放域问答和联合检索-问答任务中协调记忆化与泛化带来了挑战。