LLM2D

摘要

arXiv:2502.13836v1 交叉类型公告摘要：大语言模型（LLMs）在问答（QA）方面展现出了令人瞩目的能力，但评估其依赖记忆与检索（记忆化与检索）的现有指标仍相当欠缺。此外，虽然微调模型在封闭域任务上达到最先进的水平，但通用模型如GPT-4o在零样本表现上非常优秀。这引发了对记忆化、泛化与检索之间权衡取舍的质疑。在此项工作中，我们分析了多模态检索增强VLM相较于基线VLM在训练数据记忆化程度上的差异。使用WebQA基准测试，我们将微调模型与基线VLM在多跳检索和问答方面进行对比，探讨微调对数据记忆化的影响。为了量化端到端检索和问答系统中的记忆化程度，我们通过调查问答成功而检索失败的实例，提出了一些代理指标。我们的结果揭示了微调模型对记忆化的依赖程度。相比之下，检索增强的VLM的记忆化得分较低，但准确性有所下降（WebQA测试集上为72% vs 52%）。因此，我们的度量标准为未来工作在开放域问答和联合检索-问答任务中协调记忆化与泛化带来了挑战。