摘要
arXiv:2405.11145v4 通告类型: 替换-交叉
摘要:尽管视觉语言理解(VLU)基准测试,如VQA v2、OKVQA、A-OKVQA、GQA、VCR、SWAG和VisualCOMET得到了广泛采用,但我们的分析揭示了一个严重影响这些基准测试完整性的普遍问题:这些基准测试包含答案依赖于未由提供的上下文支持的假设的样本。在这样的数据上训练模型会导致有偏见的学习和幻觉,因为模型往往会做出类似的不合理假设。为了解决这个问题,我们尽可能收集每个样本的上下文数据,并训练一个上下文选择模块,以促进基于证据的模型预测。在多个基准测试中表现出显著的改进表明了我们方法的有效性。此外,我们开发了一种通用的Context-Aware Abstention (CARA) 检测器,用于识别缺乏足够上下文的样本,并通过在缺少必需上下文时拒绝回应来提高模型的准确性。CARA 在未被训练的新基准测试中表现出泛化能力,这突显了它在未来视觉语言理解基准测试中检测或清理上下文不足样本时的实用性。最后,我们创建了一个Context Ambiguity and Sufficiency Evaluation (CASE) 集合,用于评估不足上下文检测器的性能。总体而言,我们的工作代表了确保视觉语言模型在复杂现实场景中产生可信赖且基于证据的输出的一个重要进步。