摘要
arXiv:2503.20472v1 类型: cross
摘要:多模态大型语言模型(MLLMs)在视频理解方面展示了非凡的能力。然而,理解长视频仍然是一个挑战,因为模型只能在一个推理中处理有限数量的帧,可能会遗漏关键的视觉信息。为了解决这个问题,我们提出通过视觉上下文采样生成多个预测,然后通过评分机制选择最终的预测。具体来说,我们设计了一种箱内采样策略,使MLLMs能够基于关键帧的各种组合生成多样化的答案,从而丰富视觉上下文。为了从采样的答案中确定最终的预测,我们采用了一种自奖励方法,通过线性结合三个评分来实现:(1) 频率评分,表明每个选项的出现频率;(2) 边际置信评分,反映MLLM预测的跨内样本一致性;(3) 类型推理评分,针对不同类型的问题,包括全局问题的线索指导回答和局部问题的时空自我聚焦。频率评分通过多数正确性保证了鲁棒性,边际置信评分反映了预测的确定性,而类型推理评分则使用定制策略应对关键视觉信息稀疏的情况。实验结果显示,这种方法在七个数据集上对长视频问题的正确答案覆盖了高比例,我们的方法在三个MLLMs中提高了性能。