LLM2D

摘要

arXiv:2503.20472v1 类型: cross 摘要：多模态大型语言模型（MLLMs）在视频理解方面展示了非凡的能力。然而，理解长视频仍然是一个挑战，因为模型只能在一个推理中处理有限数量的帧，可能会遗漏关键的视觉信息。为了解决这个问题，我们提出通过视觉上下文采样生成多个预测，然后通过评分机制选择最终的预测。具体来说，我们设计了一种箱内采样策略，使MLLMs能够基于关键帧的各种组合生成多样化的答案，从而丰富视觉上下文。为了从采样的答案中确定最终的预测，我们采用了一种自奖励方法，通过线性结合三个评分来实现：(1) 频率评分，表明每个选项的出现频率；(2) 边际置信评分，反映MLLM预测的跨内样本一致性；(3) 类型推理评分，针对不同类型的问题，包括全局问题的线索指导回答和局部问题的时空自我聚焦。频率评分通过多数正确性保证了鲁棒性，边际置信评分反映了预测的确定性，而类型推理评分则使用定制策略应对关键视觉信息稀疏的情况。实验结果显示，这种方法在七个数据集上对长视频问题的正确答案覆盖了高比例，我们的方法在三个MLLMs中提高了性能。