摘要
arXiv:2504.04550v1 广义类型: cross
摘要: 自我中心视频问答(QA)要求模型处理长期时间推理、第一人称视角以及频繁的摄像机移动等专门挑战。本文系统性地评估了 proprietary 和开源的多模态大语言模型(MLLMs)在 QaEgo4Dv2 上的表现,这是一个源自 QaEgo4D 的改进数据集。四种流行的 MLLMs(GPT-4o、Gemini-1.5-Pro、Video-LLaVa-7B 和 Qwen2-VL-7B-Instruct)分别使用零样本和微调方法,在 OpenQA 和 CloseQA 环境下进行评估。我们介绍了 QaEgo4Dv2 以减轻 QaEgo4D 中标注噪声的影响,使比较更加可靠。结果显示,微调后的 Video-LLaVa-7B 和 Qwen2-VL-7B-Instruct 达到了新的性能基准,在 OpenQA 上比之前的标准高出 +2.6% 的 ROUGE/METEOR,而在 CloseQA 上高出 +13% 的准确率。此外,我们还进行了详细的错误分析,表明模型在空间推理和细粒度物体识别方面的困难,这是未来改进的关键领域。