LLM2D

摘要

arXiv:2504.04550v1 广义类型: cross 摘要: 自我中心视频问答(QA)要求模型处理长期时间推理、第一人称视角以及频繁的摄像机移动等专门挑战。本文系统性地评估了 proprietary 和开源的多模态大语言模型(MLLMs)在 QaEgo4Dv2 上的表现，这是一个源自 QaEgo4D 的改进数据集。四种流行的 MLLMs（GPT-4o、Gemini-1.5-Pro、Video-LLaVa-7B 和 Qwen2-VL-7B-Instruct）分别使用零样本和微调方法，在 OpenQA 和 CloseQA 环境下进行评估。我们介绍了 QaEgo4Dv2 以减轻 QaEgo4D 中标注噪声的影响，使比较更加可靠。结果显示，微调后的 Video-LLaVa-7B 和 Qwen2-VL-7B-Instruct 达到了新的性能基准，在 OpenQA 上比之前的标准高出 +2.6% 的 ROUGE/METEOR，而在 CloseQA 上高出 +13% 的准确率。此外，我们还进行了详细的错误分析，表明模型在空间推理和细粒度物体识别方面的困难，这是未来改进的关键领域。