摘要
arXiv:2504.14693v1 交叉类型:multimodal
摘要:近期在视频领域语言多模态模型(LMMs)的进步展示了其理解视频内容的潜力,但在多学科讲座的理解任务上仍有许多未探索的空间。我们介绍了Video-MMLU,这是一个大规模基准,旨在评估LMMs在理解多学科讲座方面的能力。我们评估了超过90个开源和专用模型,参数范围从0.5B到40B。我们的结果突显了当前模型在应对这些讲座提出的精神挑战方面的局限性,尤其是在需要感知和推理结合的任务中。此外,我们探讨了视觉标记的数量和大规模语言模型如何影响性能,为我们提供了关于多模态感知和推理在讲座理解中相互作用的见解。