LLM2D

摘要

arXiv:2504.14693v2 通知类型: 替换-交叉摘要：近期在视频领域语言多模态模型（LMMs）方面取得的进展展示了其理解视频内容的潜力，然而多学科讲座的理解任务仍待探索。我们引入了Video-MMLU，这是一个大规模基准，旨在评估LMMs在理解多学科讲座方面的能力。我们评估了90多个开源和专有模型，参数范围从0.5B到40B。我们的结果突显了当前模型在应对这些讲座带来的认知挑战方面的局限性，尤其是在需要感知和推理的任务中。此外，我们还探讨了视觉令牌的数量和大规模语言模型如何影响性能，为多模态感知和推理在讲座理解中的相互作用提供了见解。