摘要
arXiv:2503.21699v1 宣布类型:交叉
摘要:前沿模型要么仅限于语言,要么主要专注于视觉和语言模态。尽管最近在具有视觉和音频理解能力的模型方面取得了显著进展,但该领域缺乏一个标准化的评估框架,以全面评估其跨模态感知性能。我们引入了MAVERIX(Multimodal Audio-Visual Evaluation Reasoning IndeX),这是一个新的基准,包含700个视频和2,556个问题,明确设计用于通过需要紧密整合视频和音频信息的任务来评估多模态模型。MAVERIX的独特之处在于为模型提供了视听任务,这些任务紧密模仿了在推理和决策过程中人类可利用的多模态感知体验。据我们所知,MAVERIX是首个明确旨在评估全面视听整合的基准。使用当今最先进的模型(包括Gemini 1.5 Pro和o1)进行的实验显示,其性能接近人类水平(约70%的准确性),而人类专家则接近天花板水平(95.1%)。凭借标准化的评估协议、严格标注的流水线和公开的工具包,MAVERIX为推进视听多模态智能建立了有挑战性的测试平台。