摘要
最近在多模态大型语言模型(MLLMs)方面的进展旨在整合和解释各种模态的数据。然而,这些模型同时处理和推理多种模态的能力仍然没有得到充分探索,部分原因是缺乏全面的模态基准测试。我们引入了OmniBench,这是一个新颖的基准测试,旨在严格评估模型同时识别、解释和推理视觉、声音和文本输入的能力。我们将能够进行这种三模态处理的模型定义为全语言模型(OLMs)。OmniBench以高质量的人类注释为特色,确保准确的回答需要对所有三种模态的综合理解和推理。我们的主要发现表明:i) 大多数OLMs在三模态环境中的指令跟随和推理能力方面存在关键限制;ii) 大多数基线模型即使在提供图像或/和音频的替代文本表示时,表现也很差(准确率低于50%)。这些结果表明,在现有的MLLM训练范式中,从文本、图像和音频构建一致上下文的能力常常被忽视。我们倡导未来的研究应重点开发更强大的三模态集成技术和训练策略,以提高OLM在各种模态中的表现。代码和实时排行榜可以在https://m-a-p.ai/OmniBench找到。