摘要
arXiv:2409.15272v1 公告类型: 交叉 摘要: 多模态大语言模型(MLLMs)的最新进展旨在整合和解释跨多种模态的数据。然而,这些模型同时处理和推理多种模态的能力仍未得到充分探索,部分原因是缺乏全面的模态基准。我们引入了OmniBench,这是一个新颖的基准,旨在严格评估模型识别、解释和推理视觉、声学和文本输入的能力。我们将具备这种三模态处理能力的模型定义为全语言模型(OLMs)。OmniBench以其高质量的人类注释为特点,确保准确响应需要跨所有三种模态的综合理解和推理。我们的主要发现揭示了: i) 开源OLMs在三模态情境下的指令跟随和推理能力存在关键限制; ii) 即使提供了图像和音频的替代文本表示,基线模型的表现也很差(低于50%的准确率)。这些结果表明,从文本、图像和音频构建一致上下文的能力在现有的MLLM训练范式中经常被忽视。我们呼吁未来研究重点发展更强大的三模态整合技术和训练策略,以提高OLMs在多种模态中的性能。代码和实时排行榜可在https://m-a-p.ai/OmniBench找到。