摘要
近年来,多模态大型语言模型(MLLMs)取得了进展,旨在整合和解释跨不同模态的数据。然而,这些模型同时处理和推理多种模态的能力仍未得到充分探索,部分原因是缺乏全面的模态基准。我们介绍了 OmniBench,这是一个新颖的基准,旨在严格评估模型同时识别、解释和推理视觉、声学和文本输入的能力。我们将能够进行这种三模态处理的模型定义为全语言模型(OLMs)。OmniBench 的特点是高质量的人工标注,确保准确的响应需要对所有三种模态进行整合理解和推理。我们的主要发现表明:i)大多数 OLMs 在三模态上下文中表现出指令遵循和推理能力方面的严重局限性;ii)大多数基线模型的性能很差(准确率低于 50%),即使提供了图像或/和音频的替代文本表示。这些结果表明,从文本、图像和音频构建一致上下文的的能力在现有的 MLLM 训练范式中常常被忽视。为了解决这一差距,我们为训练 OLMs 以适应多模态上下文,整理了一个包含 84.5 万个训练样本的指令调优数据集 OmniInstruct。我们主张未来的研究应侧重于开发更强大的三模态集成技术和训练策略,以提高 OLM 在不同模态上的性能。代码和实时排行榜可在 https://m-a-p.ai/OmniBench 找到。