摘要
arXiv:2409.15272v4 公告类型: replace-cross
摘要:近期关于多模态大型语言模型(MLLMs)的进展集中在整合多种模态上,但它们在同时处理和在不同输入之间进行推理方面的能力仍然未被充分探索。我们引入了OmniBench,这是一个新的基准测试,旨在评估模型在同时识别、解释和在视觉、声学和文本输入之间进行推理的能力。我们将能够进行此类三模态处理的语言模型称为全模态语言模型(OMLS)。OmniBench 包含高质量的人工注释,这些注释要求在所有模态之间进行集成理解。我们的评估显示:i) 开源 OLM 在三模态上下文中的指令遵循和推理方面存在显著限制;ii) 大多数基线模型即使采用文本替代图像/音频输入也表现不佳(准确性约为 50%)。为了应对这些限制,我们开发了OmniInstruct,这是一个用于训练OMLS的96K样本指令调优数据集。我们呼吁开发更 robust 的三模态集成技术和训练策略以提升OMLS的性能。代码和数据可在我们的仓库(https://github.com/multimodal-art-projection/OmniBench)中找到。