摘要
大型语言模型 (LLM) GPT-4o 突出的多模态能力和交互式体验突出了其在实际应用中的关键作用,但它缺乏一个高性能的开源对应物。本文介绍了白川-Omni,这是第一个开源的 7B 多模态大型语言模型 (MLLM),它能够同时处理和分析图像、视频、音频和文本等模态,同时提供高级的多模态交互体验和强大的性能。我们提出了一种有效的多模态训练方案,从 7B 模型开始,经过两个阶段的多模态对齐和跨音频、图像、视频和文本模态的多任务微调。这种方法使语言模型能够有效地处理视觉和音频数据。在各种全模态和多模态基准测试中表现出强大的性能,我们希望这项贡献能够成为开源社区在推进多模态理解和实时交互方面的竞争基准。