摘要
arXiv:2502.18778v3 公告类型: replace-cross
摘要: 我们介绍了 M2-omni,这是一个先进的开源全模态大语言模型(omni-MLLM),在性能上与 GPT-4o 相当。M2-omni 采用了统一的多模态序列建模框架,使大型语言模型(LLMs)能够获得全面的跨模态理解和生成能力。具体来说,M2-omni 可以处理任意组合的音频、视频、图像和文本模态作为输入,并生成包含音频、图像或文本输出的多模态序列,从而实现高级且互动的实时体验。在这种全模态大语言模型的训练中,由于模态间数据量和收敛率的巨大差异,面临着诸多挑战。为了应对这些挑战,我们在预训练阶段提出了一种步骤平衡策略,以处理模态特定数据的数量差异。此外,在指令调优阶段引入了一种动态适应性平衡策略,以同步模态间的训练进度,确保最佳收敛。值得注意的是,我们优先保持在纯文本任务上的强大性能,以保持 M2-omni 语言理解能力的稳健性,贯穿整个训练过程。据我们所知,目前 M2-omni 是 GPT-4o 的一个非常竞争力的开源模型,它以全面的模态和支持、卓越的性能为其特征。我们期待 M2-omni 将促进全模态大语言模型(omni-MLLMs)的发展,从而推动该领域的未来研究。