LLM2D

摘要

arXiv:2502.18778v3 公告类型: replace-cross 摘要: 我们介绍了 M2-omni，这是一个先进的开源全模态大语言模型（omni-MLLM），在性能上与 GPT-4o 相当。M2-omni 采用了统一的多模态序列建模框架，使大型语言模型（LLMs）能够获得全面的跨模态理解和生成能力。具体来说，M2-omni 可以处理任意组合的音频、视频、图像和文本模态作为输入，并生成包含音频、图像或文本输出的多模态序列，从而实现高级且互动的实时体验。在这种全模态大语言模型的训练中，由于模态间数据量和收敛率的巨大差异，面临着诸多挑战。为了应对这些挑战，我们在预训练阶段提出了一种步骤平衡策略，以处理模态特定数据的数量差异。此外，在指令调优阶段引入了一种动态适应性平衡策略，以同步模态间的训练进度，确保最佳收敛。值得注意的是，我们优先保持在纯文本任务上的强大性能，以保持 M2-omni 语言理解能力的稳健性，贯穿整个训练过程。据我们所知，目前 M2-omni 是 GPT-4o 的一个非常竞争力的开源模型，它以全面的模态和支持、卓越的性能为其特征。我们期待 M2-omni 将促进全模态大语言模型（omni-MLLMs）的发展，从而推动该领域的未来研究。