摘要
本文介绍了 MIO,一种基于多模态标记的新型基础模型,能够以端到端、自回归的方式理解和生成语音、文本、图像和视频。虽然大型语言模型 (LLMs) 和多模态大型语言模型 (MM-LLMs) 的出现通过其多功能性推动了通用人工智能的进步,但它们仍然缺乏真正的任何到任何的理解和生成能力。最近,GPT-4o 的发布展示了任何到任何 LLMs 在复杂现实世界任务中的巨大潜力,使图像、语音和文本能够进行全方位输入和输出。然而,它是闭源的,不支持生成多模态交织序列。为了解决这一差距,我们提出了 MIO,它是在使用因果多模态建模的四种模态的离散标记混合上训练的。MIO 经历了四个阶段的训练过程:(1) 对齐预训练,(2) 交织预训练,(3) 语音增强预训练,以及 (4) 在各种文本、视觉和语音任务上的全面监督微调。我们的实验结果表明,与以前的双模态基线、任何到任何模型基线,甚至模态特定基线相比,MIO 表现出具有竞争力,在某些情况下甚至更优越的性能。此外,MIO 展示了其任何到任何功能固有的高级功能,例如交织视频-文本生成、视觉思维链推理、视觉指南生成、指令图像编辑等。