LLM2D

摘要

本文介绍了 MIO，一种基于多模态标记的新型基础模型，能够以端到端、自回归的方式理解和生成语音、文本、图像和视频。虽然大型语言模型 (LLMs) 和多模态大型语言模型 (MM-LLMs) 的出现通过其多功能性推动了通用人工智能的进步，但它们仍然缺乏真正的任何到任何的理解和生成能力。最近，GPT-4o 的发布展示了任何到任何 LLMs 在复杂现实世界任务中的巨大潜力，使图像、语音和文本能够进行全方位输入和输出。然而，它是闭源的，不支持生成多模态交织序列。为了解决这一差距，我们提出了 MIO，它是在使用因果多模态建模的四种模态的离散标记混合上训练的。MIO 经历了四个阶段的训练过程：(1) 对齐预训练，(2) 交织预训练，(3) 语音增强预训练，以及 (4) 在各种文本、视觉和语音任务上的全面监督微调。我们的实验结果表明，与以前的双模态基线、任何到任何模型基线，甚至模态特定基线相比，MIO 表现出具有竞争力，在某些情况下甚至更优越的性能。此外，MIO 展示了其任何到任何功能固有的高级功能，例如交织视频-文本生成、视觉思维链推理、视觉指南生成、指令图像编辑等。