LLM2D
MIO:一种基于多模态令牌的基础模型
MIO: A Foundation Model on Multimodal Tokens
作者: Zekun Wang, King Zhu, Chunpu Xu, Wangchunshu Zhou, Jiaheng Liu, Yibo Zhang, Jiashuo Wang, Ning Shi, Siyu Li, Yizhi Li, Haoran Que, Zhaoxiang Zhang, Yuanxing Zhang, Ge Zhang, Ke Xu, Jie Fu, Wenhao Huang
发布日期: 9/27/2024
arXiv ID: oai:arXiv.org:2409.17692v1

摘要

本文介绍了 MIO,一种基于多模态标记的新型基础模型,能够以端到端、自回归的方式理解和生成语音、文本、图像和视频。虽然大型语言模型 (LLMs) 和多模态大型语言模型 (MM-LLMs) 的出现通过其多功能性推动了通用人工智能的进步,但它们仍然缺乏真正的任何到任何的理解和生成能力。最近,GPT-4o 的发布展示了任何到任何 LLMs 在复杂现实世界任务中的巨大潜力,使图像、语音和文本能够进行全方位输入和输出。然而,它是闭源的,不支持生成多模态交织序列。为了解决这一差距,我们提出了 MIO,它是在使用因果多模态建模的四种模态的离散标记混合上训练的。MIO 经历了四个阶段的训练过程:(1) 对齐预训练,(2) 交织预训练,(3) 语音增强预训练,以及 (4) 在各种文本、视觉和语音任务上的全面监督微调。我们的实验结果表明,与以前的双模态基线、任何到任何模型基线,甚至模态特定基线相比,MIO 表现出具有竞争力,在某些情况下甚至更优越的性能。此外,MIO 展示了其任何到任何功能固有的高级功能,例如交织视频-文本生成、视觉思维链推理、视觉指南生成、指令图像编辑等。