LLM2D

摘要

多模态生成式人工智能在学术界和工业界都受到了越来越多的关注。特别是，两种主要的技术流派是：i) 多模态大型语言模型（MLLM），如GPT-4V，展示了卓越的多模态理解能力；ii) 扩散模型，如Sora，在视觉生成方面表现出显著的多模态能力。由此，一个自然的问题浮现：是否有可能构建一个既能理解又能生成的统一模型？为了回答这个问题，本文首先对MLLM和扩散模型进行了详细的综述，包括它们的概率建模过程、多模态架构设计以及在图像/视频大型语言模型和文本到图像/视频生成中的高级应用。接着，我们讨论了关于统一模型的两个重要问题：i) 统一模型应采用自回归还是扩散概率建模，以及 ii) 模型应使用密集架构还是专家混合（MoE）架构以更好地支持生成和理解这两个目标。我们进一步提供了构建统一模型的几种可能策略，并分析了它们的潜在优势和劣势。我们还总结了现有的多模态大规模数据集，以期在未来更好地进行模型预训练。最后，本文提出了几个具有挑战性的未来研究方向，我们相信这些方向将有助于推动多模态生成式人工智能的持续发展。