LLM2D
多模态生成式人工智能:多模态大语言模型、扩散模型及超越
Multi-Modal Generative AI: Multi-modal LLM, Diffusion and Beyond
发布日期: 9/24/2024
arXiv ID: oai:arXiv.org:2409.14993v1

摘要

多模态生成式人工智能在学术界和工业界都受到了越来越多的关注。特别是,两种主要的技术流派是:i) 多模态大型语言模型(MLLM),如GPT-4V,展示了卓越的多模态理解能力;ii) 扩散模型,如Sora,在视觉生成方面表现出显著的多模态能力。由此,一个自然的问题浮现:是否有可能构建一个既能理解又能生成的统一模型?为了回答这个问题,本文首先对MLLM和扩散模型进行了详细的综述,包括它们的概率建模过程、多模态架构设计以及在图像/视频大型语言模型和文本到图像/视频生成中的高级应用。接着,我们讨论了关于统一模型的两个重要问题:i) 统一模型应采用自回归还是扩散概率建模,以及 ii) 模型应使用密集架构还是专家混合(MoE)架构以更好地支持生成和理解这两个目标。我们进一步提供了构建统一模型的几种可能策略,并分析了它们的潜在优势和劣势。我们还总结了现有的多模态大规模数据集,以期在未来更好地进行模型预训练。最后,本文提出了几个具有挑战性的未来研究方向,我们相信这些方向将有助于推动多模态生成式人工智能的持续发展。