LLM2D
从特定多模态MLLMs到万能多模态MLLMs:多模态对齐的MLLMs综述
From Specific-MLLMs to Omni-MLLMs: A Survey on MLLMs Aligned with Multi-modalities
作者: Shixin Jiang, Jiafeng Liang, Jiyuan Wang, Xuan Dong, Heng Chang, Weijiang Yu, Jinhua Du, Ming Liu, Bing Qin
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2412.11694v2

摘要

arXiv:2412.11694v2 宣告类型: 替换 摘要: 为了应对现实世界场景中的复杂任务,越来越多的研究人员将注意力集中在了通模大语言模型(Omni-MLLMs)上,这些模型旨在实现多模态的理解和生成。超越任何特定非语言模态的限制,Omni-MLLMs 将各种非语言模态映射到大语言模型的嵌入空间,并在单一模型中实现任意模态组合的交互和理解。在本文中,我们系统地研究了相关研究,并提供了一份全面的Omni-MLLMs综述。具体而言,我们首先详细解释了Omni-MLLMs的四个核心组件,通过细致的分类提供了新颖的视角。然后,我们介绍了通过两阶段训练实现的有效集成,并讨论了相应的数据集以及评估方法。此外,我们总结了当前Omni-MLLMs的主要挑战,并指出了未来的研究方向。我们希望这篇论文能为初学者提供一个介绍,并推动相关研究的进展。资源将公开发布。