摘要
arXiv:2412.11694v2 宣告类型: 替换
摘要: 为了应对现实世界场景中的复杂任务,越来越多的研究人员将注意力集中在了通模大语言模型(Omni-MLLMs)上,这些模型旨在实现多模态的理解和生成。超越任何特定非语言模态的限制,Omni-MLLMs 将各种非语言模态映射到大语言模型的嵌入空间,并在单一模型中实现任意模态组合的交互和理解。在本文中,我们系统地研究了相关研究,并提供了一份全面的Omni-MLLMs综述。具体而言,我们首先详细解释了Omni-MLLMs的四个核心组件,通过细致的分类提供了新颖的视角。然后,我们介绍了通过两阶段训练实现的有效集成,并讨论了相应的数据集以及评估方法。此外,我们总结了当前Omni-MLLMs的主要挑战,并指出了未来的研究方向。我们希望这篇论文能为初学者提供一个介绍,并推动相关研究的进展。资源将公开发布。