LLM2D

摘要

arXiv:2412.11694v2 宣告类型: 替换摘要: 为了应对现实世界场景中的复杂任务，越来越多的研究人员将注意力集中在了通模大语言模型（Omni-MLLMs）上，这些模型旨在实现多模态的理解和生成。超越任何特定非语言模态的限制，Omni-MLLMs 将各种非语言模态映射到大语言模型的嵌入空间，并在单一模型中实现任意模态组合的交互和理解。在本文中，我们系统地研究了相关研究，并提供了一份全面的Omni-MLLMs综述。具体而言，我们首先详细解释了Omni-MLLMs的四个核心组件，通过细致的分类提供了新颖的视角。然后，我们介绍了通过两阶段训练实现的有效集成，并讨论了相应的数据集以及评估方法。此外，我们总结了当前Omni-MLLMs的主要挑战，并指出了未来的研究方向。我们希望这篇论文能为初学者提供一个介绍，并推动相关研究的进展。资源将公开发布。