摘要
近年来,以GPT-4V为代表的多模态大型语言模型(MLLM)成为一个新的研究热点,它利用强大的大型语言模型(LLM)作为“大脑”来执行多模态任务。MLLM令人惊讶的新兴能力,例如基于图像创作故事和无需光学字符识别(OCR)的数学推理,在传统的多模态方法中是罕见的,这暗示了通向人工通用智能的潜在路径。为此,学术界和工业界都努力开发能够与GPT-4V竞争甚至超越GPT-4V的MLLM,以惊人的速度推动着研究的极限。本文旨在追溯和总结MLLM的最新进展。首先,我们介绍了MLLM的基本构成,并阐述了其相关的概念,包括架构、训练策略和数据以及评估方法。然后,我们介绍了关于如何扩展MLLM以支持更细粒度、更多模态、更多语言和更多场景的研究课题。接下来,我们讨论多模态幻觉和扩展技术,包括多模态指令学习(M-ICL)、多模态思维链(M-CoT)和大型语言模型辅助视觉推理(LAVR)。最后,我们讨论了现有挑战并指出了有前景的研究方向。