LLM2D

摘要

近年来，以GPT-4V为代表的多模态大型语言模型（MLLM）成为一个新的研究热点，它利用强大的大型语言模型（LLM）作为“大脑”来执行多模态任务。MLLM令人惊讶的新兴能力，例如基于图像创作故事和无需光学字符识别（OCR）的数学推理，在传统的多模态方法中是罕见的，这暗示了通向人工通用智能的潜在路径。为此，学术界和工业界都努力开发能够与GPT-4V竞争甚至超越GPT-4V的MLLM，以惊人的速度推动着研究的极限。本文旨在追溯和总结MLLM的最新进展。首先，我们介绍了MLLM的基本构成，并阐述了其相关的概念，包括架构、训练策略和数据以及评估方法。然后，我们介绍了关于如何扩展MLLM以支持更细粒度、更多模态、更多语言和更多场景的研究课题。接下来，我们讨论多模态幻觉和扩展技术，包括多模态指令学习（M-ICL）、多模态思维链（M-CoT）和大型语言模型辅助视觉推理（LAVR）。最后，我们讨论了现有挑战并指出了有前景的研究方向。