LLM2D
AlignGPT:具有自适应对齐能力的多模态大型语言模型
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability
作者: Fei Zhao, Taotian Pang, Chunhui Li, Zhen Wu, Junjie Guo, Shangyu Xing, Xinyu Dai
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2405.14129v2

摘要

多模态大型语言模型 (MLLM) 被广泛认为是探索通用人工智能 (AGI) 的关键。MLLM 的核心在于其实现跨模态对齐的能力。为了实现这一目标,当前的 MLLM 通常遵循两阶段训练范式:预训练阶段和指令微调阶段。尽管取得了成功,但这些模型的对齐能力建模仍存在不足。首先,在预训练阶段,模型通常假设所有图像文本对都均匀对齐,但实际上不同图像文本对之间的对齐程度并不一致。其次,目前用于微调的指令包含各种任务,不同任务通常需要不同程度的对齐能力,但之前的 MLLM 忽略了这些差异化的对齐需求。为了解决这些问题,我们提出了一种新的多模态大型语言模型 AlignGPT。在预训练阶段,我们不将所有图像文本对同等对待,而是根据其对齐程度将它们分成不同的组。然后,模型被训练以学习不同对齐级别的表示。在指令微调阶段,我们自适应地组合这些对齐级别的表示,以满足不同任务的动态对齐需求。大量的实验结果表明,我们的模型在 12 个基准测试中取得了具有竞争力的性能。