LLM2D

摘要

多模态大型语言模型 (MLLM) 被广泛认为是探索通用人工智能 (AGI) 的关键。MLLM 的核心在于其实现跨模态对齐的能力。为了实现这一目标，当前的 MLLM 通常遵循两阶段训练范式：预训练阶段和指令微调阶段。尽管取得了成功，但这些模型的对齐能力建模仍存在不足。首先，在预训练阶段，模型通常假设所有图像文本对都均匀对齐，但实际上不同图像文本对之间的对齐程度并不一致。其次，目前用于微调的指令包含各种任务，不同任务通常需要不同程度的对齐能力，但之前的 MLLM 忽略了这些差异化的对齐需求。为了解决这些问题，我们提出了一种新的多模态大型语言模型 AlignGPT。在预训练阶段，我们不将所有图像文本对同等对待，而是根据其对齐程度将它们分成不同的组。然后，模型被训练以学习不同对齐级别的表示。在指令微调阶段，我们自适应地组合这些对齐级别的表示，以满足不同任务的动态对齐需求。大量的实验结果表明，我们的模型在 12 个基准测试中取得了具有竞争力的性能。