LLM2D

摘要

近年来，多模态大型语言模型（MLLM），例如 LLaVA 系列模型，其发展得益于海量机器生成的指令遵循数据调优。然而，这种自动指令收集管道无意中引入了数据质量的显著差异。本文提出了一种新颖的指令整理算法，该算法源于两个独特的视角：人类和 LLM 偏好一致性，用于将海量机器生成的多模态指令压缩成紧凑且高质量的形式：（i）对于人类偏好一致性，我们收集了一个机器生成的多模态指令数据集，并建立了一套全面的主观和客观标准，以指导人类专家从批判性角度对数据质量进行评估。通过这样做，一个奖励模型在标注的数据集上进行训练，以将细微的人类对指令一致性的理解内化。（ii）对于 LLM 偏好一致性，给定奖励模型选择的指令，我们建议利用 MLLM 中使用的内部 LLM 来使视觉指令的写作风格与内部 LLM 本身的写作风格保持一致，从而实现 LLM 对齐的指令改进。大量的实验表明，我们可以通过将合成多模态指令压缩高达 90% 来维持甚至提高模型性能。令人印象深刻的是，通过将总训练样本量从 158k 积极减少到 14k（小 9 倍），我们的模型在各种 MLLM 基准测试中始终优于其全尺寸数据集对应模型。我们的项目可在 https://github.com/DCDmllm/Align2LLaVA 获取。