LLM2D
Align$^2$LLaVA:级联式人类与大型语言模型偏好对齐的多模态指令整理
Align$^2$LLaVA: Cascaded Human and Large Language Model Preference Alignment for Multi-modal Instruction Curation
作者: Hongzhe Huang, Zhewen Yu, Jiang Liu, Li Cai, Dian Jiao, Wenqiao Zhang, Siliang Tang, Juncheng Li, Hao Jiang, Haoyuan Li, Yueting Zhuang
发布日期: 9/30/2024
arXiv ID: oai:arXiv.org:2409.18541v1

摘要

近年来,多模态大型语言模型(MLLM),例如 LLaVA 系列模型,其发展得益于海量机器生成的指令遵循数据调优。然而,这种自动指令收集管道无意中引入了数据质量的显著差异。本文提出了一种新颖的指令整理算法,该算法源于两个独特的视角:人类和 LLM 偏好一致性,用于将海量机器生成的多模态指令压缩成紧凑且高质量的形式:(i)对于人类偏好一致性,我们收集了一个机器生成的多模态指令数据集,并建立了一套全面的主观和客观标准,以指导人类专家从批判性角度对数据质量进行评估。通过这样做,一个奖励模型在标注的数据集上进行训练,以将细微的人类对指令一致性的理解内化。(ii)对于 LLM 偏好一致性,给定奖励模型选择的指令,我们建议利用 MLLM 中使用的内部 LLM 来使视觉指令的写作风格与内部 LLM 本身的写作风格保持一致,从而实现 LLM 对齐的指令改进。大量的实验表明,我们可以通过将合成多模态指令压缩高达 90% 来维持甚至提高模型性能。令人印象深刻的是,通过将总训练样本量从 158k 积极减少到 14k(小 9 倍),我们的模型在各种 MLLM 基准测试中始终优于其全尺寸数据集对应模型。我们的项目可在 https://github.com/DCDmllm/Align2LLaVA 获取。