摘要
arXiv:2504.14523v1 宣布类型: 新论文
摘要: 在合成数据上训练模型已成为提高生成式AI性能的一项日益重要的策略。对于大型多模态模型(LMM),由于高质量的成对图像-文本数据稀缺,相比之下单文本数据较为丰富,这种方法尤为有益。虽然已经提出了多种方法生成大规模多模态数据集,但这些方法并未针对将要使用生成数据集训练的LMM的推理能力特定缺陷定制合成数据。相比之下,人类通常通过寻求与他们之前失败的推理类型相关的例子,以更高效的方式学习。受到这一观察的启发,我们提出了一种新的合成数据生成方法,该方法基于现有LMM推理错误的分析。我们的方法利用前沿模型自动分析较弱LMM产生的错误,并提出新的例子,这些例子可以用于通过额外训练纠正推理错误,然后进一步筛选以确保高质量。我们使用我们的方法生成了一个包含超过55.3万例的大型多模态指令调优数据集,并进行了广泛的实验,证明了它在多个下游任务中提高LMM性能的效用。结果显示,使用我们合成数据训练的模型甚至可以超越使用同等额外真实数据训练的LMM的性能,这表明生成针对LMM特定推理错误模式的合成数据具有很高的价值。我们将公开我们的数据集和代码。