摘要
arXiv:2410.10636v2 提交类型:替换交叉
摘要:来自不同分发商的视觉指令数据集在不同时间发布,并且往往包含大量根据其任务组成(即技能)或参考来源的语义冗余文本-图像对。这种冗余极大地限制了不断适应的多模态大型语言模型的有效部署,阻碍了它们随着时间的推移改进现有技能并获得新能力的能力。我们重新定义了终生指令调优(LiIT)中的数据选择问题,其中模型根据模型中已获取知识的当前状态自动选择有益的样本来学习来自早期和新数据集的数据。我们提出了Adapt-$\infty$,这是一种新的多路和自适应数据选择方法,在终生指令调优(LiIT)过程中动态平衡样本效率和效果。我们首先通过基于梯度的样本向量分组构建伪技能簇。接下来,我们从选择器专家池中为每个技能簇选择表现最佳的数据选择器,包括我们新提出的成绩函数——图像接地得分。这种数据选择器从每个技能簇中选择出最重要的样本子集进行训练。为了防止在LiIT过程中数据集池的大小持续增加,我们引入了一种簇级永久性数据修剪策略,从每个簇中移除最语义冗余的样本,从而保持计算需求在可管理的范围内。我们通过一系列包含各种任务的多模态指令调优数据集验证了Adapt-$\infty$的有效性和效率,包括(知识)VQA、多语言、接地、推理、仅语言和多图像理解。使用Adapt-$\infty$选择的样本进行训练可以缓解灾难性遗忘,尤其是对于罕见任务,并且仅使用原始数据的一小部分便促进了连续体中的前向迁移。