LLM2D
先过滤图像,后生成指令:视觉指令调优的预指令数据选择
Filter Images First, Generate Instructions Later: Pre-Instruction Data Selection for Visual Instruction Tuning
作者: Bardia Safaei, Faizan Siddiqui, Jiacong Xu, Vishal M. Patel, Shao-Yuan Lo
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2503.07591v2

摘要

arXiv:2503.07591v2 Announce Type: replace-cross 摘要:大规模视觉-语言模型(LVLMs)的视觉指令调整(VIT)需要大量的图像-指令对的数据集进行训练,这可能会很昂贵。近期在VIT数据选择方面的努力旨在选择少量高质量的图像-指令对,从而减少VIT的运行时间,同时保持与全量训练相当的性能。然而,一个常被忽视的重大挑战是,从未标记的图像中为VIT生成指令是非常昂贵的。现有的大多数VIT数据集依赖于人工注释或付费服务(如GPT API),这限制了资源受限的用户为自定义应用创建VIT数据集的能力。为了解决这个问题,我们介绍了一种更实用的数据选择范式——Pre-Instruction数据选择(PreSel),它直接选择最有益的未标记图像,并仅为选定的图像生成指令。PreSel首先估算VIT数据集中每个视觉任务的相对重要性,以推导出任务相关的采样预算。然后,它在每个任务中聚类图像特征,使用预算选择最具代表性的图像。这种方法减少了在VIT数据形成期间和LVLM微调中的计算开销。通过仅为图像的15%生成指令,PreSel在LLaVA-1.5和Vision-Flan数据集上的性能与全量数据VIT相当。我们的项目页面链接:https://bardisafa.github.io/PreSel