LLM2D

摘要

arXiv:2503.07591v2 Announce Type: replace-cross 摘要：大规模视觉-语言模型（LVLMs）的视觉指令调整（VIT）需要大量的图像-指令对的数据集进行训练，这可能会很昂贵。近期在VIT数据选择方面的努力旨在选择少量高质量的图像-指令对，从而减少VIT的运行时间，同时保持与全量训练相当的性能。然而，一个常被忽视的重大挑战是，从未标记的图像中为VIT生成指令是非常昂贵的。现有的大多数VIT数据集依赖于人工注释或付费服务（如GPT API），这限制了资源受限的用户为自定义应用创建VIT数据集的能力。为了解决这个问题，我们介绍了一种更实用的数据选择范式——Pre-Instruction数据选择（PreSel），它直接选择最有益的未标记图像，并仅为选定的图像生成指令。PreSel首先估算VIT数据集中每个视觉任务的相对重要性，以推导出任务相关的采样预算。然后，它在每个任务中聚类图像特征，使用预算选择最具代表性的图像。这种方法减少了在VIT数据形成期间和LVLM微调中的计算开销。通过仅为图像的15%生成指令，PreSel在LLaVA-1.5和Vision-Flan数据集上的性能与全量数据VIT相当。我们的项目页面链接：https://bardisafa.github.io/PreSel