摘要
arXiv:2502.12119v1 交叉类型:公告
摘要:视觉指令调优通过细化预训练的多模态大型语言模型(MLLMs)来提升其在实际任务中的性能。然而,视觉指令数据集的快速扩展引入了大量数据冗余,导致计算成本过高。现有的数据选择方法主要依赖代理模型或基于损失的指标,这两种方法都由于需要进行模型推理和反向传播而带来了显著的计算开销。为了解决这一挑战,我们提出了一种名为PRISM的新颖无训练方法,以实现高效的数据选择。与现有方法不同,PRISM消除了对代理模型、预训练热身和梯度优化的依赖。相反,它利用皮尔逊相关分析来量化MLLMs的内在视觉编码特性,计算任务特定的相关性分数以识别具有高价值的实例。这不仅实现了数据高效的选取,还保持了原始性能。在多种MLLM上的经验评估表明,PRISM将视觉指令调优和数据选择所需的整体时间降低到传统方法的30%,同时在八个跨模态和三个语言理解基准上超过了完全微调的模型,最终性能相对改进幅度达到了101.7%。