摘要
arXiv:2502.01703v1 Announce Type: cross
摘要: fine-tuning 大型语言模型 (LLMs) 往往受到处理海量数据集的计算成本的限制。我们提出了一种名为 \textbf{QLESS} (Quantized Low-rank Gradient Similarity Search) 的方法,该方法将梯度量化与 LESS 框架相结合,以实现内存高效的数据估值和选择。QLESS 采用了两步压缩过程:首先,通过基于 LoRA 的随机投影获得低维度的梯度表示;然后,将这些梯度量化为低位宽表示。在多个 LLM 架构(LLaMA、Mistral、Qwen)和基准测试集(MMLU、BBH、TyDiQA)上的实验表明,QLESS 在减少内存使用最多 16 倍的情况下,实现了与 LESS 相当的数据选择性能。即使进行 1 位梯度量化,也能保持数据估值的质量。这些发现强调了 QLESS 在严格内存限制下识别信息性示例的实用性和可扩展性。