摘要
arXiv:2502.01703v1 Announce Type: cross
摘要: fine-tuning 大型语言模型(LLMs)通常受到处理大规模数据集的计算成本的限制。我们提出了一种称为 \textbf{QLESS}(量化低秩梯度相似性搜索)的方法,该方法将梯度量化与 LESS 框架结合起来,以实现内存高效的 数据估值和选择。QLESS 采用了两步压缩过程:首先,通过 LoRA 基础的随机投影获得低维度的梯度表示;然后对这些梯度进行量化,使其表示为低位宽表示。在多种 LLM 架构(LLaMA、Mistral、Qwen)和基准测试(MMLU、BBH、TyDiQA)上的实验结果表明,QLESS 在减少内存使用量的同时实现了与 LESS 类似的数据选择性能,最多可减少 16 倍的内存使用。甚至 1 位梯度量化也能保持数据估值质量。这些研究结果表明,QLESS 是一种在严格内存限制下识别具有信息性的示例的实用可扩展方法。