LLM2D

摘要

arXiv:2502.01703v1 Announce Type: cross 摘要： fine-tuning 大型语言模型 (LLMs) 往往受到处理海量数据集的计算成本的限制。我们提出了一种名为 \textbf{QLESS} (Quantized Low-rank Gradient Similarity Search) 的方法，该方法将梯度量化与 LESS 框架相结合，以实现内存高效的数据估值和选择。QLESS 采用了两步压缩过程：首先，通过基于 LoRA 的随机投影获得低维度的梯度表示；然后，将这些梯度量化为低位宽表示。在多个 LLM 架构（LLaMA、Mistral、Qwen）和基准测试集（MMLU、BBH、TyDiQA）上的实验表明，QLESS 在减少内存使用最多 16 倍的情况下，实现了与 LESS 相当的数据选择性能。即使进行 1 位梯度量化，也能保持数据估值的质量。这些发现强调了 QLESS 在严格内存限制下识别信息性示例的实用性和可扩展性。