LLM2D

摘要

arXiv:2502.01703v1 Announce Type: cross 摘要： fine-tuning 大型语言模型（LLMs）通常受到处理大规模数据集的计算成本的限制。我们提出了一种称为 \textbf{QLESS}（量化低秩梯度相似性搜索）的方法，该方法将梯度量化与 LESS 框架结合起来，以实现内存高效的数据估值和选择。QLESS 采用了两步压缩过程：首先，通过 LoRA 基础的随机投影获得低维度的梯度表示；然后对这些梯度进行量化，使其表示为低位宽表示。在多种 LLM 架构（LLaMA、Mistral、Qwen）和基准测试（MMLU、BBH、TyDiQA）上的实验结果表明，QLESS 在减少内存使用量的同时实现了与 LESS 类似的数据选择性能，最多可减少 16 倍的内存使用。甚至 1 位梯度量化也能保持数据估值质量。这些研究结果表明，QLESS 是一种在严格内存限制下识别具有信息性的示例的实用可扩展方法。