LLM2D

摘要

arXiv:2505.03802v1 宣告类型: cross 摘要: QLoRA 有效结合了低比特量化和 LoRA，以实现大型语言模型（LLM）的内存友好型微调。最近，基于 SVD 的连续更新迭代方法，用于初始化 LoRA 矩阵以适应量化误差，普遍未能一致地提高性能。动态混合精度是连续改进量化模型微调性能的自然想法，但之前的方法通常单独优化低秩子空间或量化组件，而没有考虑它们的协同作用。为了解决这一问题，我们提出了一种名为 \textbf{QR-Adaptor} 的统一、无梯度策略，该策略使用部分校准数据联合搜索每个层的量化组件和低秩空间的秩，从而连续提高模型性能。QR-Adaptor 优化量化误差，而是将精度和秩分配视为由实际下游性能和内存使用指导的离散优化问题。与最新的量化 LoRA 微调方法相比，我们的方法在 GSM8K 上实现了 4.89% 的准确率提升，并在某些情况下甚至超越了 16 位微调模型，同时保持 4 位设置的内存占用。