摘要
大型预训练模型(LPM),例如大型语言模型,已变得无处不在,并被应用于许多应用场景。这些模型通常通过微调阶段被调整到所需的领域或下游任务。本文提出了一种名为 SQFT 的端到端解决方案,用于对 LPM 进行低精度稀疏参数高效微调,从而在资源受限的环境中实现有效的模型操作。此外,一种创新策略使稀疏权重能够与低秩适配器合并,而不会损失稀疏性和准确性,克服了先前方法的局限性。SQFT 还解决了具有不同数值精度的量化权重和适配器的合并挑战,使合并能够在所需的数值格式中进行,而不会牺牲准确性。多个适应场景、模型和全面的稀疏性级别证明了 SQFT 的有效性。模型和代码可在 https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning 上获取。