摘要
arXiv:2502.12913v1 初报类型: cross
摘要: 大型语言模型(LLMs)微调技术已经取得了显著成果。然而,传统LLM微调方法面临重大挑战:它们需要大量的浮点(FP)计算,在处理敏感数据时会引发隐私问题,并且不适合资源受限的边缘设备。尽管参数高效微调(PEFT)技术减少了可训练参数,但它们依赖浮点运算在硬件上存在基本不兼容问题。在这项工作中,我们介绍了一种新的边缘设备上LLM微调框架,该框架在推理和训练中均不需要浮点运算,名为GSQ-Tuning。其核心是分组共享指数整数格式,该格式高效地使用分组参数间的共享指数以整数格式表示模型参数。结合LoRA类似适配器时,这使完全基于整数的微调成为可能,既能减少内存使用,也能提高计算效率。我们展示了我们的方法在准确性上与基于FP16的微调方法相当,同时显著减少内存使用(50%)。与FP8相比,我们的方法在相同性能下可以减少5倍的功耗和11倍的芯片面积,使得大规模模型适应在边缘设备上变得可行。