LLM2D

摘要

arXiv:2502.12913v1 初报类型: cross 摘要: 大型语言模型（LLMs）微调技术已经取得了显著成果。然而，传统LLM微调方法面临重大挑战：它们需要大量的浮点（FP）计算，在处理敏感数据时会引发隐私问题，并且不适合资源受限的边缘设备。尽管参数高效微调（PEFT）技术减少了可训练参数，但它们依赖浮点运算在硬件上存在基本不兼容问题。在这项工作中，我们介绍了一种新的边缘设备上LLM微调框架，该框架在推理和训练中均不需要浮点运算，名为GSQ-Tuning。其核心是分组共享指数整数格式，该格式高效地使用分组参数间的共享指数以整数格式表示模型参数。结合LoRA类似适配器时，这使完全基于整数的微调成为可能，既能减少内存使用，也能提高计算效率。我们展示了我们的方法在准确性上与基于FP16的微调方法相当，同时显著减少内存使用（50%）。与FP8相比，我们的方法在相同性能下可以减少5倍的功耗和11倍的芯片面积，使得大规模模型适应在边缘设备上变得可行。