摘要
arXiv:2504.07998v1 公告类型: cross
摘要:对大型扩散模型进行定制应用的微调需要大量的计算能力和时间,这为在移动设备上高效实现带来了重大挑战。本文中,我们开发了一种专门为低秩适应(LoRA)设计的新型训练加速器,旨在简化这一过程并降低计算复杂度。通过利用完全量化训练方案进行LoRA微调,我们实现了内存使用量和能耗的显著减少,同时保持了高模型保真度。所提出的加速器具有灵活的数据流,能够在LoRA过程中高效处理不规则和可变张量形状。实验结果表明,与基线相比,训练速度提高了1.81倍,能耗效率提高了5.50倍,且对图像生成质量的影响最小。