LLM2D

摘要

arXiv:2504.07998v1 公告类型: cross 摘要：对大型扩散模型进行定制应用的微调需要大量的计算能力和时间，这为在移动设备上高效实现带来了重大挑战。本文中，我们开发了一种专门为低秩适应（LoRA）设计的新型训练加速器，旨在简化这一过程并降低计算复杂度。通过利用完全量化训练方案进行LoRA微调，我们实现了内存使用量和能耗的显著减少，同时保持了高模型保真度。所提出的加速器具有灵活的数据流，能够在LoRA过程中高效处理不规则和可变张量形状。实验结果表明，与基线相比，训练速度提高了1.81倍，能耗效率提高了5.50倍，且对图像生成质量的影响最小。