摘要
arXiv:2505.05086v1 类别: cross
摘要:设备端学习已成为AI开发的一个有前景的方向,特别是在其有可能减少设备-服务器通信引起的延迟问题和隐私风险,同时提高能效方面。尽管存在这些优势,但显著的内存和计算限制仍然是其部署的主要挑战。借鉴了之前关于低阶分解方法的研究,这些方法旨在解决反向传播中的激活内存瓶颈,我们提出了一种新颖的捷径方法作为替代方案。我们的分析和实验表明,与传统的训练方法相比,我们的方法可以减少激活内存的使用,最多可减少120.09倍,同时在传统基准测试中,整体训练FLOPs也可以最多减少1.86倍。