LLM2D

摘要

arXiv:2505.05086v1 类别: cross 摘要：设备端学习已成为AI开发的一个有前景的方向，特别是在其有可能减少设备-服务器通信引起的延迟问题和隐私风险，同时提高能效方面。尽管存在这些优势，但显著的内存和计算限制仍然是其部署的主要挑战。借鉴了之前关于低阶分解方法的研究，这些方法旨在解决反向传播中的激活内存瓶颈，我们提出了一种新颖的捷径方法作为替代方案。我们的分析和实验表明，与传统的训练方法相比，我们的方法可以减少激活内存的使用，最多可减少120.09倍，同时在传统基准测试中，整体训练FLOPs也可以最多减少1.86倍。