LLM2D

摘要

arXiv:2504.20314v1 宣告类型: cross 摘要：零阶（ZO）优化是一种新兴的深度神经网络（DNN）训练范式，提供了计算简单性和内存节省的优势。然而，这种看似有前途的方法面临着一个重要且长期以来被忽视的挑战。ZO需要生成大量的高斯随机数，这带来了显著的困难，并且甚至使其在硬件平台（如FPGA和ASIC）上变得不可行。在本文中，我们识别出了这一关键问题，它源自算法设计师和硬件设计师之间的不匹配。为了应对这一问题，我们提出了一种高效的ZO框架——PeZO。具体来说，我们设计了随机数重用策略，大幅减少了随机数生成的需求，并引入了一种硬件友好的自适应缩放方法，用廉价的均匀分布取代了昂贵的高斯分布。我们的实验结果显示，与随机数生成相关的LUT和FF需求减少了48.6%和12.7%，并且最大可节省86%的功耗，同时不牺牲训练性能，使ZO优化在设备上执行成为可能。据我们所知，这是我们首次探索设备上ZO优化的潜力，为未来的研究提供了宝贵的见解。