摘要
arXiv:2504.20314v1 宣告类型: cross
摘要:零阶(ZO)优化是一种新兴的深度神经网络(DNN)训练范式,提供了计算简单性和内存节省的优势。然而,这种看似有前途的方法面临着一个重要且长期以来被忽视的挑战。ZO需要生成大量的高斯随机数,这带来了显著的困难,并且甚至使其在硬件平台(如FPGA和ASIC)上变得不可行。在本文中,我们识别出了这一关键问题,它源自算法设计师和硬件设计师之间的不匹配。为了应对这一问题,我们提出了一种高效的ZO框架——PeZO。具体来说,我们设计了随机数重用策略,大幅减少了随机数生成的需求,并引入了一种硬件友好的自适应缩放方法,用廉价的均匀分布取代了昂贵的高斯分布。我们的实验结果显示,与随机数生成相关的LUT和FF需求减少了48.6%和12.7%,并且最大可节省86%的功耗,同时不牺牲训练性能,使ZO优化在设备上执行成为可能。据我们所知,这是我们首次探索设备上ZO优化的潜力,为未来的研究提供了宝贵的见解。