LLM2D

摘要

arXiv:2308.12053v2 公告类型：替换-交叉摘要：基于梯度的优化一直是机器学习的基石，使得过去几十年来的人工智能发展取得了巨大进展。然而，由于这种优化需要进行微分，它减少了在选择模型和目标方面的灵活性。随着关于非可微（例如神经形态）架构超过经典模型的好处的最新证据，这种约束在未来可能会成为限制。我们提出了层级反馈传播（LFP），这是一种使用解释领域的方法对类似神经网络的预测器进行训练的新型原则，其可以基于各个神经元在解决给定任务中的贡献来分解奖励，而无需施加任何可微性的要求。利用这些神经元级别的奖励，我们的方法采用贪婪方法加强网络中有帮助的部分并削弱有害的部分。尽管其在计算复杂度上与梯度下降相当，LFP因其隐含的权重缩放而具有获得稀疏模型的优势。我们从理论上和实验上验证了LFP的收敛性，并展示了其在各种模型和数据集上的有效性。我们进一步研究了LFP的两种应用：首先，神经网络剪枝；其次，神经形态架构（如基于Heaviside阶跃函数激活的脉冲神经网络SNNs）的优化。在第一种情况下，LFP自然生成易于剪枝的稀疏模型，从而高效地编码和计算信息。在第二种情况下，LFP实现了与替代梯度下降相当的性能，但仍提供无近似训练，这简化了在神经形态硬件上的实现。因此，LFP结合了计算和表示方面的效率，以及与模型架构和目标函数相关的灵活性。我们的代码已开源。