LLM2D

摘要

arXiv:2503.23972v1 宣布类型: cross 摘要：近期强化学习（RL）的进步在任务性能方面取得了显著的改进。然而，在RL框架中训练神经网络通常需要结合反向传播，这限制了它们在资源受限环境中的应用或在使用非可微神经网络时的应用。虽然像奖励调制突触学习(RMHL)这样的基于噪声的替代方法已经被提出，但它们的性能仍然有限，特别是在需要随时间进行回顾性信用分配的延迟奖励场景中。在这里，我们推导出一种新的基于噪声的学习规则，以解决这些挑战。我们的方法结合了方向导数理论和类似Hebbian的更新，以在RL中实现高效、无梯度的学习。它使用了具有噪声的随机神经元，这些神经元可以近似梯度，并且通过全局奖励信号产生局部突触更新。借鉴神经科学的概念，我们的方法使用奖励预测误差作为优化目标，以生成更有利的行为，并引入了一个资格迹来在延迟奖励环境中促进时间信用分配。其表达式仅依赖局部信息，使其兼容于使用类神经形态硬件的实现。实验验证表明，我们的方法在RMHL上表现显著优于之，并且在基于反向传播的基线方法中具有竞争力，突显了基于噪声、生物启发式学习在低功耗和实时应用中的潜力。