LLM2D

摘要

从交互中学习是生物体获得关于其环境和自身知识的主要方式。现代深度强化学习 (DRL) 探索了一种从交互中学习的计算方法，并在解决各种任务方面取得了显著进展。然而，尽管其功能强大，但 DRL 在能源效率方面仍不及生物体。虽然其根本机制尚未完全了解，但我们相信神经元之间尖峰式通信和生物学上合理的突触可塑性的整合在实现更高能源效率方面发挥着重要作用。遵循这种生物学直觉，我们使用遗传算法优化了一个尖峰策略网络 (SPN)，作为 DRL 的一种节能替代方案。我们的 SPN 模拟了昆虫的感官运动神经元通路，并通过基于事件的尖峰进行通信。受生物学研究的启发，该研究表明大脑通过创建新的突触连接并根据新的经验重新连接这些连接来形成记忆，我们调整了 SPN 中的突触连接而不是权重来解决给定的任务。在几个机器人控制任务上的实验结果表明，我们的方法可以达到与主流 DRL 方法相同的性能水平，同时展现出显著更高的能源效率。