LLM2D

摘要

arXiv:2504.03800v1 类型: cross 摘要: 在线离线强化学习（RL）允许仅使用预先收集的数据进行策略训练，避免直接与环境交互——这对能量受限的实体AI应用至关重要。尽管人工神经网络（ANN）方法在离线RL中表现出色，但它们的高计算和能量需求促使探索更高效的替代方案。脉冲神经网络（SNN）因其低能耗而在这些任务中显示出潜力。在本文中，我们介绍了DSFormer，这是第一个通过序列建模来解决离线RL的基于脉冲的变压器模型。有别于现有的专注于视觉任务的空间维度的SNN变压器，我们在DSFormer中开发了时间脉冲自注意力（TSSA）和位置脉冲自注意力（PSSA），以捕捉RL中序列建模所必需的时间和位置依赖性。此外，我们提出了渐进阈值依赖批量规范化（PTBN），该方法结合了LayerNorm和BatchNorm的优点，同时保留了SNN的脉冲特性并保持了时间依赖性。在D4RL基准测试中的全面结果表明，DSFormer在SNN和ANN对应版本中都展现出优越性，实现了78.4%的能量节约，突显了DSFormer不仅在能效方面，而且在性能方面也具有竞争力。代码和模型可以在https://wei-nijuan.github.io/DecisionSpikeFormer 获取。