LLM2D
决策尖峰former:由尖峰驱动的变换器模型用于决策制定
Decision SpikeFormer: Spike-Driven Transformer for Decision Making
作者: Wei Huang, Qinying Gu, Nanyang Ye
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.03800v1

摘要

arXiv:2504.03800v1 类型: cross 摘要: 在线离线强化学习(RL)允许仅使用预先收集的数据进行策略训练,避免直接与环境交互——这对能量受限的实体AI应用至关重要。尽管人工神经网络(ANN)方法在离线RL中表现出色,但它们的高计算和能量需求促使探索更高效的替代方案。脉冲神经网络(SNN)因其低能耗而在这些任务中显示出潜力。在本文中,我们介绍了DSFormer,这是第一个通过序列建模来解决离线RL的基于脉冲的变压器模型。有别于现有的专注于视觉任务的空间维度的SNN变压器,我们在DSFormer中开发了时间脉冲自注意力(TSSA)和位置脉冲自注意力(PSSA),以捕捉RL中序列建模所必需的时间和位置依赖性。此外,我们提出了渐进阈值依赖批量规范化(PTBN),该方法结合了LayerNorm和BatchNorm的优点,同时保留了SNN的脉冲特性并保持了时间依赖性。在D4RL基准测试中的全面结果表明,DSFormer在SNN和ANN对应版本中都展现出优越性,实现了78.4%的能量节约,突显了DSFormer不仅在能效方面,而且在性能方面也具有竞争力。代码和模型可以在https://wei-nijuan.github.io/DecisionSpikeFormer 获取。