摘要
arXiv:2410.22391v2 Announce Type: replace-cross
摘要:近年来,强化学习(RL)领域出现了通过序列建模在大规模数据集上离线训练大型行动模型的趋势。现有的模型主要基于Transformer架构,从而产生了强力的智能体。然而,由于推理时间过慢,基于Transformer的方法在诸如机器人技术等实时应用中是不切实际的。最近,提出了现代的递归架构,如xLSTM和Mamba,这些架构在训练过程中展现出与Transformer架构类似的并行化优势,同时提供快速推理。在本工作中,我们研究了这些现代递归架构在大型行动模型中的适用性。因此,我们提出了一种以xLSTM为核心的大型递归行动模型(LRAM),具有线性时间推理复杂度和自然序列长度外推能力。对来自6个领域的432个任务的实验结果显示,LRAM在性能和速度方面表现优于Transformer。