LLM2D

摘要

arXiv:2410.03159v2 宣布类型: 交叉替换摘要：我们提出了一种结合自回归 (AR) 和移动平均 (MA) 成分的加权自回归可变门控注意力 (WAVE) 机制。它可以适应各种注意力机制，增强和解耦它们在时间序列数据中捕获长范围和局部时间模式的能力。在本文中，我们首先证明，在适当的时间序列分词和训练方法应用的情况下，此前未被充分注意的仅解码器自回归 Transformer 模型能够在时间序列预测 (TSF) 任务上达到与最佳基线相当的结果。此外，受到统计学中的 ARMA 模型和近期线性注意力进展的启发，我们将完整的 ARMA 结构引入现有的自回归注意力机制中。通过使用间接生成 MA 权重的方法，我们在保持底层高效注意力模型的时间复杂度和参数量的同时集成了 MA 项。我们进一步探索了间接参数生成如何产生符合局部时间影响建模需求的隐式 MA 权重。实验结果表明，包含了 ARMA 结构的 WAVE 注意力机制在 TSF 任务上的各种自回归注意力机制上都始终提升了性能，达到了现有最佳水平。