LLM2D

摘要

arXiv:2410.03159v3 宣告类型: replace-cross 摘要: 我们提出了一种结合自回归 (AR) 和移动平均 (MA) 成分的加权自回归可变门控注意力 (WAVE) 机制。它可以适应各种注意力机制，增强并解耦它们在时间序列数据中捕捉长程和局部时间模式的能力。在本文中，我们首先证明，在时间序列预测 (TSF) 任务中，之前被忽视的仅解码端自回归变换器模型，在采用适当的分词和训练方法时，可以达到与最佳基线相当的结果。此外，受统计学中的ARMA模型和最近线性注意力进展的启发，我们将完整的ARMA结构引入现有的自回归注意力机制中。通过使用间接生成MA权重的方法，我们引入了MA项，同时保持了底层高效注意力模型的时间复杂度和参数量。我们进一步探讨了间接参数生成如何产生与局部时间影响建模要求相一致的隐式MA权重。实验结果表明，结合ARMA结构的WAVE注意力机制在各种TSF任务中始终改善了自回归注意力机制的性能，并达到了最先进的结果。