LLM2D
线性变压器作为VAR模型:对齐自回归注意力机制与自回归预测
Linear Transformers as VAR Models: Aligning Autoregressive Attention Mechanisms with Autoregressive Forecasting
作者: Jiecheng Lu, Shihao Yang
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2502.07244v1

摘要

arXiv:2502.07244v1 类别: cross学科 摘要: 自回归基于注意力的时间序列预测(TSF)近年来引起了越来越多的兴趣,有时线性注意力机制的表现甚至超过了基本注意力机制。然而,更深层次的Transformer架构经常与自回归目标不匹配,这会掩盖嵌入在线性注意力中的潜在VAR结构,阻碍它们捕捉TSF中的数据生成过程的能力。在这项工作中,我们首先证明一个单一的线性注意力层可以被解释为动态向量自回归(VAR)结构。然后我们解释说,现有的多层Transformer在结构上与自回归预测目标不匹配,这影响了模型的可解释性和泛化能力。为了解决这一问题,我们展示了通过重新安排MLP、注意力和输入输出流,多层线性注意力也可以作为一个VAR模型进行对齐。然后,我们提出了结构对齐VAR混合(SAMoVAR),这是一种线性Transformer变体,它结合了可解释的动态VAR权重进行多元TSF。通过将Transformer架构与自回归目标对齐,SAMoVAR在性能、可解释性和计算效率上都优于SOTA的TSF模型。