摘要
arXiv:2410.23749v4 公告类型: replace-cross
摘要:基于变压器的架构在自然语言处理和计算机视觉中取得了显著的成功。然而,它们在多变量长期预测中的表现往往不如简单的线性基线。以往的研究已经确定了传统的注意力机制是限制其在这种领域中有效性的关键因素。为了弥合这一差距,我们引入了LATST,这是一种新颖的方法,旨在缓解Transformer在时间序列预测中常见的熵坍缩和训练不稳定性。我们系统地评估了LATST在多个实际多变量时间序列数据集上的性能,证明了其能够超越现有的最先进的Transformer模型。值得注意的是,LATST在某些数据集上即使使用较少的参数也能达到与一些线性模型相当的表现,这突显了其效率和有效性。