LLM2D

摘要

arXiv:2410.12360v2 宣布类型: 交叉替换摘要：标度定律为时间序列基础模型（TSFM）的设计提供了宝贵的见解。然而，以往的研究主要集中于TSFM在分布内（ID）数据上的标度定律，而关于分布外（OOD）数据的标度行为及其对模型架构的影响则探索较少。在本文中，我们研究了两种常见的TSFM架构——仅编码器和仅解码器的Transformer，并在ID和OOD数据上探讨了它们的标度行为。这些模型在不同参数数量、计算预算和数据集大小下进行训练和评估。我们的实验揭示了TSFM的对数似然损失在ID和OOD设置中表现出相似的标度行为。我们进一步探讨了不同架构之间的标度特性，结合两个最先进的TSFM作为案例研究，表明模型架构在标度中起着重要作用。仅编码器的Transformer在标度性方面优于仅解码器的Transformer，而两个高级TSFM的架构改进主要提高了ID性能，但减少了OOD标度性。尽管TSFM的扩展有望推动性能突破，但由于对TSFM标度定律缺乏全面理解，这阻碍了开发出一个稳健的框架来指导模型标度。本文通过综合我们的发现并提供设计和扩展具有增强模型能力的更大TSFM的实际指导，填补了这一空白。