LLM2D
时间MoE:基于专家混合的十亿级时间序列基础模型
Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts
作者: Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, Ming Jin
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2409.16040v2

摘要

近年来,时间序列预测的深度学习取得了显著进展。然而,尽管大规模预训练在语言和视觉领域取得了成功,但预训练的时间序列模型在规模上仍然有限,并且运行成本高昂,阻碍了现实世界应用中更大能力的预测模型的开发。为了应对这一挑战,我们引入了 Time-MoE,这是一种可扩展且统一的架构,旨在预训练更大、更强大的预测基础模型,同时降低推理成本。通过利用稀疏专家混合 (MoE) 设计,Time-MoE 通过仅为每个预测激活网络的子集来提高计算效率,从而在保持高模型容量的同时降低计算负荷。这使得 Time-MoE 能够有效地扩展,而不会造成推理成本的相应增加。Time-MoE 包含一系列仅解码器的 Transformer 模型,这些模型以自回归的方式运行,并支持具有不同输入上下文长度的灵活预测范围。我们使用我们新引入的大规模数据 Time-300B 对这些模型进行了预训练,该数据涵盖了 9 个领域,包含超过 3000 亿个时间点。我们首次将时间序列基础模型扩展到 24 亿个参数,显著提高了预测精度。我们的结果验证了时间序列预测中训练代币和模型大小的扩展定律的适用性。与具有相同数量的激活参数或等效计算预算的密集模型相比,我们的模型始终以较大优势胜过它们。这些进步使 Time-MoE 成为解决现实世界时间序列预测挑战的最新解决方案,具有卓越的能力、效率和灵活性。