LLM2D

摘要

arXiv:2409.16040v3 通知类型: 替换-交叉摘要：在过去的几十年中，深度学习在时间序列预测方面的进展显著。然而，尽管大规模预训练在语言和视觉领域取得了成功，预训练时间序列模型仍然在规模上受到限制，并且运行成本较高，妨碍了在实际应用中开发更大更强大的预测模型。为应对这一挑战，我们提出了Time-MoE，这是一种可扩展且统一的架构，旨在预训练更大、更具能力的预测基础模型，同时降低推理成本。通过利用稀疏混合专家（MoE）设计，Time-MoE 通过为每次预测只激活一部分网络来提高计算效率，从而减轻计算负载同时保持高模型容量。这使得Time-MoE能够在不相应增加推理成本的情况下有效扩展。Time-MoE由一系列仅解码器的变压器模型组成，以自回归方式运行，并支持具有不同输入上下文长度的灵活预测 horizons。我们将这些模型在我们新引入的大规模数据集Time-300B上进行了预训练，该数据集涵盖9个领域，包含超过3000亿个时间点。我们首次将时间序列基础模型扩展到24亿个参数，显著提高了预测精度。我们的结果验证了在时间序列预测上下文中训练标记和模型大小缩放定律的有效性。与具有相同激活参数数或相同计算预算的稠密模型相比，我们的模型在大部分情况下表现出显著的优越性。这些进展使Time-MoE 成为解决实际时间序列预测挑战的领先解决方案，具备更强大的功能、更高的效率和更大的灵活性。