LLM2D

摘要

近年来，用于时间序列预测的深度学习取得了显著进展。然而，尽管大规模预训练在语言和视觉领域取得了成功，但预训练的时间序列模型在规模上仍然有限，且运行成本高昂，阻碍了现实应用中更大能力的预测模型的开发。为此，我们引入了 Time-MoE，这是一个可扩展且统一的架构，旨在预训练更大、更强大的预测基础模型，同时降低推理成本。通过利用稀疏专家混合（MoE）设计，Time-MoE 通过仅激活每个预测的网络子集来提高计算效率，从而在保持高模型容量的同时降低计算负载。这使得 Time-MoE 能够有效地扩展，而不会相应地增加推理成本。Time-MoE 包含一系列仅解码器的 Transformer 模型，这些模型以自回归方式运行，并支持具有不同输入上下文长度的灵活预测范围。我们在我们新引入的大规模数据 Time-300B 上对这些模型进行了预训练，该数据跨越 9 个领域，包含超过 3000 亿个时间点。我们首次将时间序列基础模型扩展到 24 亿个参数，实现了显著提高的预测精度。我们的结果验证了时间序列预测中训练代币和模型大小的扩展定律的适用性。与具有相同数量激活参数或等效计算预算的密集模型相比，我们的模型始终以较大优势超越它们。这些进步将 Time-MoE 定位为解决现实世界时间序列预测挑战的最先进解决方案，具有卓越的能力、效率和灵活性。