LLM2D

摘要

基础模型已成为时间序列预测（TSF）的一种很有前景的方法。现有的方法要么重新利用大型语言模型（LLM），要么构建大规模时间序列数据集来开发用于通用预测的TSF基础模型。然而，这些方法面临着跨域差距严重或域内异质性带来的挑战。本文探索了一条从丰富、高质量的自然图像中构建TSF基础模型的新途径。我们的关键见解是，在ImageNet数据集上预训练的视觉掩码自动编码器可以自然地成为一个数值序列预测器。通过将TSF重新表述为图像重建任务，我们弥合了图像预训练和TSF下游任务之间的差距。令人惊讶的是，在没有对时间序列域进行进一步适应的情况下，所提出的VisionTS与现有的TSF基础模型相比，可以实现优异的零样本预测性能。通过对一个epoch进行微调，VisionTS可以进一步提高预测性能，并在大多数情况下实现最先进的性能。大量的实验揭示了图像和现实世界时间序列之间的内在相似性，表明视觉模型可能为TSF提供“免费午餐”，并突出了未来跨模态研究的潜力。我们的代码在https://github.com/Keytoyze/VisionTS上公开提供。