LLM2D

摘要

在自然语言处理和计算机视觉领域，对大型数据集进行自监督预训练解锁了跨领域和任务的基础模型能力。然而，这种潜力尚未在时间序列分析中实现，现有的方法忽略了时间序列特征的异质性。时间序列在许多领域都很普遍，包括医学、工程、自然科学和金融，但它们的特征在变量数量、变量间关系、时间动态和采样频率方面差异很大。这种跨领域的内在异质性阻碍了对大型时间序列语料库进行有效的预训练。为了解决这个问题，我们引入了 OTiS，这是一个用于一般时间序列分析的开放模型，专门设计用于处理多领域异质性。我们提出了一种新颖的预训练范式，包括一个具有可学习域特定签名的标记器，一种双重掩码策略来捕获时间因果关系，以及一种归一化互相关损失来建模长程依赖关系。我们的模型在包含 8 个不同领域、640,187 个样本和 110 亿个时间点的庞大语料库上进行了预训练，使其能够分析来自任何（未见过）领域的时序数据。在 15 个不同应用（包括分类、回归和预测）的综合实验中，OTiS 展示了其准确捕获域特定数据特征的能力，并证明了其与最先进基准的竞争力。我们的代码和预训练权重可在 https://github.com/oetu/otis 上公开获取。