LLM2D

摘要

arXiv:2410.07299v2 宣告类型: replace-cross 摘要：自然语言处理和计算机视觉领域近期取得了突破性进展，得益于在大规模数据集上进行高效预训练，使基础模型在广泛的任务上表现出色。然而，这一潜力在时间序列分析领域尚未完全实现，因为现有方法无法解决大规模时间序列语料库中的异质性问题。在医学、金融等领域广泛存在的情况下，时间序列在变量数量、变量间关系、时间模式以及采样频率等方面差异显著。为解决这一问题，我们提出了一种新的预训练范式，专门设计用于处理时间序列异质性。我们提出了一个具备可学习领域特征的分词器、一种双掩码策略以及规范化交叉相关损失函数，从而使我们开放的时间序列分析模型（OTiS）能够有效学习大规模时间序列语料库。在多元任务上的广泛基准测试，包括分类、回归和预测，表明OTiS优于当前最先进的基准模型。我们的代码和预训练权重可在https://github.com/oetu/otis获取。