LLM2D

摘要

arXiv:2505.02417v1 交叉类型摘要：文本生成时间序列具有解决数据稀疏性、不平衡以及跨领域时间序列数据集获取有限等挑战的巨大潜力。尽管扩散模型在文本到X（例如，视觉和音频数据）生成方面取得了显著成功，但它们在时间序列生成中的应用仍处于初级阶段。现有方法面临两个关键制约：（1）缺少对一般提出的时序描述的系统性探索，这些描述往往是领域特定的，并且在泛化方面存在问题；（2）无法生成任意长度的时间序列，限制了其在实际场景中的应用。本文首先将时间序列描述分为三个层次：点级、片段级和实例级。此外，我们引入了一个新的片段级数据集，包含超过60万个高分辨率的时间序列-文本对。其次，我们提出了一种基于扩散的框架Text-to-Series（T2S），该框架以领域无关的方式将自然语言与时间序列联系起来。T2S 使用一种自适应长度的变分自编码器将不同长度的时间序列编码为一致的潜在嵌入。此外，T2S 通过使用 Flow Matching 和采用扩散变换器作为去噪器来有效地将文本表示与潜在嵌入对齐。我们在多个长度上交替训练T2S，使其能够生成任何所需长度的序列。广泛评估表明，T2S 在12个领域的13个数据集上达到了最先进的性能。