摘要
尽管多模态基础模型现在可以原生处理文本之外的数据,但在分析医疗保健、金融和社会科学等领域中大量多维时间序列数据方面,它们仍然未得到充分利用,这错失了获得更丰富、数据驱动的见解的机会。本文提出了一种简单但有效的方法,利用这些模型现有的视觉编码器通过图表“查看”时间序列数据,从而避免了额外(可能很昂贵)的模型训练需求。我们的实证评估表明,这种方法优于将原始时间序列数据作为文本提供,并且视觉时间序列表示在模型 API 成本方面最多可降低 90%。我们通过复杂度不断提高的合成数据任务验证了我们的假设,从清洁数据上的简单函数形式识别,到从噪声散点图中提取趋势。为了证明从具有明确推理步骤的合成任务到更复杂、现实世界场景的泛化能力,我们将我们的方法应用于消费者健康任务——特别是跌倒检测、活动识别和准备评估——这些任务涉及异构的、噪声数据和多步推理。总体而言,在 GPT 和 Gemini 模型系列中,绘图性能优于文本性能(在零样本合成任务中性能提高最多 120%,在现实世界任务中性能提高最多 150%),突出了我们的方法在充分利用基础模型的原生能力方面的潜力。