LLM2D

摘要

尽管多模态基础模型现在可以原生处理文本之外的数据，但在分析医疗保健、金融和社会科学等领域中大量多维时间序列数据方面，它们仍然未得到充分利用，这错失了获得更丰富、数据驱动的见解的机会。本文提出了一种简单但有效的方法，利用这些模型现有的视觉编码器通过图表“查看”时间序列数据，从而避免了额外（可能很昂贵）的模型训练需求。我们的实证评估表明，这种方法优于将原始时间序列数据作为文本提供，并且视觉时间序列表示在模型 API 成本方面最多可降低 90%。我们通过复杂度不断提高的合成数据任务验证了我们的假设，从清洁数据上的简单函数形式识别，到从噪声散点图中提取趋势。为了证明从具有明确推理步骤的合成任务到更复杂、现实世界场景的泛化能力，我们将我们的方法应用于消费者健康任务——特别是跌倒检测、活动识别和准备评估——这些任务涉及异构的、噪声数据和多步推理。总体而言，在 GPT 和 Gemini 模型系列中，绘图性能优于文本性能（在零样本合成任务中性能提高最多 120%，在现实世界任务中性能提高最多 150%），突出了我们的方法在充分利用基础模型的原生能力方面的潜力。