LLM2D
图示解锁多模态模型中的时间序列理解
Plots Unlock Time-Series Understanding in Multimodal Models
作者: Mayank Daswani, Mathias M. J. Bellaiche, Marc Wilson, Desislav Ivanov, Mikhail Papkov, Eva Schnider, Jing Tang, Kay Lamerigts, Gabriela Botea, Michael A. Sanchez, Yojan Patel, Shruthi Prabhakara, Shravya Shetty, Umesh Telang
发布日期: 10/4/2024
arXiv ID: oai:arXiv.org:2410.02637v1

摘要

尽管多模态基础模型现在可以原生处理文本之外的数据,但在分析医疗保健、金融和社会科学等领域中大量多维时间序列数据方面,它们仍然未得到充分利用,这错失了获得更丰富、数据驱动的见解的机会。本文提出了一种简单但有效的方法,利用这些模型现有的视觉编码器通过图表“查看”时间序列数据,从而避免了额外(可能很昂贵)的模型训练需求。我们的实证评估表明,这种方法优于将原始时间序列数据作为文本提供,并且视觉时间序列表示在模型 API 成本方面最多可降低 90%。我们通过复杂度不断提高的合成数据任务验证了我们的假设,从清洁数据上的简单函数形式识别,到从噪声散点图中提取趋势。为了证明从具有明确推理步骤的合成任务到更复杂、现实世界场景的泛化能力,我们将我们的方法应用于消费者健康任务——特别是跌倒检测、活动识别和准备评估——这些任务涉及异构的、噪声数据和多步推理。总体而言,在 GPT 和 Gemini 模型系列中,绘图性能优于文本性能(在零样本合成任务中性能提高最多 120%,在现实世界任务中性能提高最多 150%),突出了我们的方法在充分利用基础模型的原生能力方面的潜力。