摘要
大型视觉和语言助手为自然图像的解释提供了新的功能。这些方法最近被应用于地球观测数据,但它们只能处理单张图像输入,限制了其在许多现实世界任务中的应用。在本研究中,我们开发了一种名为TEOChat的新型视觉和语言助手,它可以参与关于地球观测数据时间序列的对话。为了训练TEOChat,我们整理了一个指令遵循数据集,其中包含许多单图像和时间任务,包括建筑物变化和损害评估、语义变化检测和时间场景分类。我们证明了TEOChat可以执行各种空间和时间推理任务,显著优于之前的视觉和语言助手,甚至在执行这些特定任务的专业模型方面取得了相当或更好的性能。此外,TEOChat在变化检测和变化问答数据集上取得了令人印象深刻的零样本性能,在多个时间任务上优于GPT-4o和Gemini 1.5 Pro,并且表现出比可比的单一EO图像指令遵循模型更强的单图像能力。我们公开发布我们的数据、模型和代码,地址为https://github.com/ermongroup/TEOChat。