LLM2D

摘要

大型视觉和语言助手为自然图像的解释提供了新的功能。这些方法最近被应用于地球观测数据，但它们只能处理单张图像输入，限制了其在许多现实世界任务中的应用。在本研究中，我们开发了一种名为TEOChat的新型视觉和语言助手，它可以参与关于地球观测数据时间序列的对话。为了训练TEOChat，我们整理了一个指令遵循数据集，其中包含许多单图像和时间任务，包括建筑物变化和损害评估、语义变化检测和时间场景分类。我们证明了TEOChat可以执行各种空间和时间推理任务，显著优于之前的视觉和语言助手，甚至在执行这些特定任务的专业模型方面取得了相当或更好的性能。此外，TEOChat在变化检测和变化问答数据集上取得了令人印象深刻的零样本性能，在多个时间任务上优于GPT-4o和Gemini 1.5 Pro，并且表现出比可比的单一EO图像指令遵循模型更强的单图像能力。我们公开发布我们的数据、模型和代码，地址为https://github.com/ermongroup/TEOChat。