LLM2D
TEOChat:面向时序地球观测数据的视觉语言大型助手
TEOChat: A Large Vision-Language Assistant for Temporal Earth Observation Data
作者: Jeremy Andrew Irvin, Emily Ruoyu Liu, Joyce Chuyi Chen, Ines Dormoy, Jinyoung Kim, Samar Khanna, Zhuo Zheng, Stefano Ermon
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.06234v1

摘要

大型视觉和语言助手为自然图像的解释提供了新的功能。这些方法最近被应用于地球观测数据,但它们只能处理单张图像输入,限制了其在许多现实世界任务中的应用。在本研究中,我们开发了一种名为TEOChat的新型视觉和语言助手,它可以参与关于地球观测数据时间序列的对话。为了训练TEOChat,我们整理了一个指令遵循数据集,其中包含许多单图像和时间任务,包括建筑物变化和损害评估、语义变化检测和时间场景分类。我们证明了TEOChat可以执行各种空间和时间推理任务,显著优于之前的视觉和语言助手,甚至在执行这些特定任务的专业模型方面取得了相当或更好的性能。此外,TEOChat在变化检测和变化问答数据集上取得了令人印象深刻的零样本性能,在多个时间任务上优于GPT-4o和Gemini 1.5 Pro,并且表现出比可比的单一EO图像指令遵循模型更强的单图像能力。我们公开发布我们的数据、模型和代码,地址为https://github.com/ermongroup/TEOChat。