LLM2D

摘要

arXiv:2505.02829v1 宣告类型: 新摘要: 分割模型可以在图像中识别预定义的一组对象。然而，能够根据暗示多个感兴趣对象的复杂用户查询进行推理的模型仍然处于初级阶段。最近对推理分割的研究——从复杂隐含查询文本生成分割掩码——表明，视觉语言模型可以在开放域中运行并产生合理的输出。然而，我们的实验表明，这类模型在处理复杂的遥感图像时存在困难。在本文中，我们介绍了LISAt，这是一种视觉语言模型，旨在描述复杂的遥感场景，回答关于这些场景的问题，并分割感兴趣的对象。我们使用一个名为GRES的新编排的地理空间推理分割数据集对LISAt进行训练，该数据集包含9205张图像中的27,615个注释，以及一个包含超过100万对多模态问题和答案的预训练数据集PreGRES。LISAt在遥感描述任务上比现有的地理空间基础模型RS-GPT4V在BLEU-4指标上超过了10.04%，并在推理分割任务上比最先进的开放域模型超过了143.36%（gIoU）。我们的模型、数据集和代码可在https://lisat-bair.github.io/LISAt/获取。