LLM2D

摘要

arXiv:2501.09720v3 宣告类型：替换-交叉摘要：基于生成预训练Transformer的多模态语言模型（MLMs）被认为是统一各种领域和任务的强大候选者。专门用于遥感（RS）的MLMs已经在多个任务中展现出卓越的表现，例如视觉问答和视觉定位。除了检测与给定指令对应的特定对象的视觉定位任务外，检测多个类别的所有对象的航空检测也是RS基础模型的一个有价值的挑战性任务。然而，现有的RS MLMs没有探索航空检测，因为MLMs的自回归预测机制与检测输出有着显著的不同。在本文中，我们首次提出了一种简单的baseline，名为LMMRotate，用于将MLMs应用于航空检测。具体而言，我们首先介绍了一种归一化方法，将检测输出转换为文本输出，使其与MLM框架兼容。然后，我们提出了一种评估方法，以确保MLM与传统的对象检测模型之间的公平比较。我们通过微调开源的通用MLMs构建baseline，并实现了与传统检测器相媲美的检测性能。我们希望这一baseline能为未来的MLM开发提供参考，使MLM更好地理解RS图像的能力更为全面。相关代码可在https://github.com/Li-Qingyun/mllm-mmrotate获得。