摘要
arXiv:2501.09720v3 宣告类型:替换-交叉
摘要:基于生成预训练Transformer的多模态语言模型(MLMs)被认为是统一各种领域和任务的强大候选者。专门用于遥感(RS)的MLMs已经在多个任务中展现出卓越的表现,例如视觉问答和视觉定位。除了检测与给定指令对应的特定对象的视觉定位任务外,检测多个类别的所有对象的航空检测也是RS基础模型的一个有价值的挑战性任务。然而,现有的RS MLMs没有探索航空检测,因为MLMs的自回归预测机制与检测输出有着显著的不同。在本文中,我们首次提出了一种简单的baseline,名为LMMRotate,用于将MLMs应用于航空检测。具体而言,我们首先介绍了一种归一化方法,将检测输出转换为文本输出,使其与MLM框架兼容。然后,我们提出了一种评估方法,以确保MLM与传统的对象检测模型之间的公平比较。我们通过微调开源的通用MLMs构建baseline,并实现了与传统检测器相媲美的检测性能。我们希望这一baseline能为未来的MLM开发提供参考,使MLM更好地理解RS图像的能力更为全面。相关代码可在https://github.com/Li-Qingyun/mllm-mmrotate获得。