摘要
arXiv:2503.24219v1 公告类型: cross
摘要: 我们提出了一种统一框架,将物体检测(OD)和视觉定位(VG)集成到遥感(RS)图像中。为了支持常规物体检测并为VG任务建立直观先验,我们使用引用表达数据微调一个开放集合对象检测器,将其视为半监督物体检测任务。在第一阶段,我们为每张图像构建了一个图表示法,包括对象查询、类别嵌入和提议位置。然后,我们的任务感知架构处理此图以执行VG任务。该模型由以下两部分组成:(i)一个多分支网络,整合空间、视觉和类别特征生成任务感知提议,以及(ii)一个物体推理网络,该网络为提议分配概率,随后是一个软选择机制以最终定位引用对象。我们的模型在OPT-RSVG和DIOR-RSVG数据集上表现出色,在保持经典物体检测能力的同时,显著优于现有最先进的方法。代码将在我们的仓库中可用:\url{https://github.com/rd20karim/MB-ORES}。