LLM2D

摘要

arXiv:2502.09471v1 公告类型：交叉摘要：准确地使用紧凑的旋转边界框（RBoxes）估计视觉对象的方向已成为一个突出的需求，这挑战了仅使用水平边界框（HBoxes）的对象检测现有模式。为了使检测器具备方向意识，引入了监督回归/分类模块，但代价高昂的是旋转注释。同时，一些现有的带有定向对象的数据集已经被标注为水平框或甚至单个点。利用较弱的单点和水平注释来训练定向对象检测器（OOD）变得既吸引人又具有挑战性。我们开发了Wholly-WOOD，这是一个弱监督OOD框架，能够以统一的方式充分利用各种标注形式（点、HBoxes、RBoxes及其组合）。仅使用HBox进行训练，我们的Wholly-WOOD在遥感和其他领域中的性能与RBox训练的版本非常接近，大大减少了为定向对象进行劳动密集型注释的繁琐工作。源代码可在 https://github.com/VisionXLab/whollywood（基于PyTorch）和 https://github.com/VisionXLab/whollywood-jittor（基于Jittor）获取。