摘要
arXiv:2412.00684v2 Announce Type: replace-cross
摘要:视觉定位旨在根据文本查询 localization 的图像区域。鉴于大规模数据整理的难度,本文探讨了在数据稀缺设置下如何有效学习视觉定位。为了解决数据稀缺性,我们提出了一种新的框架 POBF(在盒外绘画并筛选)。POBF 通过在盒子外进行 inpainting 合成图像,解决了之前工作中遇到的标签对齐问题。此外,POBF 利用了一种创新的筛选方案来选择最具效用的训练数据。该方案结合了难度评分和过拟合评分,并通过惩罚项进行平衡。跨四个基准数据集的广泛实验表明,POBF 一致地提高了性能,在仅使用真实数据的方法上平均提升了 5.83%,并在准确性上优于领先基准 2.29%-3.85%。此外,我们验证了 POBF 在各种生成模型、训练数据规模和模型架构下的稳健性和通用性。