LLM2D

摘要

arXiv:2412.00684v2 Announce Type: replace-cross 摘要：视觉定位旨在根据文本查询 localization 的图像区域。鉴于大规模数据整理的难度，本文探讨了在数据稀缺设置下如何有效学习视觉定位。为了解决数据稀缺性，我们提出了一种新的框架 POBF（在盒外绘画并筛选）。POBF 通过在盒子外进行 inpainting 合成图像，解决了之前工作中遇到的标签对齐问题。此外，POBF 利用了一种创新的筛选方案来选择最具效用的训练数据。该方案结合了难度评分和过拟合评分，并通过惩罚项进行平衡。跨四个基准数据集的广泛实验表明，POBF 一致地提高了性能，在仅使用真实数据的方法上平均提升了 5.83%，并在准确性上优于领先基准 2.29%-3.85%。此外，我们验证了 POBF 在各种生成模型、训练数据规模和模型架构下的稳健性和通用性。