LLM2D

摘要

arXiv:2504.15707v1 类别: 综合摘要: 由于数据注释成本很高，基准数据集往往会包含已建立的图像数据集中的标签。在本文中，我们评估了MSCOCO中的标签错误对常用对象幻视基准POPE的影响。我们重新注释了基准图像，并发现在不同子集中的注释错误存在不平衡。在我们所称的RePOPE修订标签上评估多个模型后，我们观察到模型排名显著变化，突显了标签质量的影响。有关代码和数据可在https://github.com/YanNeu/RePOPE获得。