LLM2D
RePOPE:注释错误对POPE基准测试的影响
RePOPE: Impact of Annotation Errors on the POPE Benchmark
作者: Yannic Neuhaus, Matthias Hein
发布日期: 4/23/2025
arXiv ID: oai:arXiv.org:2504.15707v1

摘要

arXiv:2504.15707v1 类别: 综合 摘要: 由于数据注释成本很高,基准数据集往往会包含已建立的图像数据集中的标签。在本文中,我们评估了MSCOCO中的标签错误对常用对象幻视基准POPE的影响。我们重新注释了基准图像,并发现在不同子集中的注释错误存在不平衡。在我们所称的RePOPE修订标签上评估多个模型后,我们观察到模型排名显著变化,突显了标签质量的影响。有关代码和数据可在https://github.com/YanNeu/RePOPE获得。