LLM2D

摘要

本研究致力于开发针对图像描述自动评估指标，特别关注对抗幻觉的鲁棒性。现有的指标在处理幻觉方面往往力不从心，主要原因在于它们在比较候选描述与多方面参考描述时能力有限。为了克服这一缺陷，我们提出了 DENEB，一种专门针对幻觉鲁棒性的新型监督式自动评估指标。DENEB 集成了 Sim-Vec Transformer，该机制可以同时处理多个参考，从而有效地捕捉图像、候选描述和参考描述之间的相似性。为了训练 DENEB，我们构建了包含 32,978 张图像的丰富且平衡的 Nebula 数据集，并配以 805 位标注者提供的人工评判。我们证明了 DENEB 在 FOIL、Composite、Flickr8K-Expert、Flickr8K-CF、Nebula 和 PASCAL-50S 数据集上，在现有无 LLM 指标中取得了最先进的性能，验证了其在对抗幻觉方面的有效性和鲁棒性。