LLM2D
DENEB:一种抗幻觉的图像描述自动评估指标
DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image Captioning
作者: Kazuki Matsuda, Yuiga Wada, Komei Sugiura
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.19255v1

摘要

本研究致力于开发针对图像描述自动评估指标,特别关注对抗幻觉的鲁棒性。现有的指标在处理幻觉方面往往力不从心,主要原因在于它们在比较候选描述与多方面参考描述时能力有限。为了克服这一缺陷,我们提出了 DENEB,一种专门针对幻觉鲁棒性的新型监督式自动评估指标。DENEB 集成了 Sim-Vec Transformer,该机制可以同时处理多个参考,从而有效地捕捉图像、候选描述和参考描述之间的相似性。为了训练 DENEB,我们构建了包含 32,978 张图像的丰富且平衡的 Nebula 数据集,并配以 805 位标注者提供的 人工评判。我们证明了 DENEB 在 FOIL、Composite、Flickr8K-Expert、Flickr8K-CF、Nebula 和 PASCAL-50S 数据集上,在现有无 LLM 指标中取得了最先进的性能,验证了其在对抗幻觉方面的有效性和鲁棒性。