LLM2D
PhD:一个由ChatGPT提示引发的视觉幻觉评估数据集
PhD: A ChatGPT-Prompted Visual hallucination Evaluation Dataset
作者: Jiazhen Liu, Yuhan Fu, Ruobing Xie, Runquan Xie, Xingwu Sun, Fengzong Lian, Zhanhui Kang, Xirong Li
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2403.11116v4

摘要

arXiv:2403.11116v4 宣布类型: replace-cross 摘要:多模态大型语言模型(MLLMs)会幻觉,这引发了视觉幻觉评估(VHE)的新兴主题。本文贡献了一个由ChatGPT提示驱动的视觉幻觉评估数据集(PhD),用于大规模客观的VHE。VHE的本质是向MLLM提出关于特定图像的问题,以评估其幻觉倾向。根据要问的内容(对象、属性、情感等)以及提问的方式,我们从两个维度,即任务和模式,对PhD进行了结构化。考虑了从低级(对象/属性识别)到中级(情感/位置识别和计数)的五种视觉识别任务。除了常规的视觉问答模式(我们称其为PhD-base),PhD还提出了带有虚假背景(PhD-sec)或错误背景(PhD-icc)的问题,或者带有AI生成的反常常识图像(PhD-ccs)。我们通过ChatGPT辅助的半自动流水线构建PhD,包括四个关键模块:任务特定的幻觉项目(hitem)选择、嵌入hitem的问题生成、虚假/错误背景生成以及反常识(CCS)图像生成。PhD总计包含超过14000个日常图像、750个反常识图像和102000组视觉问答三元组,展示了MLLMs在各种模式和任务中的显著表现差异,提供了有关幻觉本质的宝贵见解。因此,PhD不仅是一个强有力的工具,可用于视觉幻觉评估,还可能在MLLMs的精炼中发挥重要作用。