LLM2D

摘要

arXiv:2403.11116v4 宣布类型: replace-cross 摘要：多模态大型语言模型（MLLMs）会幻觉，这引发了视觉幻觉评估（VHE）的新兴主题。本文贡献了一个由ChatGPT提示驱动的视觉幻觉评估数据集（PhD），用于大规模客观的VHE。VHE的本质是向MLLM提出关于特定图像的问题，以评估其幻觉倾向。根据要问的内容（对象、属性、情感等）以及提问的方式，我们从两个维度，即任务和模式，对PhD进行了结构化。考虑了从低级（对象/属性识别）到中级（情感/位置识别和计数）的五种视觉识别任务。除了常规的视觉问答模式（我们称其为PhD-base），PhD还提出了带有虚假背景（PhD-sec）或错误背景（PhD-icc）的问题，或者带有AI生成的反常常识图像（PhD-ccs）。我们通过ChatGPT辅助的半自动流水线构建PhD，包括四个关键模块：任务特定的幻觉项目（hitem）选择、嵌入hitem的问题生成、虚假/错误背景生成以及反常识（CCS）图像生成。PhD总计包含超过14000个日常图像、750个反常识图像和102000组视觉问答三元组，展示了MLLMs在各种模式和任务中的显著表现差异，提供了有关幻觉本质的宝贵见解。因此，PhD不仅是一个强有力的工具，可用于视觉幻觉评估，还可能在MLLMs的精炼中发挥重要作用。