摘要
arXiv:2409.12784v1 公告类型: 交叉 摘要: 尽管文本到图像(TTI)生成模型取得了令人瞩目的成功,但现有研究忽视了这些模型是否准确传达事实信息的问题。本文聚焦于图像幻觉问题,即生成模型创建的图像未能忠实地描绘事实内容。为此,我们引入了I-HallA(基于问答的图像幻觉评估),一种通过视觉问答(VQA)测量生成图像事实性的新型自动化评估指标。同时,我们推出了I-HallA v1.0,一个为此目的精心策划的基准数据集。在此过程中,我们开发了一个流程,使用多个基于GPT-4 Omni的代理生成高质量的问答对,并结合人类判断以确保准确性。我们的评估协议通过测试现有文本到图像模型生成的图像是否能正确回答这些问题来衡量图像幻觉。I-HallA v1.0数据集包含1.2K个跨九个类别的多样化图像-文本对,涵盖1,000个经过严格筛选的问题,涉及各种组合挑战。我们使用I-HallA评估了五个文本到图像模型,并揭示了这些最先进的模型往往未能准确传达事实信息。此外,我们通过展示与人类判断的高度斯皮尔曼相关性(rho=0.95)验证了该指标的可靠性。我们相信,我们的基准数据集和指标可以作为开发事实准确文本到图像生成模型的基础。