摘要
尽管文本到图像 (TTI) 生成模型取得了令人印象深刻的成功,但现有研究忽略了这些模型是否准确传达事实信息的问题。本文重点关注图像幻觉问题,即生成模型创建的图像无法忠实地描绘事实内容。为了解决这个问题,我们引入了 I-HallA(通过问答评估图像幻觉),这是一种新颖的自动化评估指标,通过视觉问答 (VQA) 来衡量生成图像的事实性。我们还介绍了 I-HallA v1.0,这是一个为此目的而创建的精选基准数据集。作为此过程的一部分,我们开发了一条管道,使用多个基于 GPT-4 Omni 的代理生成高质量的问答对,并通过人工判断来确保准确性。我们的评估协议通过测试现有文本到图像模型的图像是否能正确回答这些问题来衡量图像幻觉。I-HallA v1.0 数据集包含 1.2K 个跨九个类别的不同图像-文本对,其中包含 1,000 个经过严格筛选的问题,涵盖各种组合挑战。我们使用 I-HallA 评估了五个文本到图像模型,结果表明这些最先进的模型往往无法准确地传达事实信息。此外,我们通过证明与人工判断之间存在很强的斯皮尔曼相关性 (rho=0.95) 来验证我们指标的可靠性。我们相信我们的基准数据集和指标可以作为开发事实准确的文本到图像生成模型的基础。