LLM2D
文本到图像生成模型的交互式视觉评估
Interactive Visual Assessment for Text-to-Image Generation Models
作者: Xiaoyue Mi, Fan Tang, Juan Cao, Qiang Sheng, Ziyao Huang, Peng Li, Yang Liu, Tong-Yee Lee
发布日期: 11/26/2024
arXiv ID: oai:arXiv.org:2411.15509v1

摘要

视觉生成模型在计算机图形学应用中取得了显著进展,但在实际部署中仍面临重大挑战。当前对视觉生成任务的评估方法通常遵循一个孤立的三阶段框架:测试输入收集、模型输出生成和用户评估。这些方法存在覆盖范围固定、难度不断变化以及数据泄漏风险等问题,限制了其在全面评估日益复杂的生成模型方面的有效性。为了解决这些局限性,我们提出了 DyEval,这是一个由大型语言模型 (LLM) 驱动的动态交互式视觉评估框架,它促进了人与生成模型之间针对文本到图像系统的协作评估。DyEval 具有直观的可视化界面,使用户能够交互式地探索和分析模型行为,同时自适应地生成分层、细粒度和多样化的文本输入,以根据用户的反馈持续探测模型的能力边界。此外,为了为用户提供可解释的分析以进一步改进被测试的模型,我们开发了一个上下文反思模块,该模块挖掘测试输入的失败触发因素,并反映模型潜在的失败模式,从而利用大型语言模型的逻辑推理能力进行深入分析。定性和定量实验表明,DyEval 可以有效地帮助用户识别比传统方法多达 2.56 倍的生成失败,并发现复杂且罕见的失败模式,例如代词生成和特定文化语境生成方面的问题。我们的框架为改进生成模型提供了宝贵的见解,并对提高视觉生成系统在各个领域的可靠性和能力具有广泛的意义。