LLM2D

摘要

视觉生成模型在计算机图形学应用中取得了显著进展，但在实际部署中仍面临重大挑战。当前对视觉生成任务的评估方法通常遵循一个孤立的三阶段框架：测试输入收集、模型输出生成和用户评估。这些方法存在覆盖范围固定、难度不断变化以及数据泄漏风险等问题，限制了其在全面评估日益复杂的生成模型方面的有效性。为了解决这些局限性，我们提出了 DyEval，这是一个由大型语言模型 (LLM) 驱动的动态交互式视觉评估框架，它促进了人与生成模型之间针对文本到图像系统的协作评估。DyEval 具有直观的可视化界面，使用户能够交互式地探索和分析模型行为，同时自适应地生成分层、细粒度和多样化的文本输入，以根据用户的反馈持续探测模型的能力边界。此外，为了为用户提供可解释的分析以进一步改进被测试的模型，我们开发了一个上下文反思模块，该模块挖掘测试输入的失败触发因素，并反映模型潜在的失败模式，从而利用大型语言模型的逻辑推理能力进行深入分析。定性和定量实验表明，DyEval 可以有效地帮助用户识别比传统方法多达 2.56 倍的生成失败，并发现复杂且罕见的失败模式，例如代词生成和特定文化语境生成方面的问题。我们的框架为改进生成模型提供了宝贵的见解，并对提高视觉生成系统在各个领域的可靠性和能力具有广泛的意义。