LLM2D

摘要

arXiv:2505.10483v1 类型：交叉学科摘要：统一多模态理解和生成模型的出现正在迅速引起关注，因为它们能够在增强指令遵循能力的同时，减少模型冗余。然而，缺乏一个统一的评估框架，这将使评估既优雅又简化，且具有整体性。目前的模型在多个特定任务的基准测试上进行评估，但仍存在诸多局限性，例如缺乏总体结果、额外评估模型的错误、依赖大量标注图像、缺乏多样性的基准测试以及评估指令遵循的有限指标。为应对这些挑战，我们引入了UniEval，这是第一个专为统一多模态模型设计的评估框架，不需要额外的模型、图像或注释。这便于简化且统一的评估过程。UniEval框架包含一个综合性基准（UniBench，支持统一生成模型和视觉生成模型）以及相应的UniScore指标。UniBench包含81个细粒度标签，贡献于高多样性。实验结果表明，UniBench比现有基准更具挑战性，而UniScore则与人工评估高度一致，超越现有指标。此外，我们广泛评估了最新的统一生成和视觉生成模型，揭示了Universal的独特价值。