摘要
arXiv:2505.10483v1 类型:交叉学科
摘要:统一多模态理解和生成模型的出现正在迅速引起关注,因为它们能够在增强指令遵循能力的同时,减少模型冗余。然而,缺乏一个统一的评估框架,这将使评估既优雅又简化,且具有整体性。目前的模型在多个特定任务的基准测试上进行评估,但仍存在诸多局限性,例如缺乏总体结果、额外评估模型的错误、依赖大量标注图像、缺乏多样性的基准测试以及评估指令遵循的有限指标。为应对这些挑战,我们引入了UniEval,这是第一个专为统一多模态模型设计的评估框架,不需要额外的模型、图像或注释。这便于简化且统一的评估过程。UniEval框架包含一个综合性基准(UniBench,支持统一生成模型和视觉生成模型)以及相应的UniScore指标。UniBench包含81个细粒度标签,贡献于高多样性。实验结果表明,UniBench比现有基准更具挑战性,而UniScore则与人工评估高度一致,超越现有指标。此外,我们广泛评估了最新的统一生成和视觉生成模型,揭示了Universal的独特价值。