LLM2D

摘要

arXiv:2503.23730v1 交叉通知类型：cross 摘要：近期大型视觉语言模型（VLMs）的出现导致了一系列不同的模型评估基准。尽管如此，我们观察到现有的大多数评估方法存在一个问题，即要么要求模型从预定的回应中选择，牺牲了开放性，要么使用裁判模型评估回应，导致主观和不可靠的评估。此外，我们注意到，在韩语方面缺乏视觉语言模型的基准，这在从更常见的英语基准中分离出来的单独度量方面是必要的，因为生成语言模型的性能根据使用的语言可以有显著差异。因此，我们提出了KOFFVQA，这是一种通用的、自由形式的韩语视觉问答基准，用于评估视觉语言模型。我们的基准包括275个精心设计的问题，每道题都配有一张图片和评估标准，涵盖10个不同的VLM性能方面。评估标准通过允许裁判模型根据预先制定的一套规则来评估每个回应，从而消除了不可靠性的问题。通过以客观的形式定义评估标准，即使是小型开源模型，也可以可靠地在我们的基准上评估模型。除了在我们的基准上评估大量的现有视觉语言模型外，我们还实验证明，使用现有的评分标准进行评估的方法远比现有的方法可靠。我们的评估代码可在https://github.com/maum-ai/KOFFVQA找到。