摘要
arXiv:2504.01001v1 宣布类型: cross
摘要:随着语言模型的改进并能够执行更多跨模态的复杂任务,自动评估它们变得越来越具有挑战性。开发强大且鲁棒的任务特定自动评估指标变得愈加困难,而昂贵的人工标注测试集会更快达到饱和。一个令人信服的替代方案是设计可靠的方法来自动化测试数据的创建和评估,但之前的尝试要么依赖于现成的数据,要么仅专注于单个任务。我们提出了零样本基准测试(ZSB),这是一种利用语言模型进行合成测试数据生成和评估的框架,以创建适用于任何任务的高质量基准。ZSB 简单灵活:只需为数据生成创建一个提示,并为评估创建另一个提示;它可以扩展到收集真实数据成本高昂或不切实际的任务和语言;它对模型无特定要求,使随着模型改进能够创建越来越多具有挑战性的基准。为了评估该框架的有效性,我们为五个仅文本任务和一个多模态任务创建了基准:四种语言(英语、中文、法语和韩语)的通用能力、翻译以及英文的一般视觉语言能力。然后,我们对广泛的开放系统和封闭系统进行了排名。ZSB 的排名与人类排名之间的一致性很强,并且在广泛采用的标准基准上表现更佳。通过消融试验,我们发现可以使用开放模型创建强基准,并且裁判模型大小和数据集多样性是性能的关键驱动因素。我们发布了所有基准,并提供了可重现我们实验和生成新基准的代码。