摘要
arXiv:2505.08905v1 通知类型: 新
摘要: 语言模型 (LMs) 不断进步,提高回应的质量和连贯性。考虑到互联网规模的训练数据集,LMs 在训练过程中可能已经遇到了用户可能会要求它们生成的所有类型的问题。已经构建了许多评估基准以评估模型质量、响应适宜性和推理能力。然而,构建这些基准所需的人力投入是有限的,并且正被被评估模型的数量和范围迅速超越。此外,为每个可能的研究领域手动构建一个基准是不切实际的。因此,我们提出了一种自动化构建基于文档群体的事实合成数据模型评估的方法。这项工作利用同样的LMs来自动评估特定领域的知识,只需输入锚定文档(例如,一本教科书)。这种合成数据基准方法与人工整理的问题高度一致,斯皮尔曼排名相关性为 0.96,基准评估皮尔逊精度相关性为 0.79。这一新颖的工具支持生成多项选择和开放式合成数据问题,以诊断LM的能力。我们将这种方法应用于评估一个最近的相关arXiv预印本上的模型性能,发现Gemma3模型表现出令人惊讶的强性能。