摘要
本文提出了 $\forall$uto$\exists$$\lor\!\land$L,一个用于评估大型语言模型(LLM)在具有明确正确性概念的正式任务中的新基准,例如翻译中的真相维护和逻辑推理。$\forall$uto$\exists$$\lor\!\land$L 是第一个基准范式,它提供了在没有人工标注的情况下扩展对 LLM 的客观评估所需的几个关键优势:(a)能够通过自动生成不同难度级别的任务来评估越来越复杂的 LLM;(b)自动生成真实值,消除对昂贵且耗时的人工标注的依赖;(c)使用自动生成的随机数据集,从而减轻了连续 LLM 对许多当代基准中使用的静态数据集过拟合的能力。实证分析表明,LLM 在 $\forall$uto$\exists$$\lor\!\land$L 上的性能高度表明了它在关注翻译和推理任务的各种其他基准上的性能,使其成为在手动策划的数据集难以获得和/或更新的情况下有价值的自主评估范式。