LLM2D
评分验证器:评估代码和推理的合成验证
Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning
作者: Aleksander Ficek, Somshubra Majumdar, Vahid Noroozi, Boris Ginsburg
发布日期: 4/3/2025
arXiv ID: oai:arXiv.org:2502.13820v2

摘要

arXiv:2502.13820v2 宣布类型: 修改 摘要: 生成测试案例和奖励建模等合成验证技术是提高大型语言模型(LLM)编码能力的常见方法,超越了预定义的测试。此外,代码验证最近通过强化学习作为提高LLM推理能力的关键组成部分而取得了巨大成功。在本文中,我们提出了一种方法,可以将现有的编码基准转换为评分和排序数据集,以评估合成验证器的有效性。我们还提出了多种指标,以使用提出的基准衡量合成验证器的不同方面。通过采用所提出的方法,我们发布了四个新的基准(HE-R、HE-R+、MBPP-R和MBPP-R+),并使用标准、基于推理和基于奖励的LLM分析了合成验证方法。我们的实验表明,推理可以显著提高测试案例生成,并且增加测试案例的数量可以提高验证准确性。