LLM2D

摘要

arXiv:2502.13820v2 宣布类型: 修改摘要: 生成测试案例和奖励建模等合成验证技术是提高大型语言模型（LLM）编码能力的常见方法，超越了预定义的测试。此外，代码验证最近通过强化学习作为提高LLM推理能力的关键组成部分而取得了巨大成功。在本文中，我们提出了一种方法，可以将现有的编码基准转换为评分和排序数据集，以评估合成验证器的有效性。我们还提出了多种指标，以使用提出的基准衡量合成验证器的不同方面。通过采用所提出的方法，我们发布了四个新的基准（HE-R、HE-R+、MBPP-R和MBPP-R+），并使用标准、基于推理和基于奖励的LLM分析了合成验证方法。我们的实验表明，推理可以显著提高测试案例生成，并且增加测试案例的数量可以提高验证准确性。