LLM2D

摘要

arXiv:2502.13820v1 通知类型: 新摘要: 代码验证最近在训练大规模推理模型方面取得了巨大的成功，这些模型用于编程。通过自动生成测试用例和奖励模型等合成技术提供了超越预定义测试的方法来增强代码能力。基于这些进展，我们提出了一种新的基准测试，旨在系统地评估合成验证方法对评估解决方案正确性的影响。我们引入了HE-R，HE-R+，MBPP-R和MBPP-R+，将现有的编程基准转换为评分和排名数据集，以评估合成验证器的有效性。使用这些基准测试，我们分析了标准、推理驱动和奖励驱动的大语言模型中合成验证方法的效果。我们的结果显示，近期的推理模型显著提高了测试用例的生成，并且扩展测试用例提高了验证准确性。