摘要
arXiv:2503.23145v1 宣告类型: cross
摘要: 归纳程序合成,或通过示例编程,要求从输入输出示例中合成函数,并将其推广到未见过的输入。虽然由自然语言引导的大型语言模型代理在编程任务中表现出了希望,但在进行归纳程序合成方面的能力尚未得到充分探索。现有的评估协议依赖于静态的示例集和保留测试,当合成的函数不正确时,无法提供反馈,也无法反映例如反向工程等现实场景。我们提出了CodeARC,一种代码抽象和推理挑战,这是一个新的评估框架,其中代理通过使用新输入查询隐藏的目标函数、合成候选函数,并利用差分测试预言家迭代改进其解决方案,参与到互动过程中。这种互动设置鼓励代理根据反馈执行函数调用和自我纠正。我们构建了第一个大规模的一般用途归纳程序合成基准,其中包含1114个函数。在评估的18个模型中,o3-mini表现出最佳的成绩,成功率为52.7%,突显了该任务的难度。对精心选择的合成轨迹进行微调LLaMA-3.1-8B-Instruct可以获得高达31%的相对性能提升。CodeARC为评估基于LLM的程序合成和归纳推理提供了一个更加现实和具有挑战性的测试平台。