LLM2D
QualityFlow:由LLM质量检查控制的代理工作流程序合成
QualityFlow: An Agentic Workflow for Program Synthesis Controlled by LLM Quality Checks
作者: Yaojie Hu, Qiang Zhou, Qihong Chen, Xiaopeng Li, Linbo Liu, Dejiao Zhang, Amit Kachroo, Talha Oz, Omer Tripp
发布日期: 3/26/2025
arXiv ID: oai:arXiv.org:2501.17167v2

摘要

arXiv:2501.17167v2 通知类型: replace-cross 摘要: 我们引入了QualityFlow,这是一种用于程序合成的动态代理工作流。给定编程问题的英文描述和一组单元测试,模型的目标是合成正确的程序来解决该问题并通过测试。QualityFlow 包含大型语言模型(LLM)代理,模仿一个软件开发团队,包括代码生成、测试和自我调试。我们提出了LLM质量检查器,该检查器明确地“想象”合成程序的执行是否符合单元测试的要求。质量检查动态控制工作流,包括提交最终答案、澄清问题陈述以及撤销先前的工作流步骤。我们的实验表明,质量检查器可以精确地接受任何正确的程序、减轻故障合成测试的影响,并防止潜在的工作流偏移。QualityFlow 在四个程序合成基准测试中达到了最先进的成果:MBPP、HumanEval,以及来自MBPP-EvalPlus和HumanEval-EvalPlus的更严格的评估。