LLM2D
大型语言模型引导的自调试代码生成
Large Language Model Guided Self-Debugging Code Generation
作者: Muntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn
发布日期: 2/6/2025
arXiv ID: oai:arXiv.org:2502.02928v1

摘要

arXiv:2502.02928v1 声明类型: cross 摘要:自动化代码生成在智能计算机编程和系统部署中变得越来越重要。然而,当前的方法往往在计算效率方面面临挑战,并且缺乏有效的代码解析和错误纠正机制。为了解决这些问题,我们在Python代码生成中提出了一种新颖的框架PyCapsule,该框架具有一个简单而有效的两代理流水线和高效的自调试模块。PyCapsule的特点包括复杂的提示推理、迭代的错误处理以及案例测试,从而确保了高度的生成稳定性和安全性。实验结果显示,PyCapsule在HumanEval上的成功率提高了5.7%,在HumanEval-ET上的成功率提高了10.3%,在BigCodeBench上的成功率提高了24.4%,比现有最先进的方法提高了显著的百分比。同时,我们还发现,随着自调试尝试次数的增加,标准化成功率下降,这可能是由于内存中有限且嘈杂的错误反馈所影响。PyCapsule展示了在促进轻量级和高效的人工智能系统代码生成方面的更广泛影响。