摘要
arXiv:2407.16557v2 宣告类型: replace-cross
摘要:本文介绍了Patched Round-Trip Correctness (Patched RTC),这是一种应用于各种软件开发任务的新颖评估技术,特别是针对如 bug 修复、代码审查和文档更新等“外环”活动。Patched RTC 扩展了原始的 Round-Trip Correctness 方法,使其能够与任何大型语言模型 (LLM) 和下游任务协同工作,提供一个自我评估框架,无需人工干预即可衡量模型响应的一致性和鲁棒性。研究显示了Patched RTC 得分与任务特定准确性度量之间的关联,并将其作为一种替代LLM作为评判者的范式,用于开放领域任务评估。我们通过开放源代码框架patchwork 实现了Patched RTC,允许在各种补丁流中进行透明评估。比较GPT-3.5和GPT-4模型在不同软件开发任务中的实验结果显示,Patched RTC 有效地区分了模型性能和任务难度。本文还探讨了保持一致性提示对提高模型准确性的影响,建议Patched RTC 可以指导提示优化和复杂软件开发工作流程中模型的选择。