摘要
arXiv:2503.22688v2 宣布类型: 替换-交叉
摘要:大型语言模型(LLMs)在代码生成任务中展示了卓越的表现,并已成为开发者不可或缺的编程助手。然而,现有的代码生成基准主要评估LLMs在单轮交互中生成的代码的功能正确性,对于它们生成严格遵循用户指令的代码的能力,尤其是在多轮交互场景中的能力,提供了有限的洞察力。在本文中,我们介绍了CodeIF-Bench,这是一个用于评估LLMs在交互式代码生成中遵循指令能力的基准。具体来说,CodeIF-Bench 包含九种与现实世界软件开发要求相一致的可验证指令,这些指令可以通过指定的测试用例独立且客观地验证,从而促进对多轮交互中遵循指令能力的评估。我们使用CodeIF-Bench评估了九种突出的LLMs,并且实验结果揭示了随着任务复杂性、上下文长度以及对话轮次的增加,它们的基本编程能力和遵循指令的能力之间存在显著差异。