摘要
arXiv:2503.22688v1 交叉类型
摘要:大规模语言模型(LLMs)在代码生成任务中展现了卓越的性能,并已成为开发人员不可或缺的编程助手。然而,现有的代码生成基准主要评估LLMs在单轮交互中生成的代码的功能正确性,这在多轮交互的场景下对它们生成严格遵循用户指令代码的能力提供了有限的见解。在本文中,我们介绍了\bench,这是一个用于评估LLMs在交互式代码生成中遵循指令能力的基准。具体而言,\bench 包含九种可验证的指令,这些指令与实际软件开发需求对齐,并且可以通过指定的测试用例独立且客观地进行验证,从而方便评估多轮交互中的遵循指令能力。我们使用\bench评估了九种突出的LLMs,实验结果揭示了它们的基本编程能力和遵循指令能力之间存在显著差异,尤其是在任务复杂性、上下文长度和对话轮次增加时更为明显。