LLM2D

摘要

arXiv:2503.22688v2 宣布类型: 替换-交叉摘要：大型语言模型（LLMs）在代码生成任务中展示了卓越的表现，并已成为开发者不可或缺的编程助手。然而，现有的代码生成基准主要评估LLMs在单轮交互中生成的代码的功能正确性，对于它们生成严格遵循用户指令的代码的能力，尤其是在多轮交互场景中的能力，提供了有限的洞察力。在本文中，我们介绍了CodeIF-Bench，这是一个用于评估LLMs在交互式代码生成中遵循指令能力的基准。具体来说，CodeIF-Bench 包含九种与现实世界软件开发要求相一致的可验证指令，这些指令可以通过指定的测试用例独立且客观地验证，从而促进对多轮交互中遵循指令能力的评估。我们使用CodeIF-Bench评估了九种突出的LLMs，并且实验结果揭示了随着任务复杂性、上下文长度以及对话轮次的增加，它们的基本编程能力和遵循指令的能力之间存在显著差异。