LLM2D

摘要

arXiv:2406.11927v4 公告类型: replace-cross 摘要：代码LLMs已经在代码生成任务中得到了广泛应用，但它们在处理具有复杂上下文依赖性的仓库级代码生成方面的能力仍然鲜有探索。我们的工作强调了利用仓库级上下文生成可执行且功能正确的代码的重要性。我们提出了RepoExec，这是一种新的基准测试，旨在评估仓库级代码生成，重点关注三个方面：可执行性、通过全面的测试用例生成确保功能正确性以及准确利用跨文件上下文。我们的研究考察了开发者指定关键代码依赖性（上下文）的受控场景，挑战模型有效整合这些依赖性。此外，我们引入了一个指令调优数据集，以增强代码LLMs利用依赖性的能力，同时还引入了一个新的度量标准——依赖调用率（DIR），以量化上下文的利用情况。实验结果表明，虽然预训练的大语言模型在正确性方面表现出色，但指令调优模型在上下文利用和调试能力方面更为出色。RepoExec提供了一个全面的评估框架，用于评估代码功能性和与开发者意图的一致性，从而推进更可靠的代码LLMs的实际应用开发。数据集和源代码可从https://github.com/FSoft-AI4Code/RepoExec获得。