LLM2D

摘要

arXiv:2503.09089v2 宣ouncement 类型: replace-cross 摘要：代码本地化——确定需要在代码库中进行更改的确切位置——是软件维护中一个基础但具有挑战性的任务。现有方法在识别相关代码段时难以高效地导航复杂的代码库。挑战在于将自然语言问题描述与适当的代码元素相结合，通常需要在层次结构和多个依赖之间进行推理。我们引入了LocAgent，这是一个通过图基表示来解决代码本地化的框架。通过将代码库解析为有向异质图，LocAgent 创建了一个轻量级的表示，捕捉了代码结构（文件、类、函数）及其依赖关系（导入、调用、继承），从而使大型语言模型代理能够通过强大的多跳推理有效地搜索和定位相关实体。在实际基准上的实验结果表明，我们的方法在代码本地化方面的准确性显著提高。值得注意的是，使用微调后的Qwen-2.5-Coder-Instruct-32B模型的方法在成本大幅降低的情况下（大约减少了86%），实现了与当前最好商用模型相当的结果，在文件级本地化方面达到了92.7%的准确性，并在多次尝试（Pass@10）下提高了GitHub问题解决成功率12%。我们的代码可在 https://github.com/gersteinlab/LocAgent 获取。