摘要
arXiv:2406.11589v4 宣布类型: replace-cross
摘要:语义代码搜索,检索与给定自然语言查询匹配的代码,是提高软件工程生产力的重要任务。现有的代码搜索数据集存在局限性:它们依赖于人工注释者,这些注释者主要通过语义理解而不是功能验证来评估代码,导致潜在的不准确性和可扩展性问题。此外,当前的评估指标往往忽略了代码搜索的多选择性质。本文引入了 CoSQA+,将高质量的查询与多个合适的代码配对。我们开发了一个自动化的流程,其中包括多种基于模型的候选选择以及新颖的测试驱动代理注解系统。在单一大型语言模型(LLM)注释者和Python专家注释者(没有基于测试的验证)中,代理利用基于测试的验证,实现了最高的准确性96.4%。通过广泛的实验,CoSQA+优于CoSQA,使用CoSQA+训练的模型表现更好。我们将在https://github.com/DeepSoftwareAnalytics/CoSQA_Plus 提供代码和数据。