摘要
arXiv:2406.11589v3 宣告类型: 替换-交叉
摘要:语义代码搜索,即检索与给定自然语言查询匹配的代码,是提高软件工程生产力的重要任务。现有的代码搜索数据集面临限制:它们依赖于通过语义理解而非功能验证来进行代码评估的人工标注员,这可能导致潜在的不准确性和可扩展性问题。此外,当前的评估指标往往忽略了代码搜索的多选性质。本文介绍了CoSQA+,将高质量的CoSQA查询与多个合适的代码进行配对。我们开发了一个自动化的流水线,其中包括基于多个模型的候选选择以及新的基于测试的代理标注系统。在单一大型语言模型(LLM)标注员和Python专家标注员(无需基于测试的验证)之间,代理利用基于测试的验证,达到了最高的准确率96.4%。通过广泛的实验,CoSQA+已经展示了相对于CoSQA的更高质量。在CoSQA+上训练的模型表现出了改进的表现。我们在https://github.com/DeepSoftwareAnalytics/CoSQA_Plus提供了代码和数据。