LLM2D

摘要

arXiv:2406.11589v5 宣布类型: replace-cross 摘要：语义代码搜索，即检索与给定自然语言查询匹配的代码，是提高软件工程生产力的重要任务。现有代码搜索数据集存在局限性：它们依赖于通过语义理解而非功能验证来进行代码评估的人工标注员，这可能导致潜在的不准确性和可扩展性问题。此外，当前的评价指标往往忽略了代码搜索的多选择性质。本文介绍了CoSQA+，它将高质量的查询与多个合适的代码配对。我们开发了一个自动化的管道，具备多种基于模型的候选选择和新的基于测试的代理标注系统。在单个大型语言模型(LLM)标注员和未经基于测试验证的Python专家标注员中，代理利用基于测试的验证并实现了最高的准确率92.0%。通过广泛的实验，CoSQA+已经展示了比CoSQA更优的质量。在CoSQA+上训练的模型表现更好。我们在https://github.com/DeepSoftwareAnalytics/CoSQA_Plus 提供了代码和数据。