LLM2D
SWE-smith: 规模化数据以适应软件工程代理
SWE-smith: Scaling Data for Software Engineering Agents
作者: John Yang, Kilian Leret, Carlos E. Jimenez, Alexander Wettig, Kabir Khandpur, Yanzhe Zhang, Binyuan Hui, Ofir Press, Ludwig Schmidt, Diyi Yang
发布日期: 5/1/2025
arXiv ID: oai:arXiv.org:2504.21798v1

摘要

arXiv:2504.21798v1 类别: cross 摘要: 尽管最近在软件工程领域的语言模型(LMs)方面取得了进展,但收集训练数据仍然是一个显著的痛点。现有数据集规模较小,最多包含11个或更少的GitHub仓库中的数千个训练实例。构建此类数据集的过程通常非常复杂,需要数百小时的人工劳动;伴随的执行环境还会占用数TB的存储空间,严重影响了它们的可扩展性和易用性。为了解决这一痛点,我们引入了SWE-smith,这是一种生成大规模软件工程技术数据的新方法。给定任何Python代码库,SWE-smith 构建相应的执行环境,然后自动合成数百到数千个任务实例,这些实例会破坏代码库中的现有测试。使用SWE-smith,我们从128个GitHub仓库中创建了一个包含50,000个实例的数据集,比之前的所有工作都要大一个数量级。我们训练了SWE-agent-LM-32B,其在SWE-bench 验证基准测试上的Pass@1解决率为40.2%,是开源模型中的最好成绩。我们开源了SWE-smith(数据集收集方法、任务实例、轨迹、模型),以降低在自动化软件工程领域的语言模型系统研究的门槛。所有资产可在https://swesmith.com获取。