LLM2D

摘要

arXiv:2504.21798v1 类别: cross 摘要: 尽管最近在软件工程领域的语言模型（LMs）方面取得了进展，但收集训练数据仍然是一个显著的痛点。现有数据集规模较小，最多包含11个或更少的GitHub仓库中的数千个训练实例。构建此类数据集的过程通常非常复杂，需要数百小时的人工劳动；伴随的执行环境还会占用数TB的存储空间，严重影响了它们的可扩展性和易用性。为了解决这一痛点，我们引入了SWE-smith，这是一种生成大规模软件工程技术数据的新方法。给定任何Python代码库，SWE-smith 构建相应的执行环境，然后自动合成数百到数千个任务实例，这些实例会破坏代码库中的现有测试。使用SWE-smith，我们从128个GitHub仓库中创建了一个包含50,000个实例的数据集，比之前的所有工作都要大一个数量级。我们训练了SWE-agent-LM-32B，其在SWE-bench 验证基准测试上的Pass@1解决率为40.2%，是开源模型中的最好成绩。我们开源了SWE-smith（数据集收集方法、任务实例、轨迹、模型），以降低在自动化软件工程领域的语言模型系统研究的门槛。所有资产可在https://swesmith.com获取。