摘要
arXiv:2504.02605v1 问题解决类型: 交叉
摘要:问题解决任务是修改代码库以生成一个解决给定问题的补丁。然而,现有的基准测试,如SWE-bench,几乎完全集中在Python上,这使得它们在评估大型语言模型(LLMs)在多样的软件生态系统中的表现时显得不足。为了解决这个问题,我们引入了一个多语言问题解决基准测试,称为Multi-SWE-bench,涵盖了Java、TypeScript、JavaScript、Go、Rust、C和C++。它包括总共1,632个高质量的实例,这些实例是由68位专家注释员从2,456个候选者中仔细注释而来的,从而确保基准测试可以提供准确可靠的评估。基于Multi-SWE-bench,我们使用三种代表性方法(无代理、SWE代理和OpenHands)评估了一系列最先进的模型,并提供了全面的分析和关键经验见解。此外,我们启动了一个Multi-SWE-RL开源社区,旨在构建大规模强化学习(RL)训练数据集以解决代码问题任务。作为初始贡献,我们发布了一组4,723个结构良好的实例,跨越了七种编程语言,为这一领域的RL研究奠定了坚实的基础。更重要的是,我们开源了整个数据生产管道,以及详细的教程,鼓励开源社区不断贡献并扩展数据集。我们期望Multi-SWE-bench和不断壮大的Multi-SWE-RL社区能够成为推动RL实现全部潜力的催化剂,使我们更接近AGI的黎明。