LLM2D
多语言问题解决基准:Multi-SWE-bench
Multi-SWE-bench: A Multilingual Benchmark for Issue Resolving
作者: Daoguang Zan, Zhirong Huang, Wei Liu, Hanwu Chen, Linhao Zhang, Shulin Xin, Lu Chen, Qi Liu, Xiaojian Zhong, Aoyan Li, Siyao Liu, Yongsheng Xiao, Liangqiang Chen, Yuyu Zhang, Jing Su, Tianyu Liu, Rui Long, Kai Shen, Liang Xiang
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.02605v1

摘要

arXiv:2504.02605v1 问题解决类型: 交叉 摘要:问题解决任务是修改代码库以生成一个解决给定问题的补丁。然而,现有的基准测试,如SWE-bench,几乎完全集中在Python上,这使得它们在评估大型语言模型(LLMs)在多样的软件生态系统中的表现时显得不足。为了解决这个问题,我们引入了一个多语言问题解决基准测试,称为Multi-SWE-bench,涵盖了Java、TypeScript、JavaScript、Go、Rust、C和C++。它包括总共1,632个高质量的实例,这些实例是由68位专家注释员从2,456个候选者中仔细注释而来的,从而确保基准测试可以提供准确可靠的评估。基于Multi-SWE-bench,我们使用三种代表性方法(无代理、SWE代理和OpenHands)评估了一系列最先进的模型,并提供了全面的分析和关键经验见解。此外,我们启动了一个Multi-SWE-RL开源社区,旨在构建大规模强化学习(RL)训练数据集以解决代码问题任务。作为初始贡献,我们发布了一组4,723个结构良好的实例,跨越了七种编程语言,为这一领域的RL研究奠定了坚实的基础。更重要的是,我们开源了整个数据生产管道,以及详细的教程,鼓励开源社区不断贡献并扩展数据集。我们期望Multi-SWE-bench和不断壮大的Multi-SWE-RL社区能够成为推动RL实现全部潜力的催化剂,使我们更接近AGI的黎明。