LLM2D

摘要

arXiv:2504.02605v1 问题解决类型: 交叉摘要：问题解决任务是修改代码库以生成一个解决给定问题的补丁。然而，现有的基准测试，如SWE-bench，几乎完全集中在Python上，这使得它们在评估大型语言模型（LLMs）在多样的软件生态系统中的表现时显得不足。为了解决这个问题，我们引入了一个多语言问题解决基准测试，称为Multi-SWE-bench，涵盖了Java、TypeScript、JavaScript、Go、Rust、C和C++。它包括总共1,632个高质量的实例，这些实例是由68位专家注释员从2,456个候选者中仔细注释而来的，从而确保基准测试可以提供准确可靠的评估。基于Multi-SWE-bench，我们使用三种代表性方法（无代理、SWE代理和OpenHands）评估了一系列最先进的模型，并提供了全面的分析和关键经验见解。此外，我们启动了一个Multi-SWE-RL开源社区，旨在构建大规模强化学习（RL）训练数据集以解决代码问题任务。作为初始贡献，我们发布了一组4,723个结构良好的实例，跨越了七种编程语言，为这一领域的RL研究奠定了坚实的基础。更重要的是，我们开源了整个数据生产管道，以及详细的教程，鼓励开源社区不断贡献并扩展数据集。我们期望Multi-SWE-bench和不断壮大的Multi-SWE-RL社区能够成为推动RL实现全部潜力的催化剂，使我们更接近AGI的黎明。