摘要
用于软件工程的自主系统现在能够修复错误和开发功能。这些系统通常在 SWE-bench (Jimenez 等人,2024a) 上进行评估,该基准评估它们解决来自 GitHub 存储库的软件问题的能力。然而,SWE-bench 仅使用 Python 存储库,问题陈述主要以文本形式呈现,缺乏图像等视觉元素。这种有限的覆盖范围促使我们研究现有系统在未被代表的软件工程领域(例如,前端、游戏开发、DevOps)中的表现,这些领域使用不同的编程语言和范式。因此,我们提出了 SWE-bench 多模态 (SWE-bench M),以评估系统修复视觉、面向用户的 JavaScript 软件中的错误的能力。SWE-bench M 包含从用于网页界面设计、图表绘制、数据可视化、语法高亮和交互式地图的 17 个 JavaScript 库中收集的 617 个任务实例。每个 SWE-bench M 任务实例在其问题陈述或单元测试中至少包含一张图像。我们的分析发现,在 SWE-bench 上表现最好的系统在 SWE-bench M 上难以应对,这揭示了视觉问题解决和跨语言泛化方面的局限性。最后,我们证明了 SWE-agent 的灵活的语言无关特性使其能够在 SWE-bench M 上显著超越其他方案,解决了 12% 的任务实例,而第二好的系统仅解决了 6%。