摘要
arXiv:2407.16741v3 Announce Type: replace-cross
摘要:软件是人类最强大的工具之一;它使熟练的程序员能够以复杂而深刻的方式与世界互动。同时,由于大型语言模型(LLMs)的进步,也迅速发展出与环境互动并对其产生影响的AI代理。在本文中,我们介绍了OpenHands(原名OpenDevin)平台,这是一个用于开发以类似人类开发者方式与世界互动的强大且灵活的AI代理的平台:通过编写代码、与命令行进行互动以及浏览网络。我们描述了该平台如何允许实现新的代理、在沙盒环境中安全地执行代码、代理之间的协调以及纳入评估基准。基于我们目前纳入的基准,我们在15项具有挑战性的任务上对代理进行了评估,包括软件工程(如SWE-BENCH)和网络浏览(如WEBARENA)等。OpenHands以宽容的MIT许可发布,是一个跨越学术界和工业界的社区项目,目前已有来自超过188位贡献者的2100多个贡献。