LLM2D

摘要

软件是我们人类拥有的最强大的工具之一；它使熟练的程序员能够以复杂而深刻的方式与世界互动。与此同时，得益于大型语言模型 (LLM) 的改进，人工智能代理在与周围环境互动并对其产生影响方面也取得了快速发展。在本文中，我们介绍了 OpenHands（原名 OpenDevin），这是一个用于开发功能强大且灵活的人工智能代理的平台，这些代理以与人类开发人员类似的方式与世界互动：通过编写代码、与命令行交互以及浏览网页。我们描述了该平台如何允许实现新的代理、与代码执行沙箱环境的安全交互、多个代理之间的协调以及评估基准的整合。根据我们目前整合的基准，我们在 15 个具有挑战性的任务中对代理进行了评估，包括软件工程（例如，SWE-BENCH）和网页浏览（例如，WEBARENA）等。OpenHands 采用宽松的 MIT 许可发布，是一个跨越学术界和工业界的社区项目，拥有来自 188 位贡献者的 2.1K 多个贡献。