LLM2D

摘要

arXiv:2405.14573v5 自动化类型: 替换摘要：通过控制计算机来执行人类任务的自主代理可以提高人类的生产力和应用的易用性。然而，该领域的进步将由现实和可重复的基准驱动。我们提出了AndroidWorld，这是一个功能齐全的Android环境，提供了来自20款真实Android应用的116个程序任务的奖励信号。与现有的交互式环境不同，AndroidWorld动态构建任务，这些任务根据自然语言参数化并以无限多种方式表达，从而使得可以在更大且更具现实主义的一系列任务上进行测试。为了确保可重复性，每个任务都包括专门的初始化、成功检查和拆卸逻辑，这些逻辑会修改和检查设备的系统状态。我们使用基准代理来测试AndroidWorld，并提供了基准上的初始结果。我们的最佳代理能够完成AndroidWorld任务的30.6%，表明未来工作有很大的空间。此外，我们将一个流行的桌面Web代理适应用于移动平台，尽管我们发现它在移动平台上效果不佳，这表明未来的研究需要实现跨平台的通用代理。最后，我们还进行了稳健性分析，表明任务变化可以显著影响代理性能，表明如果没有这种测试，代理性能指标可能不能全面反映实际挑战。AndroidWorld以及本文中的实验可以在github.com/google-research/android_world获取。