LLM2D

摘要

arXiv:2503.24278v2 通知类型: 替换-交叉摘要：大规模且可复制的策略评估一直是机器人学习中的长期挑战。评估对于评估进展和构建更好的策略至关重要，但在现实世界中进行评估，特别是要达到统计上可靠的规模，所需的人员时间成本很高且难以获取。评估越来越通用的机器人策略需要越来越多样化的评估环境，使得评估瓶颈更加显著。为了使对机器人策略的现实世界评估更加实用，我们提出了AutoEval，这是一个可以在最小人类干预的情况下全天候自主评估通用机器人策略的系统。用户通过将评估任务提交到AutoEval队列来与AutoEval交互，类似于软件任务是如何通过集群调度系统提交的，AutoEval将在一个框架下自动执行评估任务，该框架提供自动成功检测和自动场景重置。我们展示了AutoEval几乎可以完全消除评估过程中的人员参与，使可以进行全天候评估，并且评估结果与手动执行的手动评估结果非常接近。为了促进机器人社区中通用策略的评估，我们提供了对流行BridgeData机器人配置中带有WidowX机器人手臂的多个AutoEval场景的公共访问权限。未来，我们希望可以在不同机构设置AutoEval场景，以形成一个多样且分布式的评估网络。