LLM2D

摘要

arXiv:2503.24278v1 宣告类型: cross 摘要：机器人学习中可扩展且可重复的策略评估一直是一个长期存在的挑战。评估对于衡量进展和构建更好的策略至关重要，但在现实世界中的评估，尤其是在能够提供统计上可靠结果的大规模评估中，会耗费大量的人工时间且难以获得。随着对越来越通用的机器人策略进行评估，所需的评估环境也越来越多样化，从而使评估瓶颈更加突出。为了使机器人策略的现实世界评估更加实用，我们提出了AutoEval系统，该系统能够在最少的人工干预下全天候自动评估通用的机器人策略。用户通过将评估作业提交到AutoEval队列中与AutoEval交互，类似于将软件作业提交到集群调度系统中，AutoEval将在框架内为评估任务安排策略，并具备自动成功检测和自动场景重置功能。我们展示了AutoEval几乎可以完全消除评估过程中的手动干预，使其能够全天候进行评估，且评估结果与手工执行的真实评估结果高度一致。为了促进机器人社区内对通用策略的评估，我们已提供了对BridgeData机器人设置中使用WidowX机器人臂的多个AutoEval场景的公共访问权限。未来，我们希望能够在各个机构中设置AutoEval场景，形成一个多样化的分布式评估网络。