摘要
arXiv:2502.09829v1 评估类型:交叉
摘要:评估学习到的机器人控制策略以确定它们在物理任务层面的能力需要实验者花费大量时间和精力。随着策略和任务数量的增长,这一问题变得更为严重。测试每一个策略在每一个任务上多次是不切实际的;每次试验都需要手动重置环境,而每改变一个任务则需要重新布置物体甚至更换机器人。随机选择一个子集的策略和任务进行评估是一种高成本的解决方案,且结果不可靠、不完整。在此项工作中,我们以积极的测试问题形式将机器人评估问题进行建模。我们建议在顺序执行实验过程中建模所有任务和策略下的机器人表现分布。任务之间通常具有相似性,能够揭示策略行为中的潜在关联,并展示了自然语言在建模这些任务间关系中的有用性。然后,我们利用这一建模形式通过使用带有成本意识的期望信息增益启发式方法来高效地选择信息丰富的试验,从而降低实验者的劳动强度。我们的框架既适用于连续表现结果,也适用于离散表现结果。我们在现实机器人和模拟中的现有评估数据上进行了实验。通过优先选择信息丰富的试验,我们的框架能够减少对多项任务上机器人策略评估指标计算的成本。