LLM2D
在职最优互动学习通过设施选址规划
Optimal Interactive Learning on the Job via Facility Location Planning
作者: Shivam Vats, Michelle Zhao, Patrick Callaghan, Mingxi Jia, Maxim Likhachev, Oliver Kroemer, George Konidaris
发布日期: 5/2/2025
arXiv ID: oai:arXiv.org:2505.00490v1

摘要

arXiv:2505.00490v1 类型: cross 摘要:协作机器人必须不断适应新的任务和用户偏好,而不用给用户带来过重的负担。虽然以前的交互式机器人学习方法旨在减少人类的努力,但它们通常局限于单任务场景,而且不太适合持续的多任务协作。我们提出了COIL(Cost-Optimal Interactive Learning)——一种多任务交互规划器,在一系列任务中通过战略性地选择三种查询类型(技能、偏好和帮助)来最小化人类的努力。当用户偏好已知时,我们将COIL形式化为无容量设施选址(UFL)问题,这使得使用现成的近似算法可以在多项式时间内进行有界的次优规划。我们通过引入一步信念空间规划来扩展我们的形式化方法,以处理用户偏好中的不确定性,这些近似算法作为子程序保持多项式时间的性能。对操作任务的模拟和物理实验表明,我们的框架在保持任务成功完成的同时,显著减少了分配给人类的工作量。