摘要
arXiv:2502.03717v1 类别:cross
摘要:具有表现力的机器人行为对于在社交环境中普及机器人至关重要。近期在学习腿部运动控制器方面的进展使机器人的行为更加动态和多样。然而,确定与不同用户在各种场景中的最佳互动行为仍是一个挑战。当前的方法要么依赖于自然语言输入,这虽然是高效的,但精度较低,要么从人类偏好中学习,尽管精度较高,但样本效率低。本文介绍了一种新颖的方法,该方法结合了预先训练的语言生成模型(LLM)和基于偏好的学习精度。我们的方法称为语言引导的偏好学习(LGPL),使用LLM生成初始行为样本,然后通过基于偏好的反馈进行细化,以学习与人类期望高度一致的行为。我们的核心洞察是,LLM可以引导偏好学习的采样过程,从而显著提高样本效率。我们证明,LGPL仅需四次查询就可以快速学习准确且具有表现力的行为,性能优于纯语言参数化模型和传统偏好学习方法。相关内容网站及视频:https://lgpl-gaits.github.io/