LLM2D

摘要

arXiv:2502.03717v2 宣告类型：replace-cross 摘要：具有表现力的机器人行为对于机器人在社会环境中的广泛接受至关重要。近期在学习式 legged 运动控制器方面的进展使机器人行为更加动态和多样化。然而，确定与不同用户在不同场景下的互动的最佳行为仍然是一项挑战。当前的方法要么依赖于自然语言输入，这种方式高效但分辨率较低，要么从人类偏好中学习，虽然分辨率较高，但样本效率较低。本文介绍了一种新方法，该方法利用预训练的大型语言模型（LLM）生成先验知识，同时结合基于偏好的学习精度。我们的方法称为语言引导的偏好学习（LGPL），使用 LLM 生成初始行为样本，然后通过基于偏好的反馈进行细化，学习与人类期望高度一致的行为。我们的核心见解是 LLM 可以引导偏好学习的采样过程，从而显著提高样本效率。我们展示了LGPL 可以通过最少四次查询快速学习准确且具有表现力的行为，且在这方面的表现优于完全基于语言参数化模型和传统偏好学习方法。视频网站：https://lgpl-gaits.github.io/