摘要
arXiv:2406.01309v3 宣告类型:替换横跨
摘要:设计有效的奖励函数对于训练强化学习(RL)算法至关重要。然而,即使对于领域专家来说,这也是一项非平凡的任务,因为某些任务缺乏明确的量化标准。最近的研究中,大语言模型(LLMs)被用于从自然语言任务描述中生成奖励,利用它们广泛的指令调优和对人类行为的常识理解。在本文中,我们假设在人类反馈的指导下,LLMs可以用于制定反映人类隐性知识的奖励函数。我们在三个具有挑战性的场景中研究了这一点——自动驾驶、类人行走和灵巧操作——在这些场景中,“良好”行为的概念是隐性的且难以量化。为此,我们引入了REvolve,这是一种真正基于进化的框架,利用LLMs在RL中的奖励设计。REvolve通过利用人类反馈来指导进化过程,有效地将隐性的知识转化为明确的奖励函数,用于训练(深)RL代理。实验结果表明,使用REvolve设计的奖励训练的代理优于其他最先进的基线。