LLM2D
REvolve:基于人类反馈的大语言模型奖励演化
REvolve: Reward Evolution with Large Language Models using Human Feedback
作者: Rishi Hazra, Alkis Sygkounas, Andreas Persson, Amy Loutfi, Pedro Zuidberg Dos Martires
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2406.01309v3

摘要

arXiv:2406.01309v3 宣告类型:替换横跨 摘要:设计有效的奖励函数对于训练强化学习(RL)算法至关重要。然而,即使对于领域专家来说,这也是一项非平凡的任务,因为某些任务缺乏明确的量化标准。最近的研究中,大语言模型(LLMs)被用于从自然语言任务描述中生成奖励,利用它们广泛的指令调优和对人类行为的常识理解。在本文中,我们假设在人类反馈的指导下,LLMs可以用于制定反映人类隐性知识的奖励函数。我们在三个具有挑战性的场景中研究了这一点——自动驾驶、类人行走和灵巧操作——在这些场景中,“良好”行为的概念是隐性的且难以量化。为此,我们引入了REvolve,这是一种真正基于进化的框架,利用LLMs在RL中的奖励设计。REvolve通过利用人类反馈来指导进化过程,有效地将隐性的知识转化为明确的奖励函数,用于训练(深)RL代理。实验结果表明,使用REvolve设计的奖励训练的代理优于其他最先进的基线。