LLM2D

摘要

arXiv:2406.01309v3 宣告类型：替换横跨摘要：设计有效的奖励函数对于训练强化学习（RL）算法至关重要。然而，即使对于领域专家来说，这也是一项非平凡的任务，因为某些任务缺乏明确的量化标准。最近的研究中，大语言模型（LLMs）被用于从自然语言任务描述中生成奖励，利用它们广泛的指令调优和对人类行为的常识理解。在本文中，我们假设在人类反馈的指导下，LLMs可以用于制定反映人类隐性知识的奖励函数。我们在三个具有挑战性的场景中研究了这一点——自动驾驶、类人行走和灵巧操作——在这些场景中，“良好”行为的概念是隐性的且难以量化。为此，我们引入了REvolve，这是一种真正基于进化的框架，利用LLMs在RL中的奖励设计。REvolve通过利用人类反馈来指导进化过程，有效地将隐性的知识转化为明确的奖励函数，用于训练（深）RL代理。实验结果表明，使用REvolve设计的奖励训练的代理优于其他最先进的基线。