LLM2D

摘要

在强化学习（RL）任务中，要在复杂的自定义环境和多重需求下实现奖励函数的有效设计和改进，面临着相当大的挑战。在本文中，我们提出了ERFSL，一种使用大型语言模型（LLMs）进行高效奖励函数搜索的方法。这使得LLMs能够成为有效的白盒搜索器，并突显其先进的语义理解能力。具体而言，我们为每个明确的用户需求生成奖励组件，并使用奖励评论员来识别正确的代码形式。然后，LLMs为奖励组件分配权重，以平衡其值，并通过灵活采用方向突变和交叉策略（类似于遗传算法）基于训练日志分析器提供的上下文，迭代地调整这些权重，避免模糊和冗余的调整。我们将该框架应用于一个水下数据收集的RL任务中，无需直接的人类反馈或奖励示例（零样本学习）。奖励评论员成功地通过每个需求仅一个反馈实例纠正了奖励代码，有效地防止了不可修复的错误。权重的初始化使得在无需搜索权重的情况下，能够在帕累托解集内获得不同的奖励函数。即使在权重偏差500倍的情况下，平均只需5.2次迭代即可满足用户需求。ERFSL在大多数利用GPT-4o mini的提示下也能很好地工作，因为我们将权重搜索过程分解，以降低对数值和长上下文理解能力的要求。