摘要
arXiv:2504.07596v1 宣告类型: 新
摘要: 大型语言模型(LLMs)正在成为自动强化学习(RL)奖励设计的有前途的工具,这得益于它们在常识推理和代码生成方面的强大能力。通过与RL代理进行对话,LLMs构建了一个奖励观察空间(ROS),通过选择相关环境状态并定义其内部操作。然而,现有的框架尚未有效利用历史探索数据或手动任务描述来迭代地演化这个空间。本文中,我们提出了一种新的启发式框架,通过基于表格的探索缓存机制和文本-代码协调策略,增强LLM驱动的奖励设计。该框架引入了一个状态执行表,该表跟踪环境状态的历史使用和成功率,克服了LLM对话中通常存在的马尔可夫约束,从而促进更有效的探索。此外,我们使用结构化提示将用户提供的任务描述与专家定义的成功标准进行协调,以确保奖励设计目标的一致性。在基准RL任务上的全面评估表明,所提出的框架的有效性和稳定性。有关的代码和视频示例可在jingjjjjjie.github.io/LLM2Reward处获得。