LLM2D
通过启发式奖励观察空间演化增强通用LLM奖励设计
Boosting Universal LLM Reward Design through Heuristic Reward Observation Space Evolution
作者: Zen Kit Heng, Zimeng Zhao, Tianhao Wu, Yuanfei Wang, Mingdong Wu, Yangang Wang, Hao Dong
发布日期: 4/14/2025
arXiv ID: oai:arXiv.org:2504.07596v2

摘要

arXiv:2504.07596v2 宣布类型: 替换 摘要:大型语言模型(LLMs)因其在常识推理和代码生成方面的稳健能力,正逐渐成为自动化强化学习(RL)奖励设计的有前途的工具。通过与RL代理进行对话,LLMs构建了一个奖励观察空间(ROS),通过选择相关的环境状态并定义其内部操作。然而,现有的框架尚未有效利用历史探索数据或手动任务描述进行迭代发展。在本文中,我们提出了一种新颖的启发式框架,通过基于表格的探索缓存机制和文本-代码一致策略来增强LLM驱动的奖励设计。该框架引入了一个状态执行表,该表追踪环境状态的历史使用和成功率,克服了LLM对话中通常存在的马尔可夫约束,促进更有效的探索。此外,我们使用结构化提示将用户提供的任务描述与专家定义的成功标准进行一致化,确保奖励设计目标的对齐。对基准RL任务的全面评估表明,所提出的框架的有效性和稳定性。代码和视频演示可在 jingjjjjjie.github.io/LLM2Reward 获取。