LLM2D
从奖励塑形到 Q-塑形:利用 LLM 引导知识实现无偏学习
From Reward Shaping to Q-Shaping: Achieving Unbiased Learning with LLM-Guided Knowledge
作者: Xiefeng Wu
发布日期: 10/3/2024
arXiv ID: oai:arXiv.org:2410.01458v1

摘要

Q-shaping 是 Q-值初始化的扩展,作为奖励塑造的替代方案,用于将领域知识融入加速代理训练,从而通过直接塑造 Q-值来提高样本效率。这种方法在各种任务中既通用又稳健,允许立即评估影响,同时保证最优性。我们使用大型语言模型(LLM)作为启发式提供者,在 20 个不同的环境中评估了 Q-shaping。结果表明,Q-shaping 显着提高了样本效率,在每个环境中比最佳基线提高了 **16.87%**,与基于 LLM 的奖励塑造方法相比提高了 **253.80%**。这些发现表明,Q-shaping 是强化学习中传统奖励塑造的一种更优越、无偏的替代方案。