摘要
Q-shaping 是 Q-值初始化的扩展,作为奖励塑造的替代方案,用于将领域知识融入加速代理训练,从而通过直接塑造 Q-值来提高样本效率。这种方法在各种任务中既通用又稳健,允许立即评估影响,同时保证最优性。我们使用大型语言模型(LLM)作为启发式提供者,在 20 个不同的环境中评估了 Q-shaping。结果表明,Q-shaping 显着提高了样本效率,在每个环境中比最佳基线提高了 **16.87%**,与基于 LLM 的奖励塑造方法相比提高了 **253.80%**。这些发现表明,Q-shaping 是强化学习中传统奖励塑造的一种更优越、无偏的替代方案。