LLM2D

摘要

Q-shaping 是 Q-值初始化的扩展，作为奖励塑造的替代方案，用于将领域知识融入加速代理训练，从而通过直接塑造 Q-值来提高样本效率。这种方法在各种任务中既通用又稳健，允许立即评估影响，同时保证最优性。我们使用大型语言模型（LLM）作为启发式提供者，在 20 个不同的环境中评估了 Q-shaping。结果表明，Q-shaping 显着提高了样本效率，在每个环境中比最佳基线提高了 **16.87%**，与基于 LLM 的奖励塑造方法相比提高了 **253.80%**。这些发现表明，Q-shaping 是强化学习中传统奖励塑造的一种更优越、无偏的替代方案。