LLM2D

摘要

arXiv:2504.11453v1 宣布类型: cross 摘要: 在线下强化学习（RL）方面的进展受到了模糊的问题定义和纠缠的算法设计的阻碍，导致了不一致的实现、不充分的消融实验以及不公平的评估。尽管线下RL显式地避免了环境交互，但先前的方法经常使用广泛的、未记录的线上评估来进行超参数调整，从而增加了方法比较的复杂性。此外，现有的参考实施在样板代码方面存在显著差异，这掩盖了它们的核心算法贡献。我们通过首先引入一个严格的分类学和透明的评估协议来解决这些挑战，该协议明确量化了线上的调优预算。为了解决不透明的算法设计，我们提供了各种模型自由和模型依赖的线下RL方法的简洁、最少化、单文件实现，极大地提高了清晰度并实现了显著的速度提升。利用这些精简的实现，我们提出了Unifloral，这是一种统一算法，将各种先前的方法封装到一个全面的超参数空间中，从而在共享的超参数空间中实现算法开发。使用我们的严格评估协议和Unifloral，我们开发了两个新的算法——TD3-AWR（模型自由）和MoBRAC（模型依赖），它们在现有基准方法上表现出显著的优势。我们的实现可在 https://github.com/EmptyJackson/unifloral 获取。