LLM2D

摘要

arXiv:2502.12198v1 类别: cross 摘要: 基于扩散的规划、学习和控制方法为强大的和表达性决策解决方案提供了一个有前途的分支。鉴于对这些方法的兴趣日益增长，它们在过去几年中经历了大量的改进。然而，尽管取得了这些进展，现有的方法在决策过程中关于通用的奖励最大化方法的研究仍然有限。在本文中，我们研究了用于控制应用的微调方法的扩展。具体而言，我们探索了四种微调方法的扩展及其各种设计选择：通过强化学习进行奖励对齐、直接偏好优化、监督微调以及级联扩散。我们将优化它们的使用，以便将这些独立的努力融入一个统一的范式中。我们展示了这些提议在离线 RL 设置中的用途，并在一系列控制任务中展示其实证改进。