LLM2D

摘要

arXiv:2502.00850v2 宣告类型: 替换-交叉摘要：由于合成数据与现实数据之间的分布不匹配，脱机强化学习代理面临着重大的部署挑战。尽管大多数先前研究主要集中在提高合成采样的真实性和引入非策略机制上，但直接集成的范式往往无法确保带偏见模型和底层环境动力学中的一致性策略行为，这源自行为策略和学习策略之间固有的差异。在这篇论文中，我们首先将重点从模型可靠性转移到策略差异，同时优化预期回报，然后自洽地引入合成数据，推导出一种新颖的演员-评论家范式，即双对齐最大极小优化（DAMO）。这是一个统一框架，确保模型-环境策略一致性和合成数据与脱机数据的兼容性。内部最小化执行双重保守价值估计，使策略和轨迹对齐，避免出现分布外的状态和动作，而外部最大化确保策略改进与内部价值估计保持一致。实验证明，DAMO 有效地确保了模型和策略对齐，在多种基准任务中取得了竞争力的表现。