LLM2D

摘要

arXiv:2502.00850v1 宣告类型: cross 摘要：由于合成数据与现实数据之间的分布不匹配，离线强化学习代理面临着重大的部署挑战。虽然之前的大部分研究集中在提高合成采样的保真度和引入离策机制上，但直接集成的范式往往在偏差模型和底层环境动态中无法确保策略行为的一致性，这些偏差本质上源于行为策略与学习策略之间的差异。在本文中，我们首先将焦点从模型可靠性转移到策略差异上，同时优化预期回报，然后自洽地引入合成数据，从而推导出一种新的演员-评论家范式，双对偶最小最大化优化（DAMO）。这是一种统一框架，旨在确保模型-环境策略一致性以及合成数据和离线数据的兼容性。内部的最小化执行双重保守价值估计，使策略和轨迹对齐，避免出现分布外的状态和动作，而外部的最大化确保策略改进与内部价值估计保持一致。实证评估表明，DAMO 有效地确保了模型和策略对齐，实现了在多种基准任务中的竞争性能。