摘要
离线强化学习旨在利用离线数据集来构建有效的代理策略,而无需在线交互。为了解决分布外问题,离线强化学习通常会借助行为策略实施适当的保守约束。然而,当离线数据集从多个行为策略中收集时,现有方法往往会遇到约束冲突问题,即不同的行为策略在状态空间中可能表现出与不同回报值不一致的动作。为了解决这个问题,最近的优势加权方法优先考虑具有较高优势值的样本进行代理训练,而不可避免地忽略了行为策略的多样性。本文提出了一种新颖的优势感知策略优化 (A2PO) 方法,用于在混合质量数据集下显式地构建优势感知策略约束。具体而言,A2PO 利用条件变分自动编码器,通过将所有训练数据的优势值建模为条件变量,来解开交织行为策略的动作分布。然后,代理可以遵循这种解开的动作分布约束,将优势感知策略优化到更高的优势值。在 D4RL 基准的单质量和混合质量数据集上进行的大量实验表明,A2PO 的结果优于同类方法。我们的代码将公开发布。