LLM2D

摘要

我们解决了私有的深度离线强化学习（RL）问题，其目标是在标准控制任务上训练一个策略，该策略针对数据集中的单个轨迹是差分私有的（DP）。为此，我们引入了PriMORL，这是一种具有正式差分隐私保证的基于模型的RL算法。PriMORL首先从离线数据中学习环境的轨迹级DP模型的集合。然后，它在一个惩罚的私有模型上优化策略，而无需与系统进一步交互或访问数据集。除了提供强大的理论基础外，我们还通过实验证明，PriMORL能够在具有深度函数逼近的离线连续控制任务上训练私有RL智能体，而现有方法仅限于更简单的表格和线性马尔可夫决策过程（MDP）。此外，我们还概述了在这种情况下实现隐私所涉及的权衡。