LLM2D
基于差分隐私的深度模型强化学习
Differentially Private Deep Model-Based Reinforcement Learning
作者: Alexandre Rio, Merwan Barlier, Igor Colin, Albert Thomas
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2402.05525v2

摘要

我们解决了私有的深度离线强化学习(RL)问题,其目标是在标准控制任务上训练一个策略,该策略针对数据集中的单个轨迹是差分私有的(DP)。为此,我们引入了PriMORL,这是一种具有正式差分隐私保证的基于模型的RL算法。PriMORL首先从离线数据中学习环境的轨迹级DP模型的集合。然后,它在一个惩罚的私有模型上优化策略,而无需与系统进一步交互或访问数据集。除了提供强大的理论基础外,我们还通过实验证明,PriMORL能够在具有深度函数逼近的离线连续控制任务上训练私有RL智能体,而现有方法仅限于更简单的表格和线性马尔可夫决策过程(MDP)。此外,我们还概述了在这种情况下实现隐私所涉及的权衡。