摘要
强化学习(RL)在未来的智能无线网络中展现出巨大的潜力。在线 RL 已被用于无线资源管理(RRM),取代了传统的方案。然而,由于其依赖于与环境的在线交互,在线 RL 在实际的现实世界问题中作用有限,因为在线交互在这些问题中不可行。此外,传统 RL 在面对现实世界随机环境中的不确定性和风险时也显得力不从心。为此,我们提出了一种用于 RRM 问题的离线分布式 RL 方案,该方案能够使用静态数据集进行离线训练,无需与环境进行任何交互,并通过使用回报的分布来考虑不确定性的来源。仿真结果表明,该方案优于传统的资源管理模型。此外,它是唯一一种优于在线 RL 的方案,比在线 RL 提高了 16%。