LLM2D

摘要

强化学习（RL）在未来的智能无线网络中展现出巨大的潜力。在线 RL 已被用于无线资源管理（RRM），取代了传统的方案。然而，由于其依赖于与环境的在线交互，在线 RL 在实际的现实世界问题中作用有限，因为在线交互在这些问题中不可行。此外，传统 RL 在面对现实世界随机环境中的不确定性和风险时也显得力不从心。为此，我们提出了一种用于 RRM 问题的离线分布式 RL 方案，该方案能够使用静态数据集进行离线训练，无需与环境进行任何交互，并通过使用回报的分布来考虑不确定性的来源。仿真结果表明，该方案优于传统的资源管理模型。此外，它是唯一一种优于在线 RL 的方案，比在线 RL 提高了 16%。