摘要
arXiv:2502.01268v1 宣告类型: cross
摘要: 强化学习(RL)在未来的5G-beyond和6G系统中展现出了令人信服的本质。其主要优势在于在复杂和高维无线环境中能够进行健壮的无模型决策。然而,现有的大多数RL框架依赖于与环境的在线交互,这可能会因安全和成本问题而不可行。在线RL的另一个问题是所设计的算法在面对动态或新环境时缺乏可扩展性。本文提出了一种新颖的、鲁棒的、少样本元离线RL算法,该算法结合了使用保守Q学习(CQL)的离线RL和使用无模型元学习(MAML)的元学习。所提出的算法可以使用静态离线数据集来训练RL模型,而无需与环境进行任何在线交互。此外,在MAML的帮助下,所提出的模型可以扩展到新的未见过的环境中。我们展示了提出的算法,用于优化无人驾驶航空器(UAV)的轨迹和调度策略,以最小化信息陈旧度(AoI)和有限功率设备的传输功率。数值结果表明,所提出的少样本元离线RL算法比基于深度Q网络和CQL的基线方案收敛速度更快。此外,它是唯一一种能够使用少量数据点的离线数据集实现AoI和传输功率的联合优化,并且由于前所未有的环境变化而具有网络故障的鲁棒性的算法。