LLM2D

摘要

arXiv:2504.03721v1 Announce Type: cross 摘要：在即将到来的6G时代，扩展现实(XR)被视为超可靠和低延迟通信(URLLC)的一种新兴应用，具有新的流量特性和更严格的要求。除了XR中的准周期性流量外，在某些真实世界的低延迟通信场景中，具有大帧尺寸和随机到达的突发流量已经成为网络拥塞甚至崩溃的主要原因，而且仍然缺乏在具有严格延迟约束的突发流量下有效的资源调度算法。我们提出了一种新的混合强化学习框架，该框架结合了从其他相似环境和基于领域知识(DK)的政策中学习到的策略以及使用专家知识构建的DK策略，以提高性能。策略重用概率和新策略的联合优化被形式化为一个马尔可夫决策过程(MDP)，该过程最大化用户的严格延迟约束有效吞吐量(HLC-ET)。我们证明了所提出的HRL-RSHLC可以从任一初始点收敛至KKT点。仿真结果显示，与基线算法相比，HRL-RSHLC在收敛速度方面具有更好的性能。