LLM2D

摘要

arXiv:2502.04963v2 宣告类型: 替换-交叉摘要: 本文探讨了在复杂且未知干扰环境下反阻塞信道访问问题，其中干扰源能够动态调整其策略，针对不同的信道。传统的使用固定模式的信道跳转反阻塞方法对于这种动态干扰攻击无效。尽管新兴的基于深度强化学习(DRL)的动态信道访问方法在快速变化的干扰攻击下可以达到纳什均衡，但它需要大量的训练 episode。为了解决这一问题，我们提出了一种基于“比干扰源学习得更快的直觉”的快速自适应反阻塞信道访问方法，其中同步更新的粗粒度频谱预测作为基于深度Q学习(DQN)的反阻塞模型的辅助任务。这有助于模型相比标准DRL识别出更优越的Q函数，并且显著减少了训练 episode 的数量。数值结果表明，所提出的方法在模型训练中显著加速了收敛速度，相比标准DRL所需训练 episode 减少了高达70%。此外，由于有效利用了粗粒度频谱预测，它还实现了与NE策略相比10%的吞吐量提升。