LLM2D

摘要

arXiv:2502.04963v1 交叉类型：跨学科摘要：本文研究了在复杂且未知干扰环境中避免干扰的信道访问问题，其中干扰源可以动态调整其策略来针对不同的信道。传统使用固定模式的信道跳频抗干扰方法对这种动态干扰攻击无效。尽管基于深度强化学习（DRL）的动态信道访问方法能够在快速变化的干扰攻击下达到纳什均衡，但它需要大量的训练周期。为了解决这一问题，我们提出了一种基于“比干扰源学得更快”的直觉的快速自适应抗干扰信道访问方法，其中同步更新的粗粒度频谱预测作为基于深度Q学习（DQN）的抗干扰模型的辅助任务。这有助于模型相比标准DRL识别出更优秀的Q函数，并显著减少了训练周期的数量。数值结果表明，所提出的方法显著加快了模型训练的收敛速度，与标准DRL相比，所需的训练周期可减少多达70%。此外，它还能通过有效使用粗粒度频谱预测实现吞吐量10%的提升，优于NE策略。