摘要
arXiv:2505.01712v1 通告类型: 新
摘要: 传统的基于强化学习(RL)的无线网络学习方法依赖于昂贵的试错机制和基于大量环境交互的实时反馈,这导致数据效率低和短视的策略。这些限制在具有高不确定性及长期规划需求的复杂动态网络中尤为突出。为解决这些限制,本文提出了一种新颖的基于世界模型的学习框架,以最小化车联网中的数据完整性感知信息龄值(CAoI)。特别是,考虑了一个具有挑战性的代表性场景,该场景涉及毫米波(mMWave)车辆对万物(V2X)通信网络,该网络的特点是高移动性、频繁的信号遮挡以及极其短的相干时间。然后,提出了一个世界模型框架,以共同学习毫米波V2X环境的动态模型,并利用该模型想象轨迹以学习如何进行链路调度。特别是,长期策略在可微想象轨迹中而不是在环境交互中学习。此外,由于其想象能力,世界模型能够联合预测时间变化的无线数据并优化实际无线和V2X网络中的链路调度。因此,在没有实际观测的间隔期间,世界模型依然能够做出有效的决策。在基于Sionna的现实模拟器上进行了大量实验,该模拟器集成了基于物理的端到端信道建模、射线跟踪和材料特性以及场景几何结构。仿真结果显示,所提出的世界模型在数据效率上取得了显著改进,相比于基于模型的RL(MBRL)方法和基于经验的RL(MFRL)方法,分别在CAoI上实现了26%和16%的改进。