LLM2D

摘要

下一代无线网络，6G 及其未来，设想将通信与感知相结合，以克服干扰，提高频谱效率，并降低硬件和功耗。基于大规模多输入多输出 (mMIMO) 的联合通信与感知 (JCAS) 系统实现了 6G 应用（例如自动驾驶）中的这种集成，因为它需要准确的环境感知和与附近车辆的实时通信。现有的文献中使用强化学习 (RL) 来进行 mMIMO 天线波束成形。然而，与天线波束成形相关的动作搜索空间巨大，导致 RL 智能体的学习过程效率低下，因为波束训练开销很高。学习过程没有考虑动作空间与奖励之间的因果关系，并且对所有动作赋予同等重要性。在这项工作中，我们探索了一种因果感知的 RL 智能体，它可以在训练阶段干预并发现基于 mMIMO 的 JCAS 环境的因果关系。我们使用状态相关的动作维数选择策略来实现基于 RL 的 JCAS 的因果发现。在不同 JCAS 场景中对因果感知 RL 框架的评估表明，我们提出的框架在波束成形增益方面优于基线方法。