LLM2D

摘要

arXiv:2505.00918v1 Announce Type: cross 摘要：近几十年来，由于物联网设备在智能健康监测系统、智能城市和环境监测等方面具有广泛的应用，物联网设备的数量迅速增加。在物联网网络中，一个至关重要的任务是在网络上进行感知并传输信息。物联网节点通过感知环境收集数据，然后通过多跳通信将这些数据传输到目的地节点，遵循一些路由协议。这些协议通常被设计用来优化可能相互矛盾的目标，例如最大化分组投递比和能效。虽然大多数文献都集中在优化一个静态目标，这个目标不会改变，但许多实际的物联网应用需要适应快速变化的优先级。例如，在监测系统中，一些传输是时间敏感的，需要在低延迟上获得高优先级，而其他传输则不那么急迫，反而更注重能效。为了满足这些动态需求，我们提出了基于多目标Q学习的新型动态和分布式路由方法，可以实时适应优先级的变化。我们的算法结合了多目标优化和Q学习的理念。我们还提出了一种新颖的贪婪内插策略方案，用于对意外的变化优先级做出近乎最优的决策。提出的方案可以逼近并利用动态优先级下的帕累托有效解，因此可以利用过去的知识快速适应运行时不可预测的优先级变化。仿真结果表明，对于各种探索策略、偏好变化模式以及诸如总体奖励、能效和分组投递比等重要指标，所提出的方案优于当前最先进的算法。