LLM2D

摘要

arXiv:2505.02640v1 类型: cross 摘要：物联网(IoT)系统越来越多地在设备必须实时响应同时管理不断变化的资源限制(包括能量和带宽)的环境中运行。然而，当前的方法在处理随时间演变的操作约束场景时往往不够有效。为了应对这些限制，我们提出了一种专为具有动态操作限制的物联网应用设计的新颖预算化多臂老虎机框架。我们的模型引入了一个衰减的违规预算，允许在学习过程早期有限的约束违规，并逐渐在时间上加强合规性。我们提出了预算化的上确信边界(Upper Confidence Bound, UCB)算法，该算法能够自适应地在性能优化和随时间变化的约束条件下的合规性之间进行平衡。我们提供了理论保证，证明了预算化的UCB算法在整个学习时间范围内实现了亚线性后悔和对数级约束违规。在无线通信场景下的广泛模拟表明，我们的方法比标准的在线学习方法能够更快地适应并更好地满足约束条件。这些结果突显了该框架在构建适应性强、资源感知型物联网系统方面的潜力。