LLM2D
频率和窗口约束下的(restless 多臂-bandits 问题在公共服务检查中的应用)
Restless Multi-armed Bandits under Frequency and Window Constraints for Public Service Inspections
作者: Yi Mao, Andrew Perrault
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00045v1

摘要

arXiv:2502.00045v1 交叉类型: cross 摘要: 市政检查是保持商品和服务质量的重要组成部分。本文旨在通过以芝加哥餐厅检查为例,探讨如何智能地安排服务检查以最大化其影响。芝加哥卫生局 (CDPH) 每年对数千家机构进行检查,失败率相当高(2023年超过3000份失败检查报告)。为了确保遵守指导方针,尽量减少对机构的干扰,以及减少检查成本,CDPH 每年为每个机构分配一个检查窗口,并保证该窗口内对其进行一次检查。这些约束条件为无固定兴趣臂 bandit (RMAB) 方法带来了挑战,目前尚无现有方法可以解决。我们开发了一种扩展的 Whittle 索引系统,可以保证动作窗口约束和频率,并且可以进一步用于优化动作窗口分配本身。简而言之,我们结合马尔可夫决策过程 (MDP) 重写和基于整数规划的前瞻策略,以满足约束条件下最大化检查的影响。我们开发了一个基于神经网络的监督学习模型,使用公共 CDPH 检查记录来模拟真实芝加哥机构的状态转换,这相比直接预测机构的失败,显示出了10%的AUC改进。我们的实验不仅证明了我们的方法在模拟中可带来高达24%或在真实数据中高达33%的奖励改进,而且还揭示了调度约束的影响。