LLM2D

摘要

arXiv:2502.00045v1 交叉类型: cross 摘要: 市政检查是保持商品和服务质量的重要组成部分。本文旨在通过以芝加哥餐厅检查为例，探讨如何智能地安排服务检查以最大化其影响。芝加哥卫生局 (CDPH) 每年对数千家机构进行检查，失败率相当高（2023年超过3000份失败检查报告）。为了确保遵守指导方针，尽量减少对机构的干扰，以及减少检查成本，CDPH 每年为每个机构分配一个检查窗口，并保证该窗口内对其进行一次检查。这些约束条件为无固定兴趣臂 bandit (RMAB) 方法带来了挑战，目前尚无现有方法可以解决。我们开发了一种扩展的 Whittle 索引系统，可以保证动作窗口约束和频率，并且可以进一步用于优化动作窗口分配本身。简而言之，我们结合马尔可夫决策过程 (MDP) 重写和基于整数规划的前瞻策略，以满足约束条件下最大化检查的影响。我们开发了一个基于神经网络的监督学习模型，使用公共 CDPH 检查记录来模拟真实芝加哥机构的状态转换，这相比直接预测机构的失败，显示出了10%的AUC改进。我们的实验不仅证明了我们的方法在模拟中可带来高达24%或在真实数据中高达33%的奖励改进，而且还揭示了调度约束的影响。