摘要
孕产妇死亡率仍然是全球公共卫生面临的重大挑战。减少设施内分娩期间发生的孕产妇死亡的一种有希望的方法是通过早期预警系统,这需要在分娩后持续监测产妇的生命体征。无线生命体征监测设备为持续监测提供了一种省力的解决方案,但其稀缺性引发了一个关键问题,即如何最有效地分配这些设备。我们通过将该问题建模为流行的无休止多臂老虎机 (RMAB) 范式的变体,为该问题设计了一种分配算法。在此过程中,我们识别并解决了该领域独有的、以前未研究过的约束条件,这些约束条件使得以前的 RMAB 方法不适用,并显著增加了学习和规划问题的复杂性。为了克服这些挑战,我们采用了来自强化学习的流行近端策略优化 (PPO) 算法,通过训练策略和价值函数网络来学习分配策略。我们在模拟中证明,我们的方法比最佳启发式基线方法的性能提高了高达 4 倍。