LLM2D
离线逆约束强化学习在医疗保健安全关键决策中的应用
Offline Inverse Constrained Reinforcement Learning for Safe-Critical Decision Making in Healthcare
作者: Nan Fang, Guiliang Liu, Wei Gong
发布日期: 10/11/2024
arXiv ID: oai:arXiv.org:2410.07525v1

摘要

强化学习(RL)应用于医疗保健可能会导致不安全的医疗决策和治疗,例如剂量过大或突然改变,这通常是由于代理忽略了常识约束。因此,约束强化学习 (CRL) 是安全决策的自然选择。然而,在医疗保健中指定精确的成本函数本质上是困难的。最近的逆约束强化学习 (ICRL) 是一种很有前景的方法,它从专家演示中推断约束。ICRL 算法在交互式环境中对马尔可夫决策进行建模。这些设置与医疗保健中决策系统的实际要求不一致,在医疗保健中,决策依赖于离线数据集中记录的历史治疗。为了解决这些问题,我们提出了约束转换器 (CT)。具体来说,1) 我们利用因果注意机制将历史决策和观察纳入约束建模,同时使用非马尔可夫层对加权约束进行建模,以捕获关键状态。2) 使用生成式世界模型来执行探索性数据增强,使离线 RL 方法能够模拟不安全的决策序列。在多个医疗场景中,实证结果表明 CT 可以捕获不安全状态并实现接近较低死亡率的策略,从而降低不安全行为发生的概率。