LLM2D

摘要

强化学习（RL）应用于医疗保健可能会导致不安全的医疗决策和治疗，例如剂量过大或突然改变，这通常是由于代理忽略了常识约束。因此，约束强化学习 (CRL) 是安全决策的自然选择。然而，在医疗保健中指定精确的成本函数本质上是困难的。最近的逆约束强化学习 (ICRL) 是一种很有前景的方法，它从专家演示中推断约束。ICRL 算法在交互式环境中对马尔可夫决策进行建模。这些设置与医疗保健中决策系统的实际要求不一致，在医疗保健中，决策依赖于离线数据集中记录的历史治疗。为了解决这些问题，我们提出了约束转换器 (CT)。具体来说，1) 我们利用因果注意机制将历史决策和观察纳入约束建模，同时使用非马尔可夫层对加权约束进行建模，以捕获关键状态。2) 使用生成式世界模型来执行探索性数据增强，使离线 RL 方法能够模拟不安全的决策序列。在多个医疗场景中，实证结果表明 CT 可以捕获不安全状态并实现接近较低死亡率的策略，从而降低不安全行为发生的概率。