LLM2D

摘要

个性化医疗决策过程中的核心要素是准确诊断患者病情和制定适当的药物剂量策略。这种治疗过程，涉及递归评估患者状况并给予适当药物，可以有效地建模为强化学习（RL）问题。关键在于，RL在此背景下的成功取决于建立一个能够准确代表最佳治疗策略的明确奖励函数。然而，仅凭有限的一组显性指标来定义RL中的学习方向，由于所需领域知识的内在复杂性，使得任务变得复杂。这种方法还可能增加RL策略无法充分反映临床医生治疗意图的可能性，这些意图是通过考虑各种情况和指标来确定的。在本研究中，我们专注于开发一个反映临床医生意图的奖励函数，并引入离线模型引导的奖励学习（OMG-RL），该方法在离线RL环境中执行离线逆强化学习（IRL）。通过OMG-RL，我们从有限数据中学习包含专家意图的参数化奖励函数，从而增强代理的策略。我们在肝素剂量任务中验证了所提出的方法。结果表明，通过OMG-RL进行策略学习是有意义的，并确认在学习策略中，活化部分凝血活酶时间（aPTT）这一监测肝素效果的关键指标得到了积极强化。这种方法不仅可用于肝素剂量问题，还可广泛应用于基于RL的药物剂量任务。