LLM2D

摘要

自适应脑刺激可以通过影响异常的神经活动来治疗帕金森病和中风后运动缺陷等神经系统疾病。由于患者的异质性，每位患者都需要独特的刺激策略才能获得最佳的神经反应。无模型强化学习 (MFRL) 在学习各种类似控制任务的有效策略方面具有前景，但在脑刺激等领域受到需要大量代价高昂的环境交互的限制。在这项工作中，我们介绍了协处理器参与者评论家，这是一种新颖的基于模型的强化学习 (MBRL) 方法，用于学习用于脑刺激的神经协处理器策略。我们的关键见解是，协处理器策略学习是学习如何在世界上最佳行动以及学习如何通过刺激受损大脑在世界上诱导最佳行动的结合。我们证明了我们的方法在样本效率和任务成功方面克服了传统 MFRL 方法的局限性，并在神经学上逼真的受损大脑模型中优于基线 MBRL 方法。