LLM2D

摘要

随着自动化机器人消化内镜 (RDE) 的应用日益广泛，如何在无结构且狭窄的消化道中确保安全高效的导航成为一项关键挑战。现有的基于强化学习的自动导航算法，由于缺乏必要的专家干预，往往会导致潜在的风险碰撞，这极大地限制了 RDE 在实际临床实践中的安全性和有效性。为了克服这一局限性，我们提出了一种基于人类干预 (HI) 的近端策略优化 (PPO) 框架，称为 HI-PPO，该框架将专家知识融入其中，以增强 RDE 的安全性。具体来说，我们引入了一种增强的探索机制 (EEM) 来解决标准 PPO 的低探索效率问题。此外，还实施了奖励惩罚调整 (RPA) 来惩罚初始干预期间的不安全操作。此外，还将行为克隆相似性 (BCS) 作为辅助目标，以确保代理模拟专家操作。在模拟平台上对各种解剖学结肠段进行的比较实验表明，我们的模型能够有效且安全地引导 RDE。