LLM2D

摘要

arXiv:2409.15688v2 宣告类型: 替换-交叉摘要：随着自动化消化内窥镜检查（RDE）的应用越来越多，确保在不规则且狭窄的消化道中安全高效地导航已成为一个重要挑战。现有的自动化强化学习导航算法常常由于缺乏必要的手动干预而导致潜在的风险碰撞，这显著限制了RDE在实际临床实践中的安全性和有效性。为了解决这一局限性，我们提出了一种基于人类干预（HI）的近端策略优化（PPO）框架，称为HI-PPO，该框架结合了专家知识以增强RDE的安全性。具体而言，HI-PPO 结合了增强探索机制（EEM）、奖励惩罚调整（RPA）和行为克隆相似性（BCS），以解决PPO在复杂消化道环境中进行安全导航的探索效率问题。在模拟平台上进行了比较实验，结果显示HI-PPO 的平均轨迹误差（ATE, Average Trajectory Error）为 \(8.02 \ \text{mm}\)，安全评分为 \(0.862\)，表明其性能与人类专家相当。一旦这篇论文发表，代码将公开发布。