LLM2D
REMOTE:基于多模态视觉特征学习的各类内窥镜实时自我运动跟踪
REMOTE: Real-time Ego-motion Tracking for Various Endoscopes via Multimodal Visual Feature Learning
作者: Liangjing Shao, Benshuang Chen, Shuting Zhao, Xinrong Chen
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2501.18124v2

摘要

arXiv:2501.18124v2 通告类型: 替换-交叉 摘要:内窥镜的实时自我运动跟踪是实现高效导航和内窥镜机器人自动化的重要任务。在本文中,提出了一种新的框架来实现内窥镜的实时自我运动跟踪。首先,提出了一种多模态视觉特征学习网络,用于执行相对位姿预测,在其中从光流中提取运动特征,从场景特性和两个相邻观测的联合特征中提取预测所需的特征。由于拼接图像在通道维度上有更多的相关性信息,设计了一种基于注意力机制的新特征提取器,以整合两个连续帧拼接后的多维信息。为了从融合特征中提取更完整的特征表示,提出了一种新的姿态解码器,用于预测框架末尾的拼接特征图所表示的姿态变换。最后,基于相对姿态计算内窥镜的绝对姿态。在三个不同内窥镜场景的数据集上进行了实验,结果显示所提出的方法超越了现有最先进的方法。此外,所提出方法的推理速度超过每秒30帧,满足实时要求。项目页面在此:remote-bmxs.netlify.app