LLM2D

摘要

arXiv:2504.13647v1 类别: cross 摘要: 服务型移动机器人在执行任务时通常需要避免动态物体，但它们通常只有有限的计算资源。因此，我们提出了一种轻量级多模态框架，用于3D物体检测和轨迹预测。我们的系统协同整合了激光雷达和摄像头输入，以在3D空间中实现实时感知行人、车辆和骑手。该框架提出了两个新的模块：1）一种交叉模态可变形变换器（CMDT），用于在较高准确率和可接受的计算量下进行物体检测；2）一种基于参考轨迹的多类别变换器（RTMCT），用于高效且多样的多类别物体轨迹预测，具有灵活的轨迹长度。在CODa基准上的评估表明，与现有方法相比，在检测（mAP提高2.03%）和行人轨迹预测（最小ADE5减少0.408米）指标上表现出更优的性能。值得注意的是，该系统显示出出色的部署能力——当在配备NVIDIA 3060 GPU 的轮椅机器人上实现时，它能够实现实时推理，帧率为13.2 fps。为了促进可重复性和实际部署，我们在https://github.com/TossherO/3D_Perception 和 https://github.com/TossherO/ros_packages发布了该方法的相关代码和 ROS 推理版本。