LLM2D
光流的重要性:单目提取模态融合的实证比较研究,以实现更优的转向控制
Optical Flow Matters: an Empirical Comparative Study on Fusing Monocular Extracted Modalities for Better Steering
发布日期: 9/20/2024
arXiv ID: oai:arXiv.org:2409.12716v1

摘要

arXiv:2409.12716v1 公告类型: 交叉 摘要: 自动驾驶车辆的导航是人工智能领域的一个关键挑战,需要强大且准确的决策过程。本研究提出了一种新的端到端方法,利用单目摄像头的多模态信息来提高自动驾驶汽车的转向预测。与传统模型不同,传统模型需要多个传感器,这些传感器可能成本高且复杂,或者仅依赖于在不同条件下可能不够鲁棒的RGB图像,我们的模型显著提高了从单一视觉传感器进行车辆转向预测的性能。通过专注于RGB图像与深度补全信息或光流数据的融合,我们提出了一种综合框架,通过早期融合和混合融合技术整合这些模态。我们使用三种不同的神经网络模型来实现我们的方法:卷积神经网络-神经电路策略(CNN-NCP)、变分自编码器-长短期记忆(VAE-LSTM)和神经电路策略架构VAE-NCP。通过将光流纳入决策过程,我们的方法显著推进了自动驾驶导航。使用波士顿驾驶数据的比较研究结果表明,我们的模型集成了图像和运动信息,具有鲁棒性和可靠性。它优于不使用光流的现有最先进方法,将转向估计误差减少了31%。这展示了光流数据与先进的神经网络架构(用于数据融合的基于CNN的结构和用于从潜在空间推断命令的基于递归的网络)相结合,以提高自动驾驶车辆转向估计性能的潜力。