LLM2D

摘要

arXiv:2409.12716v1 公告类型: 交叉摘要: 自动驾驶车辆的导航是人工智能领域的一个关键挑战，需要强大且准确的决策过程。本研究提出了一种新的端到端方法，利用单目摄像头的多模态信息来提高自动驾驶汽车的转向预测。与传统模型不同，传统模型需要多个传感器，这些传感器可能成本高且复杂，或者仅依赖于在不同条件下可能不够鲁棒的RGB图像，我们的模型显著提高了从单一视觉传感器进行车辆转向预测的性能。通过专注于RGB图像与深度补全信息或光流数据的融合，我们提出了一种综合框架，通过早期融合和混合融合技术整合这些模态。我们使用三种不同的神经网络模型来实现我们的方法：卷积神经网络-神经电路策略（CNN-NCP）、变分自编码器-长短期记忆（VAE-LSTM）和神经电路策略架构VAE-NCP。通过将光流纳入决策过程，我们的方法显著推进了自动驾驶导航。使用波士顿驾驶数据的比较研究结果表明，我们的模型集成了图像和运动信息，具有鲁棒性和可靠性。它优于不使用光流的现有最先进方法，将转向估计误差减少了31%。这展示了光流数据与先进的神经网络架构（用于数据融合的基于CNN的结构和用于从潜在空间推断命令的基于递归的网络）相结合，以提高自动驾驶车辆转向估计性能的潜力。