LLM2D

摘要

具有强大推理能力的深度学习架构推动了自动驾驶技术的重大进步。应用于该领域的**大型语言模型 (LLM)** 能够以与人类感知相似的精度描述驾驶场景和行为，尤其是在视觉任务方面。与此同时，边缘计算的快速发展，凭借其靠近数据源的优势，使边缘设备在自动驾驶中变得越来越重要。边缘设备在本地处理数据，减少了传输延迟和带宽使用，并实现了更快的响应时间。在这项工作中，我们提出了一种将 LLM 应用于边缘设备的驾驶行为叙述和推理框架。该框架由多个路边单元组成，每个单元上都部署了 LLM。这些路边单元收集道路数据并通过 5G NSR/NR 网络进行通信。我们的实验表明，部署在边缘设备上的 LLM 可以实现令人满意的响应速度。此外，我们提出了一种提示策略来增强系统的叙述和推理性能。该策略整合了多模态信息，包括环境、代理和运动数据。在 OpenDV-Youtube 数据集上进行的实验表明，我们的方法在两种任务上都显著提高了性能。