LLM2D

摘要

arXiv:2502.11304v1 通知类型: 新摘要：一种稳健且高效的交通监控系统对于智慧城市和智能交通系统（ITS）至关重要，它利用传感器和摄像头追踪车辆移动、优化交通流量、缓解交通拥堵、提升道路安全并实现实时自适应交通控制。交通监控模型必须全面理解动态城市状况，并提供直观的用户界面以促进有效的管理。本研究利用LLaVA视觉定位多模态大语言模型（LLM）在实时Quanser Interactive Lab仿真平台上进行交通监控任务，涵盖了交叉口、拥堵和碰撞等场景。位于城市多个位置的摄像头收集实时仿真图像，并将这些图像与查询一起输入到LLaVA模型中进行分析。集成到摄像头中的实例分割模型突出显示关键元素，如车辆和行人，以提高训练效率和吞吐量。该系统在识别车辆位置方面实现了84.3%的准确率，在确定转向方向方面实现了76.4%的准确率，优于传统模型。