LLM2D

摘要

arXiv:2502.06843v1 Announce Type: cross 摘要：传统自动驾驶系统在处理复杂且意料之外的情况时，由于对空间关系的理解有限，经常难以进行推理。为此，本研究提出了一种基于大型语言模型（LLM）的自动驾驶（AD）辅助系统，该系统集成了视觉适配器和LLM推理模块，以增强视觉理解和决策能力。视觉适配器将YOLOv4与视觉变换器（ViT）结合，提取全面的视觉特征，而GPT-4则实现了类似人类的空间推理和响应生成。实验评估使用了45名经验丰富的驾驶员，结果显示该系统在描述情况方面接近人类表现，在生成适当响应方面与人类决策有一定的对齐。