摘要
arXiv:2502.06843v1 Announce Type: cross
摘要:传统自动驾驶系统在处理复杂且意料之外的情况时,由于对空间关系的理解有限,经常难以进行推理。为此,本研究提出了一种基于大型语言模型(LLM)的自动驾驶(AD)辅助系统,该系统集成了视觉适配器和LLM推理模块,以增强视觉理解和决策能力。视觉适配器将YOLOv4与视觉变换器(ViT)结合,提取全面的视觉特征,而GPT-4则实现了类似人类的空间推理和响应生成。实验评估使用了45名经验丰富的驾驶员,结果显示该系统在描述情况方面接近人类表现,在生成适当响应方面与人类决策有一定的对齐。