LLM2D

摘要

arXiv:2312.04398v5 Announce Type: replace-cross 摘要：蓬勃发展的使用数字地图的导航服务为驾驶员提供了极大的便利。然而，车道渲染图中偶尔会出现异常，这些异常可能会误导人类驾驶员，从而导致不安全的驾驶条件。为应对这一问题并准确有效地检测异常，本文将车道渲染图像异常检测转化为分类问题，并提出了一种四阶段流水线，包括数据预处理、利用掩蔽图像建模（MiM）方法进行自监督预训练、基于交叉熵损失并结合标签平滑进行定制化微调，以及利用先进的深度学习技术进行后处理，尤其是涉及Transformer模型的技术。各种实验验证了所提出流水线的有效性。结果表明，所提出流水线在车道渲染图像异常检测中表现出优越性能，尤其是利用MiM进行自监督预训练可以显著提高检测准确性，同时大幅减少总训练时间。例如，使用带有统一掩蔽的Swin Transformer进行自监督预训练（Swin-Trans-UM）相较于未经预训练的纯Swin Transformer（Swin-Trans）在准确性上提高了94.77%并获得了0.9743的改进的面积下曲线（AUC）评分，而后者在准确性上为94.01%并获得了0.9498的AUC评分。微调的 epoch 数量从原来的280显著减少到41。总之，所提出流水线通过集成MiM等自监督预训练技术和其他先进的深度学习技术，成为增强数字导航系统中车道渲染图像异常检测准确性和效率的稳健解决方案。