LLM2D

摘要

基于数字地图的导航服务蓬勃发展，为驾驶员带来了极大的便利。然而，车道渲染地图图像中异常的存在偶尔会带来潜在的危险，因为这些异常可能会误导人类驾驶员，从而导致不安全的驾驶状况。为了解决这个问题并准确有效地检测异常，本文将车道渲染图像异常检测转化为一个分类问题，并提出一个由数据预处理、使用掩码图像建模 (MiM) 方法的自监督预训练、使用带标签平滑的交叉熵损失的定制微调以及后处理四个阶段组成的流水线来解决这个问题，该流水线利用了最先进的深度学习技术，特别是那些涉及 Transformer 模型的技术。各种实验验证了该流水线的有效性。结果表明，该流水线在车道渲染图像异常检测方面表现出优越的性能，值得注意的是，使用 MiM 的自监督预训练可以大大提高检测精度，同时显著减少总训练时间。例如，采用 Swin Transformer 与均匀掩码作为自监督预训练 (Swin-Trans-UM) 的方法，准确率达到了 94.77%，曲线下面积 (AUC) 得分提高到了 0.9743，而未经预训练的纯 Swin Transformer (Swin-Trans) 的准确率为 94.01%，AUC 为 0.9498。微调轮数从原来的 280 轮大幅减少到 41 轮。总之，该流水线结合了使用 MiM 的自监督预训练和其他先进的深度学习技术，成为提高数字导航系统中车道渲染图像异常检测的准确性和效率的强大解决方案。