LLM2D

摘要

在动态的人机混合环境中，预测周围代理的未来运动对于自动驾驶汽车（AV）的安全运行至关重要。然而，大规模驾驶数据集的稀缺阻碍了鲁棒且可泛化的运动预测模型的开发，限制了它们捕捉复杂交互和道路几何形状的能力。受自然语言处理（NLP）和计算机视觉（CV）最新进展的启发，自监督学习（SSL）在运动预测领域获得了极大关注，用于学习丰富且可迁移的场景表示。尽管如此，现有的运动预测预训练方法主要集中在特定的模型架构和单一数据集上，限制了它们的扩展性和泛化能力。为了应对这些挑战，我们提出了 SmartPretrain，这是一个通用的可扩展的 SSL 框架，用于运动预测，该框架既与模型无关，也与数据集无关。我们的方法整合了对比和重建 SSL，利用生成式和判别式范式的优势，有效地表示时空演化和交互，而无需施加架构约束。此外，SmartPretrain 采用了一种与数据集无关的场景采样策略，整合了多个数据集，增强了数据量、多样性和鲁棒性。在多个数据集上的大量实验表明，SmartPretrain 始终如一地提高了最先进预测模型在数据集、数据拆分和主要指标方面的性能。例如，SmartPretrain 将 Forecast-MAE 的 MissRate 显着降低了 10.6%。这些结果突出了 SmartPretrain 作为一种统一的可扩展的运动预测解决方案的有效性，打破了小数据机制的限制。代码可在 https://github.com/youngzhou1999/SmartPretrain 获得。