LLM2D

摘要

现代车辆配备了传感器和摄像头等多种信息收集设备，持续生成大量原始数据。准确预测周围车辆的轨迹是理解复杂驾驶环境的重要组成部分。然而，训练轨迹预测模型面临着两方面的挑战。处理大规模数据计算量大。此外，简单-中等驾驶场景通常在数据集中占主导地位，而复杂驾驶场景（如密集交通）的代表性不足。例如，在 Argoverse 运动预测数据集中，包含 $\ge 50$ 个代理的实例非常少，而包含 $10 \thicksim 20$ 个代理的场景则更为常见。为了减轻过度代表的驾驶场景中的数据冗余，并减少复杂场景数据稀缺导致的偏差，本文提出了一种基于核心集选择的新型数据高效训练方法。该方法策略性地选择了一个小而具有代表性的数据子集，同时平衡了不同场景难度的比例。据我们所知，我们是第一个提出能够有效压缩大规模轨迹数据集的方法，同时实现最先进的压缩率。值得注意的是，即使只使用 50% 的 Argoverse 数据集，模型也可以在性能几乎没有下降的情况下进行训练。此外，选定的核心集保持了良好的泛化能力。