摘要
现代车辆配备了传感器和摄像头等多种信息收集设备,持续生成大量原始数据。准确预测周围车辆的轨迹是理解复杂驾驶环境的重要组成部分。然而,训练轨迹预测模型面临着两方面的挑战。处理大规模数据计算量大。此外,简单-中等驾驶场景通常在数据集中占主导地位,而复杂驾驶场景(如密集交通)的代表性不足。例如,在 Argoverse 运动预测数据集中,包含 $\ge 50$ 个代理的实例非常少,而包含 $10 \thicksim 20$ 个代理的场景则更为常见。为了减轻过度代表的驾驶场景中的数据冗余,并减少复杂场景数据稀缺导致的偏差,本文提出了一种基于核心集选择的新型数据高效训练方法。该方法策略性地选择了一个小而具有代表性的数据子集,同时平衡了不同场景难度的比例。据我们所知,我们是第一个提出能够有效压缩大规模轨迹数据集的方法,同时实现最先进的压缩率。值得注意的是,即使只使用 50% 的 Argoverse 数据集,模型也可以在性能几乎没有下降的情况下进行训练。此外,选定的核心集保持了良好的泛化能力。