LLM2D

摘要

arXiv:2411.11911v2 宣告类型: replace-cross 摘要：预见未来事件的多模态性为安全自主驾驶奠定了基础。然而，由于缺乏多模态的 ground truth，交通代理的多模态运动预测受到了阻碍。现有工作主要采用胜者全取的训练策略来应对这一挑战，但仍然受到轨迹多样性受限和模式置信度未校准的限制。虽然一些方法通过生成大量的轨迹候选来解决这些限制，但它们需要一个后处理阶段来识别最具代表性的模式，这一过程缺乏普遍原则，从而损害了轨迹准确性。因此，我们引入了 ModeSeq，一种新的多模态预测范式，将模式建模为序列。与一次性解码多个可能轨迹的常见做法不同，ModeSeq 要求运动解码器逐步推断下一个模式，从而更明确地捕捉模式之间的相关性，显著增强了对多模态性的推理能力。借助序列模式预测的归纳偏置，我们还提出了 Early-Match-Take-All (EMTA) 训练策略，以进一步多样化轨迹。无需依赖密集模式预测或启发式后处理，ModeSeq 显著提高了多模态输出的多样性，同时保持了满意的轨迹准确性，结果在运动预测基准上取得了均衡的表现。此外，ModeSeq 自然具备模式外推能力，当未来高度不确定时，它支持预测更多的行为模式。