LLM2D
ModeSeq: 通过顺序模式建模控制稀疏多模态运动预测
ModeSeq: Taming Sparse Multimodal Motion Prediction with Sequential Mode Modeling
作者: Zikang Zhou, Hengjian Zhou, Haibo Hu, Zihao Wen, Jianping Wang, Yung-Hui Li, Yu-Kai Huang
发布日期: 3/25/2025
arXiv ID: oai:arXiv.org:2411.11911v2

摘要

arXiv:2411.11911v2 宣告类型: replace-cross 摘要:预见未来事件的多模态性为安全自主驾驶奠定了基础。然而,由于缺乏多模态的 ground truth,交通代理的多模态运动预测受到了阻碍。现有工作主要采用胜者全取的训练策略来应对这一挑战,但仍然受到轨迹多样性受限和模式置信度未校准的限制。虽然一些方法通过生成大量的轨迹候选来解决这些限制,但它们需要一个后处理阶段来识别最具代表性的模式,这一过程缺乏普遍原则,从而损害了轨迹准确性。因此,我们引入了 ModeSeq,一种新的多模态预测范式,将模式建模为序列。与一次性解码多个可能轨迹的常见做法不同,ModeSeq 要求运动解码器逐步推断下一个模式,从而更明确地捕捉模式之间的相关性,显著增强了对多模态性的推理能力。借助序列模式预测的归纳偏置,我们还提出了 Early-Match-Take-All (EMTA) 训练策略,以进一步多样化轨迹。无需依赖密集模式预测或启发式后处理,ModeSeq 显著提高了多模态输出的多样性,同时保持了满意的轨迹准确性,结果在运动预测基准上取得了均衡的表现。此外,ModeSeq 自然具备模式外推能力,当未来高度不确定时,它支持预测更多的行为模式。