LLM2D

摘要

arXiv:2504.03235v1 交叉通知类型：摘要：在长时段监视视频中检测交通事故对于紧急响应和基础设施规划至关重要，但由于交通事故事件短暂且罕见，这一任务仍然极具挑战性。我们提出了HybridMamba，这是一种将视觉变换器与状态空间时间建模相结合的新架构，以实现准确的事故时间定位。我们的方法通过多级标记压缩和分层次的时间处理，在保持计算效率的同时不牺牲时间分辨率。在爱荷华州交通运输部的大规模数据集上进行评估，HybridMamba达到1.50秒的平均绝对误差，其中65.2%的预测与真实值相差不到1秒。与TimeChat和VideoLLaMA2等近期的视频-语言模型相比，它在性能上高出2.8秒，同时使用的参数显著减少。我们的结果表明，HybridMamba在各种条件下的2到40分钟视频中具有强大的普遍适用性。HybridMamba为交通监视中的细粒度时间定位提供了一个稳健且高效的解决方案。代码将在发表后发布。