LLM2D
利用时间域状态空间共享进行视频语义分割
Exploiting Temporal State Space Sharing for Video Semantic Segmentation
作者: Syed Ariff Syed Hesham, Yun Liu, Guolei Sun, Henghui Ding, Jing Yang, Ender Konukoglu, Xue Geng, Xudong Jiang
发布日期: 3/28/2025
arXiv ID: oai:arXiv.org:2503.20824v1

摘要

arXiv:2503.20824v1 宣称类型: cross 摘要: 视频语义分割(VSS)在理解场景的时空演化中发挥着重要作用。传统方法通常逐帧或在短时间内对视频进行分割,导致有限的时空上下文、冗余计算和高内存需求。为了解决这些问题,我们引入了Temporal Video State Space Sharing (TV3S) 架构,利用Mamba状态空间模型实现时空特征共享。我们的模型具备选择性门控机制,可以高效地在视频帧之间传播相关信息,从而省去了内存密集型特征池的需求。通过独立处理空间补丁并结合移位操作,TV3S 在训练和推理阶段支持高度并行计算,这减少了序列状态空间处理中的延迟,提高了长视频序列的可扩展性。此外,在推理过程中,TV3S 利用前几帧的信息,实现长时间范围的时空一致性并具备对长序列的优越适应性。在VSPW和Cityscapes数据集上的评估显示,我们的方法超越了当前最先进的方法,为VSS 设立了新的标准,并在长视频序列中取得了稳定的结果。通过在准确性和效率之间取得良好平衡,TV3S 显著推进了时空建模,为高效视频分析铺平了道路。代码可公开访问 https://github.com/Ashesham/TV3S.git。