LLM2D

摘要

arXiv:2503.20824v1 宣称类型: cross 摘要: 视频语义分割（VSS）在理解场景的时空演化中发挥着重要作用。传统方法通常逐帧或在短时间内对视频进行分割，导致有限的时空上下文、冗余计算和高内存需求。为了解决这些问题，我们引入了Temporal Video State Space Sharing (TV3S) 架构，利用Mamba状态空间模型实现时空特征共享。我们的模型具备选择性门控机制，可以高效地在视频帧之间传播相关信息，从而省去了内存密集型特征池的需求。通过独立处理空间补丁并结合移位操作，TV3S 在训练和推理阶段支持高度并行计算，这减少了序列状态空间处理中的延迟，提高了长视频序列的可扩展性。此外，在推理过程中，TV3S 利用前几帧的信息，实现长时间范围的时空一致性并具备对长序列的优越适应性。在VSPW和Cityscapes数据集上的评估显示，我们的方法超越了当前最先进的方法，为VSS 设立了新的标准，并在长视频序列中取得了稳定的结果。通过在准确性和效率之间取得良好平衡，TV3S 显著推进了时空建模，为高效视频分析铺平了道路。代码可公开访问 https://github.com/Ashesham/TV3S.git。