LLM2D
一语贯通:语言指导的视频推理分割
One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos
作者: Zechen Bai, Tong He, Haiyang Mei, Pichao Wang, Ziteng Gao, Joya Chen, Lei Liu, Zheng Zhang, Mike Zheng Shou
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2409.19603v1

摘要

我们介绍了 VideoLISA,一个基于视频的多模态大型语言模型,旨在解决视频中语言指导推理分割问题。利用大型语言模型的推理能力和世界知识,并通过 Segment Anything 模型增强,VideoLISA 根据语言指令在视频中生成时间一致的分割掩码。现有的基于图像的方法,例如 LISA,由于额外的时态维度而难以处理视频任务,这需要时态动态理解和跨帧一致的分割。VideoLISA 通过将稀疏密集采样策略集成到视频-LLM 中来解决这些挑战,该策略在计算约束下平衡了时态上下文和空间细节。此外,我们提出了一种使用专门设计的标记的 One-Token-Seg-All 方法,使模型能够跨多个帧分割和跟踪物体。在各种基准测试(包括我们新引入的 ReasonVOS 基准测试)上的大量评估表明,VideoLISA 在涉及复杂推理、时态理解和物体跟踪的视频物体分割任务中表现出色。虽然 VideoLISA 专为视频优化,但它也显示出对图像分割的有希望的泛化能力,揭示了它作为语言指导物体分割的统一基础模型的潜力。代码和模型将在以下地址提供:https://github.com/showlab/VideoLISA。