LLM2D

摘要

我们介绍了 VideoLISA，一个基于视频的多模态大型语言模型，旨在解决视频中语言指导推理分割问题。利用大型语言模型的推理能力和世界知识，并通过 Segment Anything 模型增强，VideoLISA 根据语言指令在视频中生成时间一致的分割掩码。现有的基于图像的方法，例如 LISA，由于额外的时态维度而难以处理视频任务，这需要时态动态理解和跨帧一致的分割。VideoLISA 通过将稀疏密集采样策略集成到视频-LLM 中来解决这些挑战，该策略在计算约束下平衡了时态上下文和空间细节。此外，我们提出了一种使用专门设计的标记的 One-Token-Seg-All 方法，使模型能够跨多个帧分割和跟踪物体。在各种基准测试（包括我们新引入的 ReasonVOS 基准测试）上的大量评估表明，VideoLISA 在涉及复杂推理、时态理解和物体跟踪的视频物体分割任务中表现出色。虽然 VideoLISA 专为视频优化，但它也显示出对图像分割的有希望的泛化能力，揭示了它作为语言指导物体分割的统一基础模型的潜力。代码和模型将在以下地址提供：https://github.com/showlab/VideoLISA。