摘要
arXiv:2503.13444v2 通告类型: replace-cross
摘要:视频因其独特的时序维度,要求精确的视听接地理解,其中答案直接与可解析的视觉证据相关联。尽管大型语言模型在推理能力方面取得了重大突破,但多模态推理,特别是视频推理,仍然未被探索。在本文中,我们介绍了VideoMind,一种用于时序可视化理解的创新视频语言代理。VideoMind 包含两项关键创新:(i) 我们识别出视频时序推理的关键能力,并开发了一种基于角色的代理工作流程,包括调度器以协调不同角色、接地器以实现时序定位、验证器以评估时序间隔准确性以及回答者以进行问答。(ii) 为了高效地整合这些不同的角色,我们提出了一种新的 LoRA 链策略,通过轻量级 LoRA 适配器实现无缝的角色切换,同时避免了使用多个模型的负担,从而平衡了效率和灵活性。在包括3个视听接地视频问答(Grounded VideoQA)、6个视频时序定位(VTG)和5个通用视频问答(VideoQA)的14个公开基准测试上进行的广泛实验表明,我们的代理在各种视频理解任务中达到了最先进的性能,突显了其在推动视频代理和长时序推理方面的有效性。