LLM2D

摘要

arXiv:2503.13444v2 通告类型: replace-cross 摘要：视频因其独特的时序维度，要求精确的视听接地理解，其中答案直接与可解析的视觉证据相关联。尽管大型语言模型在推理能力方面取得了重大突破，但多模态推理，特别是视频推理，仍然未被探索。在本文中，我们介绍了VideoMind，一种用于时序可视化理解的创新视频语言代理。VideoMind 包含两项关键创新：(i) 我们识别出视频时序推理的关键能力，并开发了一种基于角色的代理工作流程，包括调度器以协调不同角色、接地器以实现时序定位、验证器以评估时序间隔准确性以及回答者以进行问答。(ii) 为了高效地整合这些不同的角色，我们提出了一种新的 LoRA 链策略，通过轻量级 LoRA 适配器实现无缝的角色切换，同时避免了使用多个模型的负担，从而平衡了效率和灵活性。在包括3个视听接地视频问答(Grounded VideoQA)、6个视频时序定位(VTG)和5个通用视频问答(VideoQA)的14个公开基准测试上进行的广泛实验表明，我们的代理在各种视频理解任务中达到了最先进的性能，突显了其在推动视频代理和长时序推理方面的有效性。