摘要
arXiv:2505.05467v1 交叉类型公告
摘要:我们提出了StreamBridge,这是一个简单而有效的框架,可以无缝地将离线视频大模型(Video-LLMs)转换为支持流式传输的模型。它解决了将现有模型适应在线场景过程中遇到的两个基本挑战:(1)有限的多轮实时理解能力,和(2)缺乏主动响应机制。具体来说,StreamBridge 包含(1)一个内存缓冲区结合圆形衰减压缩策略,支持长上下文多轮交互,以及(2)一个解耦、轻量级的激活模型,可以轻松集成到现有的 Video-LLMs 中,从而使模型能够连续进行主动响应。为了进一步支持 StreamBridge,我们构建了 Stream-IT,这是一个专为流式视频理解设计的大规模数据集,包含交错的视频-文本序列和多样的指令格式。广泛的实验表明,StreamBridge 显著提高了离线 Video-LLMs 在各种任务中的流式理解能力,甚至优于专有模型如 GPT-4o 和 Gemini 1.5 Pro。同时,在标准视频理解基准测试中,它也实现了竞争或更优的性能。