LLM2D
仅需接地?用于视频对话的双重时间接地
Grounding is All You Need? Dual Temporal Grounding for Video Dialog
作者: You Qin, Wei Ji, Xinze Lan, Hao Fei, Xun Yang, Dan Guo, Roger Zimmermann, Lizi Liao
发布日期: 10/10/2024
arXiv ID: oai:arXiv.org:2410.05767v1

摘要

在视频对话响应生成领域,理解视频内容和对话历史的时间细微差别至关重要。虽然当前研究的一部分严重依赖于大规模预训练的视觉语言模型,而往往忽略了时间动态,但另一部分则深入研究了视频中的时空关系,但需要复杂的物体轨迹预提取,并忽略了对话时间动态。本文介绍了双时间接地增强视频对话模型 (DTGVD),旨在策略性地融合两种主流方法的优势。它强调双重时间关系,通过预测对话回合特定的时间区域,相应地过滤视频内容,并将响应接地到视频和对话语境中。DTGVD 的一个突出特点是它对时间相互作用的高度关注。通过识别和利用不同对话回合之间的依赖关系,它捕捉到更细微的对话动态。为了进一步增强视频和对话时间动态之间的对齐,我们实施了一种列表式对比学习策略。在这个框架内,准确接地的回合剪辑对被指定为正样本,而不太精确的配对被归类为负样本。这种细化的分类然后被引导到我们整体的端到端响应生成机制中。使用 AVSD@DSTC-7 和 AVSD@DSTC-8 数据集进行的评估强调了我们方法的优越性。