LLM2D

摘要

在视频对话响应生成领域，理解视频内容和对话历史的时间细微差别至关重要。虽然当前研究的一部分严重依赖于大规模预训练的视觉语言模型，而往往忽略了时间动态，但另一部分则深入研究了视频中的时空关系，但需要复杂的物体轨迹预提取，并忽略了对话时间动态。本文介绍了双时间接地增强视频对话模型 (DTGVD)，旨在策略性地融合两种主流方法的优势。它强调双重时间关系，通过预测对话回合特定的时间区域，相应地过滤视频内容，并将响应接地到视频和对话语境中。DTGVD 的一个突出特点是它对时间相互作用的高度关注。通过识别和利用不同对话回合之间的依赖关系，它捕捉到更细微的对话动态。为了进一步增强视频和对话时间动态之间的对齐，我们实施了一种列表式对比学习策略。在这个框架内，准确接地的回合剪辑对被指定为正样本，而不太精确的配对被归类为负样本。这种细化的分类然后被引导到我们整体的端到端响应生成机制中。使用 AVSD@DSTC-7 和 AVSD@DSTC-8 数据集进行的评估强调了我们方法的优越性。