摘要
arXiv:2502.05887v1 Announce Type: cross
摘要:理解时间动态对于会话代理至关重要,它能够促进有效的内容分析和基于信息的决策。然而,特别是对于依据角色的对话来说,具备时间意识的数据集仍然有限,这限制了它们的应用范围并降低了其复杂性。为了填补这一空白,我们引入了MTPChat,这是一个多模态、时间意识的角色对话数据集,它在对话和角色记忆中整合了语言、视觉和时间元素。借助MTPChat,我们提出了两种时间敏感任务:时间敏感的下一个响应预测(TNRP)和时间敏感的接地记忆预测(TGMP),这两项任务都是为了评估模型理解隐含时间线索和动态交互的能力。此外,我们还提出了一种创新框架,该框架包含一个自适应时间模块,能够有效地整合多模态流并捕捉时间依赖性。实验结果验证了MTPChat带来的挑战,并展示了我们框架在多模态时间敏感场景中的有效性。