LLM2D
多轮多模态问题澄清以增强对话理解
Multi-Turn Multi-Modal Question Clarification for Enhanced Conversational Understanding
作者: Kimia Ramezan, Alireza Amiri Bavandpour, Yifei Yuan, Clemencia Siro, Mohammad Aliannejadi
发布日期: 2/18/2025
arXiv ID: oai:arXiv.org:2502.11442v1

摘要

arXiv:2502.11442v1 交叉公告类型 摘要:会话查询澄清能够通过互动对话让用户细化其搜索查询,从而提高搜索效果。传统的方法依赖于基于文本的澄清问题,这些方法往往难以捕捉复杂用户的偏好,尤其是那些涉及视觉属性的偏好。虽然最近的研究探索了结合图像和文本的单回合多模态澄清方法,但这些方法并没有完全支持用户意图在多次回合中的逐步细化。鉴于此,我们引入了多回合多模态澄清问题(MMCQ)任务,该任务将文本和视觉模态结合起来,在多回合对话中细化用户查询。为了促进这一任务,我们创建了一个名为ClariMM的大规模数据集,包含超过13000个回合互动和33000个包含多模态澄清问题的问题-答案对。我们提出了Mario,一个检索框架,采用两阶段排名策略:初始检索使用BM25,然后是一个多模态生成重新排名模型,该模型结合了会话历史中的文本和视觉信息。我们的实验表明,多回合多模态澄清方法优于单一模态和单回合方法,MRR提高了12.88%。对于更长的交互,这些增益尤为显著,这表明逐步细化对复杂查询的价值。