LLM2D

摘要

arXiv:2502.11442v1 交叉公告类型摘要：会话查询澄清能够通过互动对话让用户细化其搜索查询，从而提高搜索效果。传统的方法依赖于基于文本的澄清问题，这些方法往往难以捕捉复杂用户的偏好，尤其是那些涉及视觉属性的偏好。虽然最近的研究探索了结合图像和文本的单回合多模态澄清方法，但这些方法并没有完全支持用户意图在多次回合中的逐步细化。鉴于此，我们引入了多回合多模态澄清问题（MMCQ）任务，该任务将文本和视觉模态结合起来，在多回合对话中细化用户查询。为了促进这一任务，我们创建了一个名为ClariMM的大规模数据集，包含超过13000个回合互动和33000个包含多模态澄清问题的问题-答案对。我们提出了Mario，一个检索框架，采用两阶段排名策略：初始检索使用BM25，然后是一个多模态生成重新排名模型，该模型结合了会话历史中的文本和视觉信息。我们的实验表明，多回合多模态澄清方法优于单一模态和单回合方法，MRR提高了12.88%。对于更长的交互，这些增益尤为显著，这表明逐步细化对复杂查询的价值。