摘要
arXiv:2504.00954v1 宣传类型:跨模态
摘要:跨模态检索系统正变得越来越重要,特别是在实体人工智能和人工智能驱动的数字内容行业中。然而,当前的跨模态检索任务缺乏足够的复杂性,实用性有限。这激励我们设计实例驱动的跨模态图像检索(IDMR),这是一个新颖的任务,要求模型检索包含与查询图像相同实例的同时匹配文本描述的场景图像。不同于现有的主要关注全局图像相似性或类别匹配的检索任务,IDMR 要求在多种上下文中保持精细的实例一致性。为了测试这一能力,我们使用真实世界的对象跟踪和一视角视频数据开发了 IDMR 基准。为了解决训练数据稀缺的问题,我们提出了一种跨模态合成方法,通过从标准检测数据集中裁剪对象,生成了 55.7 万训练样本。基于 120 万样本训练的基于多模态大型语言模型(MLLM)的检索模型,在传统基准和我们的零样本 IDMR 基准上均优于现有方法。实验结果表明了之前模型在实例感知检索方面存在的局限性,并突显了 MLLM 在高级检索应用中的潜力。完整的训练数据集、代码和模型(多种大小)可在 https://github.com/BwLiu01/IDMR 获取。