摘要
信息检索 (IR) 方法旨在根据给定查询识别相关文档,由于其在各种自然语言任务中的成功应用,已获得极大关注。然而,现有的方法通常只考虑文档中的文本信息,忽略了文档可以包含多种模态,包括文本、图像和表格这一事实。此外,它们通常将每个长文档分割成多个离散的段落进行嵌入,无法捕捉到整体文档上下文和段落之间的相互作用。我们认为,这两个局限性导致了次优的文档表示,不利于检索。为了解决这些问题,我们旨在通过整体嵌入不同模态交织的文档,产生更全面、更细致的文档表示。具体而言,我们利用了最近的视觉语言模型的能力,该模型能够将文本、图像和表格处理并集成到统一的格式和表示中。此外,为了减轻将文档分割成段落所带来的信息损失,我们不是单独表示和检索段落,而是将分割后的段落的表示合并成一个单一的文档表示,同时我们还引入了重新排序策略,以便在必要时解耦并识别文档中的相关段落。然后,通过对考虑文本和多模态查询的不同信息检索场景进行广泛的实验,我们表明我们的方法显著优于相关的基线,这得益于以统一的方式考虑文档中交织的多模态信息。