LLM2D

摘要

信息检索 (IR) 方法旨在根据给定查询识别相关文档，由于其在各种自然语言任务中的成功应用，已获得极大关注。然而，现有的方法通常只考虑文档中的文本信息，忽略了文档可以包含多种模态，包括文本、图像和表格这一事实。此外，它们通常将每个长文档分割成多个离散的段落进行嵌入，无法捕捉到整体文档上下文和段落之间的相互作用。我们认为，这两个局限性导致了次优的文档表示，不利于检索。为了解决这些问题，我们旨在通过整体嵌入不同模态交织的文档，产生更全面、更细致的文档表示。具体而言，我们利用了最近的视觉语言模型的能力，该模型能够将文本、图像和表格处理并集成到统一的格式和表示中。此外，为了减轻将文档分割成段落所带来的信息损失，我们不是单独表示和检索段落，而是将分割后的段落的表示合并成一个单一的文档表示，同时我们还引入了重新排序策略，以便在必要时解耦并识别文档中的相关段落。然后，通过对考虑文本和多模态查询的不同信息检索场景进行广泛的实验，我们表明我们的方法显著优于相关的基线，这得益于以统一的方式考虑文档中交织的多模态信息。