摘要
文档理解是一项具有挑战性的任务,需要处理和理解大量的文本和视觉信息。近年来,大型语言模型(LLM)的进展显著提高了这项任务的性能。然而,现有的方法通常只关注纯文本或有限数量的文档图像,难以处理包含交织文本和图像的长篇 PDF 文档,尤其是在学术论文中。在本文中,我们介绍了 PDF-WuKong,这是一种多模态大型语言模型(MLLM),旨在增强长篇 PDF 文档的多模态问答(QA)。PDF-WuKong 结合了一个稀疏采样器,它对文本和图像表示进行操作,显著提高了 MLLM 的效率和能力。稀疏采样器与 MLLM 的图像编码器集成,并选择与用户查询最相关的段落或图表供语言模型处理。为了有效地训练和评估我们的模型,我们构建了 PaperPDF 数据集,该数据集包含来自 arXiv 的大量学术论文,并提出了多种策略来自动生成 100 万个 QA 对及其对应的证据来源。实验结果表明,在长篇多模态 PDF 理解任务中,我们的方法优于其他模型,并在 F1 上比专有产品平均高出 8.6%。我们的代码和数据集将在 https://github.com/yh-hust/PDF-Wukong 发布。