LLM2D

摘要

文档理解是一项具有挑战性的任务，需要处理和理解大量的文本和视觉信息。近年来，大型语言模型（LLM）的进展显著提高了这项任务的性能。然而，现有的方法通常只关注纯文本或有限数量的文档图像，难以处理包含交织文本和图像的长篇 PDF 文档，尤其是在学术论文中。在本文中，我们介绍了 PDF-WuKong，这是一种多模态大型语言模型（MLLM），旨在增强长篇 PDF 文档的多模态问答（QA）。PDF-WuKong 结合了一个稀疏采样器，它对文本和图像表示进行操作，显著提高了 MLLM 的效率和能力。稀疏采样器与 MLLM 的图像编码器集成，并选择与用户查询最相关的段落或图表供语言模型处理。为了有效地训练和评估我们的模型，我们构建了 PaperPDF 数据集，该数据集包含来自 arXiv 的大量学术论文，并提出了多种策略来自动生成 100 万个 QA 对及其对应的证据来源。实验结果表明，在长篇多模态 PDF 理解任务中，我们的方法优于其他模型，并在 F1 上比专有产品平均高出 8.6%。我们的代码和数据集将在 https://github.com/yh-hust/PDF-Wukong 发布。