LLM2D

摘要

多模态检索增强生成 (MMRAG) 是一个强大的方法，用于针对多模态文档进行问答。评估 MMRAG 的一个关键挑战是缺乏与感兴趣的问题风格和模态相匹配的高质量数据集。鉴于此，我们提出了 SMMQG，一个合成数据生成框架。SMMQG 利用检索器、大型语言模型 (LLM) 和大型多模态模型 (LMM) 之间的相互作用，直接从多模态文档中生成问答对，问题符合指定的风格和模态。我们使用 SMMQG 为维基百科文档生成包含 1024 个问题的 MMRAG 数据集，并使用该数据集评估最先进的模型，揭示了仅通过风格和模态特定评估数据才能获得的模型性能见解。接下来，我们通过一项人类研究来衡量 SMMQG 生成的数据的质量。我们发现，SMMQG 生成的合成数据的质量与众包基准 MMQA 的质量相当，并且使用这两个数据集进行的下游评估结果高度一致。