LLM2D
基于图表为主的文档问答生成框架多模态RAG基准测试
Benchmarking Multimodal RAG through a Chart-based Document Question-Answering Generation Framework
作者: Yuming Yang, Jiang Zhong, Li Jin, Jingwang Huang, Jingpeng Gao, Qing Liu, Yang Bai, Jingyuan Zhang, Rui Jiang, Kaiwen Wei
发布日期: 2/21/2025
arXiv ID: oai:arXiv.org:2502.14864v1

摘要

arXiv:2502.14864v1 公告类型: 新 摘要: 多模态检索增强生成(MRAG)通过整合外部知识增强了推理能力。然而,现有的基准主要集中在简单的图像-文本交互上,忽略了在现实世界应用中普遍存在且复杂的图表格式。在本文中,我们引入了一个新的任务——基于图表的MRAG,以解决这一限制。为了半自动地生成高质量的评估样本,我们提出了基于图表的文档问答生成(CHARGE)框架,该框架通过结构化关键点提取、跨模态验证和基于关键点的生成来生成评估数据。通过将CHARGE与专家验证结合,我们构建了Chart-MRAG Bench,这是一个全面的基于图表的MRAG评估基准,包含来自实际文档的8个领域共4,738个问答对。我们的评估揭示了当前方法的三个关键局限性:(1)统一的多模态嵌入检索方法在基于图表的场景中难以发挥作用,(2)即使使用真实的检索结果,最先进的MLLMs也只能达到58.19%的正确率和73.87%的覆盖率,(3)MLLMs在基于图表的MRAG推理过程中表现出一致的文本超越视觉模态偏见。CHARGE和Chart-MRAG Bench已在https://github.com/Nomothings/CHARGE.git 发布。