LLM2D

摘要

arXiv:2502.14864v1 公告类型: 新摘要: 多模态检索增强生成（MRAG）通过整合外部知识增强了推理能力。然而，现有的基准主要集中在简单的图像-文本交互上，忽略了在现实世界应用中普遍存在且复杂的图表格式。在本文中，我们引入了一个新的任务——基于图表的MRAG，以解决这一限制。为了半自动地生成高质量的评估样本，我们提出了基于图表的文档问答生成（CHARGE）框架，该框架通过结构化关键点提取、跨模态验证和基于关键点的生成来生成评估数据。通过将CHARGE与专家验证结合，我们构建了Chart-MRAG Bench，这是一个全面的基于图表的MRAG评估基准，包含来自实际文档的8个领域共4,738个问答对。我们的评估揭示了当前方法的三个关键局限性：（1）统一的多模态嵌入检索方法在基于图表的场景中难以发挥作用，（2）即使使用真实的检索结果，最先进的MLLMs也只能达到58.19%的正确率和73.87%的覆盖率，（3）MLLMs在基于图表的MRAG推理过程中表现出一致的文本超越视觉模态偏见。CHARGE和Chart-MRAG Bench已在https://github.com/Nomothings/CHARGE.git 发布。