摘要
arXiv:2503.21839v1 类型: cross
摘要: 我们探讨了一个在大型视觉-语言模型(LVLMs)中尚未充分探索的关键问题:LVLMs是否真正理解文档中的交错图像-文本?现有的文档理解基准通常使用问答格式来评估LVLMs,这种格式信息稀疏且难以保证长程依赖关系的覆盖。为了解决这一问题,我们提出了一种新颖且具有挑战性的多模态文档总结基准(M-DocSum-Bench),其中包括500篇高质量的arXiv论文,配有与人类偏好对齐的交错多模态摘要。M-DocSum-Bench是一个基于参考生成的任务,需要使用提供的参考图像生成交错的图像-文本摘要,从而同时评估在复杂多模态文档场景中的理解、推理、定位和总结能力。为了便于实现这一基准,我们开发了一个自动框架来构建摘要,并提出了一种精细度量方法M-DocEval。此外,我们还通过渐进的两阶段训练,利用多样的指令和偏好数据,进一步开发了一个稳健的总结基线M-DocSum-7B。我们在M-DocSum-Bench上的广泛实验结果表明,领先的LVLMs在处理长且交错的上下文时难以保持连贯性和准确地整合信息,往往表现出对相似图像混淆以及鲁棒性不足的问题。值得注意的是,M-DocSum-7B在与更大和闭源模型(包括GPT-4o、Gemini Pro、Claude-3.5-Sonnet和Qwen2.5-VL-72B等)相比时,实现了最先进的性能,这表明LVLMs在交错图像-文本理解方面具有改进的潜力。代码、数据和模型可在https://github.com/stepfun-ai/M-DocSum-Bench获得。