LLM2D

摘要

arXiv:2503.21839v1 类型: cross 摘要: 我们探讨了一个在大型视觉-语言模型（LVLMs）中尚未充分探索的关键问题：LVLMs是否真正理解文档中的交错图像-文本？现有的文档理解基准通常使用问答格式来评估LVLMs，这种格式信息稀疏且难以保证长程依赖关系的覆盖。为了解决这一问题，我们提出了一种新颖且具有挑战性的多模态文档总结基准（M-DocSum-Bench），其中包括500篇高质量的arXiv论文，配有与人类偏好对齐的交错多模态摘要。M-DocSum-Bench是一个基于参考生成的任务，需要使用提供的参考图像生成交错的图像-文本摘要，从而同时评估在复杂多模态文档场景中的理解、推理、定位和总结能力。为了便于实现这一基准，我们开发了一个自动框架来构建摘要，并提出了一种精细度量方法M-DocEval。此外，我们还通过渐进的两阶段训练，利用多样的指令和偏好数据，进一步开发了一个稳健的总结基线M-DocSum-7B。我们在M-DocSum-Bench上的广泛实验结果表明，领先的LVLMs在处理长且交错的上下文时难以保持连贯性和准确地整合信息，往往表现出对相似图像混淆以及鲁棒性不足的问题。值得注意的是，M-DocSum-7B在与更大和闭源模型（包括GPT-4o、Gemini Pro、Claude-3.5-Sonnet和Qwen2.5-VL-72B等）相比时，实现了最先进的性能，这表明LVLMs在交错图像-文本理解方面具有改进的潜力。代码、数据和模型可在https://github.com/stepfun-ai/M-DocSum-Bench获得。