LLM2D
克服视觉语言模型在图解理解中的挑战:基于XML驱动的大语言模型解决方案的概念验证
Overcoming Vision Language Model Challenges in Diagram Understanding: A Proof-of-Concept with XML-Driven Large Language Models Solutions
作者: Shue Shiinoki, Ryo Koshihara, Hayato Motegi, Masumi Morishige
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04389v1

摘要

arXiv:2502.04389v1 交叉类型 摘要:图表在业务文档中通过视觉方式传达复杂关系和流程方面起着关键作用。尽管在各种图像理解任务中取得了近期进展的视觉语言模型(VLMs),但准确识别和提取图中所示结构和关系仍然面临重大挑战。本研究通过提出一种基于文本的方法来应对这些挑战,该方法绕过了对VLMs视觉识别能力的依赖。相反,它利用编辑后的源文件(例如,xlsx、pptx 或 docx),其中图中的元素(例如,形状、线条、注释)以文本元数据的形式保存。在我们的概念验证中,从基于xlsx的系统设计文档中提取了图表信息,并将提取的形状数据转换为大型语言模型(LLMs)的文本输入。这种方法允许LLM在没有基于图像处理瓶颈的情况下分析关系并生成面向业务的问题响应。与基于VLM的方法的实验比较表明,所提出的基于文本的框架为需要详细理解图表结构的问题提供了更准确的答案。本研究的结果不仅限于测试的.xlsx文件,还可以扩展到具有源文件的其他文档中的图表,例如Office的pptx和docx格式。这些发现表明,通过直接从原始源文件提取文本,规避VLM限制的可行性是切实可行的。通过使LLMs能够实现健壮的图表理解,我们的方法为在真实业务场景中增强工作流效率和信息分析提供了有前景的道路。