摘要
arXiv:2504.13945v2 宣布类型: 替换交叉
摘要:大型视觉语言模型(LVLMs)的快速发展在文档理解方面取得了显著进展,特别是在光学字符识别(OCR)和多语言翻译方面的应用。然而,现有的LVLM评估,如广泛使用的OCRBench,主要集中在验证它们对简短文本和简单布局文本回复的正确性,而对于它们理解和处理复杂布局设计的长文本的能力则相对忽视,这在多文化沟通中尤为重要。本文我们提出了一种专门的评估框架——菜单OCR和翻译基准(MOTBench),强调菜单翻译在跨文化交流中的重要作用。MOTBench 要求LVLMs 准确识别和翻译菜单上的每道菜及其价格和单位项目,全面评估其视觉理解和语言处理能力。我们的基准由包含中文和英文菜单组成,这些菜单具有复杂的布局、多种字体以及不同语言中的文化特定元素,同时伴有精确的人工注释。实验结果显示,我们自动评估的结果与专业的手动评估结果高度一致。我们评估了一系列公开的最先进的LVLMs,并通过分析其输出来识别其性能的强项和弱项,为未来LVLM的发展提供宝贵的指导。MOTBench 可在 https://github.com/gitwzl/MOTBench 获取。