LLM2D

摘要

arXiv:2504.13945v2 宣布类型: 替换交叉摘要：大型视觉语言模型（LVLMs）的快速发展在文档理解方面取得了显著进展，特别是在光学字符识别（OCR）和多语言翻译方面的应用。然而，现有的LVLM评估，如广泛使用的OCRBench，主要集中在验证它们对简短文本和简单布局文本回复的正确性，而对于它们理解和处理复杂布局设计的长文本的能力则相对忽视，这在多文化沟通中尤为重要。本文我们提出了一种专门的评估框架——菜单OCR和翻译基准（MOTBench），强调菜单翻译在跨文化交流中的重要作用。MOTBench 要求LVLMs 准确识别和翻译菜单上的每道菜及其价格和单位项目，全面评估其视觉理解和语言处理能力。我们的基准由包含中文和英文菜单组成，这些菜单具有复杂的布局、多种字体以及不同语言中的文化特定元素，同时伴有精确的人工注释。实验结果显示，我们自动评估的结果与专业的手动评估结果高度一致。我们评估了一系列公开的最先进的LVLMs，并通过分析其输出来识别其性能的强项和弱项，为未来LVLM的发展提供宝贵的指导。MOTBench 可在 https://github.com/gitwzl/MOTBench 获取。