摘要
本文介绍了 FAMMA,一个用于金融多语言多模态问答 (QA) 的开源基准测试。我们的基准测试旨在评估多模态大型语言模型 (MLLMs) 在回答需要高级金融知识和复杂推理的问题的能力。它包含 1,758 个从大学教科书和考试中精心收集的问答对,涵盖金融的 8 个主要子领域,包括公司金融、资产管理和金融工程。一些问答对是用中文或法语写成的,而大多数是用英语写成的。这些问题以混合格式呈现,结合文本和异构图像类型,例如图表、表格和图表。我们在我们的基准测试上评估了一系列最先进的 MLLMs,我们的分析表明 FAMMA 对这些模型构成了重大挑战。即使是 GPT-4o 和 Claude-35-Sonnet 等先进系统也只达到了 42% 的准确率。此外,开源 Qwen2-VL 远远落后于其专有同行。最后,我们探索了 GPT o1 风格的推理链以增强模型的推理能力,这显着改善了错误校正。我们的 FAMMA 基准测试将促进未来开发金融 QA 专家系统方面的研究。排行榜可在 https://famma-bench.github.io/famma/ 获取。