摘要
本文介绍了FAMMA,一个用于金融多语言多模态问答(QA)的开源基准测试。该基准旨在评估多模态大型语言模型 (MLLM) 在回答需要高级金融知识和复杂推理的问题方面的能力。它包含从大学教科书和考试中精心收集的 1758 个问答对,涵盖金融的 8 个主要子领域,包括公司金融、资产管理和金融工程。一些问答对是用中文或法文撰写的,而大部分是用英文撰写的。这些问题采用混合格式呈现,结合文本和异构图像类型,例如图表、表格和图表。我们在我们的基准测试上评估了一系列最先进的 MLLM,我们的分析表明 FAMMA 对这些模型提出了重大挑战。即使是像 GPT-4o 和 Claude-35-Sonnet 这样先进的系统,其准确率也只有 42%。此外,开源模型 Qwen2-VL 明显落后于其专有竞争对手。最后,我们探索了 GPT-o1 风格的推理链以增强模型的推理能力,这显著提高了错误修正能力。我们的 FAMMA 基准测试将促进未来开发金融问答专家系统方面的研究。排行榜可在 https://famma-bench.github.io/famma/ 查看。