LLM2D
FAMMA: 金融领域多语言多模态问答基准
FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering
作者: Siqiao Xue, Xiaojing Li, Fan Zhou, Qingyang Dai, Zhixuan Chu, Hongyuan Mei
发布日期: 5/16/2025
arXiv ID: oai:arXiv.org:2410.04526v4

摘要

arXiv:2410.04526v4 宣告类型: replace-cross 摘要: 在本文中,我们介绍了FAMMA,一个开源基准,用于金融多语言多模态问题回答(QA)。我们的基准旨在评估大规模语言模型(LLMs)在回答需要高级金融知识的复杂推理问题方面的能力。该基准有两个版本:FAMMA-Basic 包含1,945个问题,这些问题是从大学教科书和考试中抽取出来的,还附有人工标注的答案和推理过程;FAMMA-LivePro 包含103个由人类领域专家创建的新颖问题,答案和推理过程对外保密以进行无污染评估。这些问题涵盖了金融领域的8个主要子领域(例如,公司金融、衍生品和投资组合管理)的高级知识。其中一些问题使用中文或法文,而多数问题使用的则是英文。每个问题都有非文本数据,如图表、图表或表格。我们的实验表明,FAMMA 对 LLMs(包括推理模型如GPT-o1和DeepSeek-R1)构成了重大挑战。此外,我们整理了DeepSeek-R1在FAMMA-Basic数据上的1,270条推理路径,并使用这些推理数据对一系列开源的Qwen模型进行了fine-tuning。我们发现,通过这些推理路径训练模型可以显著提高其在FAMMA-LivePro上的性能。我们已在 https://famma-bench.github.io/famma/ 上公开了我们的排行榜、数据、代码和训练模型。