LLM2D
FAMMA:一个金融领域多语言多媒体问答基准数据集
FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering
作者: Siqiao Xue, Xiaojing Li, Fan Zhou, Qingyang Dai, Zhixuan Chu, Hongyuan Mei
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2410.04526v3

摘要

arXiv:2410.04526v3 宣布类型: replace-cross 摘要:在本文中,我们介绍了FAMMA,一个开源基准,用于评估大语言模型(LLMs)在回答需要高级金融知识的复杂推理问题方面的能力。该基准有两个版本:FAMMA-Basic 包含1,945个问题,这些问题来源于大学教科书和考试,并附有人工标注的答案和推理过程;FAMMA-LivePro 包含103个由人类领域专家创建的新颖问题,这些问题的答案和推理过程未向公众公开,以保证评价的干净性。这些问题涵盖了金融8个主要子领域的高级知识(例如,公司金融、衍生品和投资组合管理)。其中一些问题是中文或法语的,而大多数问题则是英语的。每个问题还包含一些非文本数据,例如图表、图形或表格。我们的实验表明,FAMMA 对 LLMs,包括推理模型(如GPT-o1 和 DeepSeek-R1)构成重大挑战。此外,我们整理了 DeepSeek-R1 在 FAMMA-Basic 数据上的1,270条推理轨迹,并使用这些推理数据微调了一系列开源 Qwen 模型。我们发现,使用这些推理轨迹训练模型可以显著提高其在 FAMMA-LivePro 中的表现。我们在 https://famma-bench.github.io/famma/ 上发布了我们的排行榜、数据、代码和训练模型。