摘要
arXiv:2410.04526v3 宣布类型: replace-cross
摘要:在本文中,我们介绍了FAMMA,一个开源基准,用于评估大语言模型(LLMs)在回答需要高级金融知识的复杂推理问题方面的能力。该基准有两个版本:FAMMA-Basic 包含1,945个问题,这些问题来源于大学教科书和考试,并附有人工标注的答案和推理过程;FAMMA-LivePro 包含103个由人类领域专家创建的新颖问题,这些问题的答案和推理过程未向公众公开,以保证评价的干净性。这些问题涵盖了金融8个主要子领域的高级知识(例如,公司金融、衍生品和投资组合管理)。其中一些问题是中文或法语的,而大多数问题则是英语的。每个问题还包含一些非文本数据,例如图表、图形或表格。我们的实验表明,FAMMA 对 LLMs,包括推理模型(如GPT-o1 和 DeepSeek-R1)构成重大挑战。此外,我们整理了 DeepSeek-R1 在 FAMMA-Basic 数据上的1,270条推理轨迹,并使用这些推理数据微调了一系列开源 Qwen 模型。我们发现,使用这些推理轨迹训练模型可以显著提高其在 FAMMA-LivePro 中的表现。我们在 https://famma-bench.github.io/famma/ 上发布了我们的排行榜、数据、代码和训练模型。