LLM2D

摘要

arXiv:2410.04526v4 宣告类型: replace-cross 摘要: 在本文中，我们介绍了FAMMA，一个开源基准，用于金融多语言多模态问题回答(QA)。我们的基准旨在评估大规模语言模型(LLMs)在回答需要高级金融知识的复杂推理问题方面的能力。该基准有两个版本：FAMMA-Basic 包含1,945个问题，这些问题是从大学教科书和考试中抽取出来的，还附有人工标注的答案和推理过程；FAMMA-LivePro 包含103个由人类领域专家创建的新颖问题，答案和推理过程对外保密以进行无污染评估。这些问题涵盖了金融领域的8个主要子领域（例如，公司金融、衍生品和投资组合管理）的高级知识。其中一些问题使用中文或法文，而多数问题使用的则是英文。每个问题都有非文本数据，如图表、图表或表格。我们的实验表明，FAMMA 对 LLMs（包括推理模型如GPT-o1和DeepSeek-R1）构成了重大挑战。此外，我们整理了DeepSeek-R1在FAMMA-Basic数据上的1,270条推理路径，并使用这些推理数据对一系列开源的Qwen模型进行了fine-tuning。我们发现，通过这些推理路径训练模型可以显著提高其在FAMMA-LivePro上的性能。我们已在 https://famma-bench.github.io/famma/ 上公开了我们的排行榜、数据、代码和训练模型。