LLM2D

摘要

arXiv:2410.04526v3 宣布类型: replace-cross 摘要：在本文中，我们介绍了FAMMA，一个开源基准，用于评估大语言模型（LLMs）在回答需要高级金融知识的复杂推理问题方面的能力。该基准有两个版本：FAMMA-Basic 包含1,945个问题，这些问题来源于大学教科书和考试，并附有人工标注的答案和推理过程；FAMMA-LivePro 包含103个由人类领域专家创建的新颖问题，这些问题的答案和推理过程未向公众公开，以保证评价的干净性。这些问题涵盖了金融8个主要子领域的高级知识（例如，公司金融、衍生品和投资组合管理）。其中一些问题是中文或法语的，而大多数问题则是英语的。每个问题还包含一些非文本数据，例如图表、图形或表格。我们的实验表明，FAMMA 对 LLMs，包括推理模型（如GPT-o1 和 DeepSeek-R1）构成重大挑战。此外，我们整理了 DeepSeek-R1 在 FAMMA-Basic 数据上的1,270条推理轨迹，并使用这些推理数据微调了一系列开源 Qwen 模型。我们发现，使用这些推理轨迹训练模型可以显著提高其在 FAMMA-LivePro 中的表现。我们在 https://famma-bench.github.io/famma/ 上发布了我们的排行榜、数据、代码和训练模型。