LLM2D
SECUQUE: 一个评估实际金融分析能力的标准基准
SECQUE: A Benchmark for Evaluating Real-World Financial Analysis Capabilities
作者: Noga Ben Yoash, Meni Brief, Oded Ovadia, Gil Shenderovitz, Moshik Mishaeli, Rachel Lemberg, Eitam Sheetrit
发布日期: 4/8/2025
arXiv ID: oai:arXiv.org:2504.04596v1

摘要

arXiv:2504.04596v1 类型: 新增 摘要: 我们介绍了SECQUE,一个全面的基准测试,用于评估大型语言模型(LLMs)在金融分析任务中的表现。SECQUE包括565个由专家编写的问答,涵盖了SEC披露文件分析的四个关键类别:比较分析、比率计算、风险评估和财务洞察生成。为了评估模型性能,我们开发了SECQUE-Judge,一个利用多个基于LLM的评估机制,该机制与人工评估表现出强烈的契合度。此外,我们还对多个模型在我们基准测试中的性能进行了详细分析。通过将SECQUE公开展示,我们旨在促进金融AI领域的进一步研究和进步。