LLM2D

摘要

arXiv:2504.04596v1 类型: 新增摘要: 我们介绍了SECQUE，一个全面的基准测试，用于评估大型语言模型（LLMs）在金融分析任务中的表现。SECQUE包括565个由专家编写的问答，涵盖了SEC披露文件分析的四个关键类别：比较分析、比率计算、风险评估和财务洞察生成。为了评估模型性能，我们开发了SECQUE-Judge，一个利用多个基于LLM的评估机制，该机制与人工评估表现出强烈的契合度。此外，我们还对多个模型在我们基准测试中的性能进行了详细分析。通过将SECQUE公开展示，我们旨在促进金融AI领域的进一步研究和进步。