摘要
arXiv:2503.16974v2 宣布类型: 交叉替换
摘要:本研究首次提供了对大型语言模型(LLM)在金融和会计研究中输出一致性和可重复性进行全面评估的结果。我们通过广泛的实验评估了在给定相同输入的情况下,LLM 如何一致地生成输出。这些实验涉及五个常见任务的 50 次独立运行:分类、情感分析、摘要、文本生成和预测。使用三个 OpenAI 模型(GPT-3.5-turbo、GPT-4o-mini 和 GPT-4o),我们生成了超过 340 万条来自多样的财务来源文本和数据的输出,涵盖了管理讨论与分析 (MD&A)、联邦公开市场委员会 (FOMC) 陈述、财经新闻文章、收益电话会议记录和财务报告。研究发现,虽然一致性存在但具有任务依赖性,二元分类和情感分析达到了近乎完美的可重复性,而复杂任务则显示更大的变异性。更高级的模型并未一致地展示出更好的一致性和可重复性,而是出现了特定任务的模式。LLM 在一致性方面显著优于专家人工标注者,并且即使在专家严重不同意的情况下,也保持了高一致率。我们进一步发现,在 3-5 次运行中简单的聚合策略显著提高了一致性。我们还发现,在使用新模型时,聚合可能为情感分析带来额外的准确性改进。模拟分析表明,尽管 LLM 输出存在可量化的不一致性,但下游统计推断仍然表现出惊人的稳健性。这些发现解决了我们所称的“G-黑客”问题,即在多个生成性AI运行中选择性报告有利结果,通过证明这种风险在金融和会计任务中相对较低,从而解决相关担忧。