LLM2D

摘要

arXiv:2503.16974v2 宣布类型: 交叉替换摘要：本研究首次提供了对大型语言模型（LLM）在金融和会计研究中输出一致性和可重复性进行全面评估的结果。我们通过广泛的实验评估了在给定相同输入的情况下，LLM 如何一致地生成输出。这些实验涉及五个常见任务的 50 次独立运行：分类、情感分析、摘要、文本生成和预测。使用三个 OpenAI 模型（GPT-3.5-turbo、GPT-4o-mini 和 GPT-4o），我们生成了超过 340 万条来自多样的财务来源文本和数据的输出，涵盖了管理讨论与分析 (MD&A)、联邦公开市场委员会 (FOMC) 陈述、财经新闻文章、收益电话会议记录和财务报告。研究发现，虽然一致性存在但具有任务依赖性，二元分类和情感分析达到了近乎完美的可重复性，而复杂任务则显示更大的变异性。更高级的模型并未一致地展示出更好的一致性和可重复性，而是出现了特定任务的模式。LLM 在一致性方面显著优于专家人工标注者，并且即使在专家严重不同意的情况下，也保持了高一致率。我们进一步发现，在 3-5 次运行中简单的聚合策略显著提高了一致性。我们还发现，在使用新模型时，聚合可能为情感分析带来额外的准确性改进。模拟分析表明，尽管 LLM 输出存在可量化的不一致性，但下游统计推断仍然表现出惊人的稳健性。这些发现解决了我们所称的“G-黑客”问题，即在多个生成性AI运行中选择性报告有利结果，通过证明这种风险在金融和会计任务中相对较低，从而解决相关担忧。