LLM2D

摘要

arXiv:2502.00070v2 宣告类型：替换交叉摘要：这项研究探讨了大型语言模型（LLMs）通过可靠地评估经济学研究的质量来增强学术同行评审过程的潜力，而不引入系统性偏差。我们进行了迄今为止最大的实验性评估，涉及四种LLM（GPT-4o、Claude 3.5、Gemma 3和LLaMA 3.3），这包括两个互补实验。在第一个实验中，我们使用非参数的 binscatter 和线性回归技术，分析了来自 110 本经济学期刊（这些期刊的论文未包含在当前 LLM 的训练数据中）的 1,220 篇匿名论文以及一系列由 AI 生成的投稿，共超过 29,000 次评估。结果表明，LLMs 基于文本内容一致地区分了高质量和低质量的研究，生成的质量梯度与现有的期刊声誉度量高度一致。Claude 和 Gemma 在捕捉这些梯度方面表现尤为出色，而 GPT 在检测由 AI 生成的内容方面表现出色。第二个实验涉及 8,910 次评估，旨在评估 LLMS 是否在单盲评审中重现人类偏见。通过系统地改变作者性别、机构隶属关系和学术地位，我们在 330 篇论文上进行测试，发现 GPT、Gemma 和 LLaMA 相对于匿名提交，对顶级男性作者和顶级机构的投稿给予了显著更高的评分。这些结果强调，在编辑筛选中部署 LLMS 时排除作者标识信息的重要性。总体而言，我们的研究结果提供了有力的证据和实用指导，建议将 LLMS 集成到同行评审中以提高效率、提高准确性并促进经济学研究出版过程中的公平性。