LLM2D
AI能解决同行评审危机吗?一个大型跨模型实验,评估LLM在评价超过1000篇经济学论文中的性能与偏见
Can AI Solve the Peer Review Crisis? A Large Scale Cross Model Experiment of LLMs' Performance and Biases in Evaluating over 1000 Economics Papers
作者: Pat Pataranutaporn, Nattavudh Powdthavee, Chayapatr Achiwaranguprok, Pattie Maes
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2502.00070v2

摘要

arXiv:2502.00070v2 宣告类型:替换交叉 摘要:这项研究探讨了大型语言模型(LLMs)通过可靠地评估经济学研究的质量来增强学术同行评审过程的潜力,而不引入系统性偏差。我们进行了迄今为止最大的实验性评估,涉及四种LLM(GPT-4o、Claude 3.5、Gemma 3和LLaMA 3.3),这包括两个互补实验。在第一个实验中,我们使用非参数的 binscatter 和线性回归技术,分析了来自 110 本经济学期刊(这些期刊的论文未包含在当前 LLM 的训练数据中)的 1,220 篇匿名论文以及一系列由 AI 生成的投稿,共超过 29,000 次评估。结果表明,LLMs 基于文本内容一致地区分了高质量和低质量的研究,生成的质量梯度与现有的期刊声誉度量高度一致。Claude 和 Gemma 在捕捉这些梯度方面表现尤为出色,而 GPT 在检测由 AI 生成的内容方面表现出色。第二个实验涉及 8,910 次评估,旨在评估 LLMS 是否在单盲评审中重现人类偏见。通过系统地改变作者性别、机构隶属关系和学术地位,我们在 330 篇论文上进行测试,发现 GPT、Gemma 和 LLaMA 相对于匿名提交,对顶级男性作者和顶级机构的投稿给予了显著更高的评分。这些结果强调,在编辑筛选中部署 LLMS 时排除作者标识信息的重要性。总体而言,我们的研究结果提供了有力的证据和实用指导,建议将 LLMS 集成到同行评审中以提高效率、提高准确性并促进经济学研究出版过程中的公平性。