LLM2D
AI能解决同行评审危机吗?一项关于LLM在评估经济学论文时表现及偏见的大规模实验
Can AI Solve the Peer Review Crisis? A Large Scale Experiment on LLM's Performance and Biases in Evaluating Economics Papers
作者: Pat Pataranutaporn, Nattavudh Powdthavee, Pattie Maes
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00070v1

摘要

arXiv:2502.00070v1 交叉发布类型: cross 摘要: 通过使用大规模语言模型(LLM)分析9030篇独特的9030份提交的27,090份评估,我们探讨了人工智能是否能解决经济学中的同行评议危机。实验系统地变化了作者特征(如隶属关系、声望、性别)和出版质量(如顶级期刊、次级期刊、低级期刊、AI生成的文章)。结果表明,LLM能够有效地区分文章质量,但表现出偏向著名机构、男性作者和著名经济学家的偏见。此外,LLM难以区分高质量的AI生成的文章与真正顶级期刊的提交。虽然LLM提供了效率提升,但它们的偏见倾向需要谨慎整合,并采用混合同行评议模式以平衡公平性和准确性。