摘要
arXiv:2502.00070v1 交叉发布类型: cross
摘要: 通过使用大规模语言模型(LLM)分析9030篇独特的9030份提交的27,090份评估,我们探讨了人工智能是否能解决经济学中的同行评议危机。实验系统地变化了作者特征(如隶属关系、声望、性别)和出版质量(如顶级期刊、次级期刊、低级期刊、AI生成的文章)。结果表明,LLM能够有效地区分文章质量,但表现出偏向著名机构、男性作者和著名经济学家的偏见。此外,LLM难以区分高质量的AI生成的文章与真正顶级期刊的提交。虽然LLM提供了效率提升,但它们的偏见倾向需要谨慎整合,并采用混合同行评议模式以平衡公平性和准确性。