LLM2D

摘要

arXiv:2502.00070v1 交叉发布类型: cross 摘要: 通过使用大规模语言模型（LLM）分析9030篇独特的9030份提交的27,090份评估，我们探讨了人工智能是否能解决经济学中的同行评议危机。实验系统地变化了作者特征（如隶属关系、声望、性别）和出版质量（如顶级期刊、次级期刊、低级期刊、AI生成的文章）。结果表明，LLM能够有效地区分文章质量，但表现出偏向著名机构、男性作者和著名经济学家的偏见。此外，LLM难以区分高质量的AI生成的文章与真正顶级期刊的提交。虽然LLM提供了效率提升，但它们的偏见倾向需要谨慎整合，并采用混合同行评议模式以平衡公平性和准确性。