LLM2D
大语言模型反馈能否提升评审质量?ICLR 2025 的 randomized 研究涉及 2 万份评审
Can LLM feedback enhance review quality? A randomized study of 20K reviews at ICLR 2025
作者: Nitya Thakkar, Mert Yuksekgonul, Jake Silberg, Animesh Garg, Nanyun Peng, Fei Sha, Rose Yu, Carl Vondrick, James Zou
发布日期: 4/15/2025
arXiv ID: oai:arXiv.org:2504.09737v1

摘要

arXiv:2504.09737v1 审稿类型: 新颖 摘要: 人工智能会议的审稿工作因提交量迅速增加而受到压力,导致审稿质量下降和作者不满意程度增加。为了解决这些问题,我们开发了审稿反馈代理系统,该系统利用多个大语言模型(LLMs)通过提供自动化反馈来提高审稿清晰度和可操作性,这些反馈包括对模糊评论、内容误解和不专业言辞的修正。该系统已在2025年ICLR大会上作为大规模随机对照试验实施,为超过20,000篇随机选择的审稿提供了可选反馈。为了确保大规模审稿反馈的高品质,我们还开发了一套由LLMs驱动的自动化可靠性测试工具,这些工具作为护栏确保反馈质量,只有在所有测试都通过后才会将反馈发送给审稿人。结果显示,27%收到反馈的审稿人更新了他们的审稿,超过12,000条来自代理的反馈建议被这些审稿人采纳。这表明许多审稿人认为AI生成的反馈足够有用,值得更新他们的审稿。采用AI反馈导致了显著增加的审稿长度(在收到反馈后更新审稿的人平均增加了80个单词),以及更加详实的审稿内容,这些均得到了盲审研究人员的评估。此外,选择接受AI反馈的审稿人在论文反驳环节也更加积极,体现在更长的作者-审稿人讨论中。这项工作证明,精心设计的LLM生成的审稿反馈可以通过使审稿更具体和可操作,同时增加审稿人与作者之间的互动来提升审稿质量。审稿反馈代理系统已在 https://github.com/zou-group/review_feedback_agent 公开可用。