LLM2D

摘要

arXiv:2504.09737v1 审稿类型: 新颖摘要: 人工智能会议的审稿工作因提交量迅速增加而受到压力，导致审稿质量下降和作者不满意程度增加。为了解决这些问题，我们开发了审稿反馈代理系统，该系统利用多个大语言模型（LLMs）通过提供自动化反馈来提高审稿清晰度和可操作性，这些反馈包括对模糊评论、内容误解和不专业言辞的修正。该系统已在2025年ICLR大会上作为大规模随机对照试验实施，为超过20,000篇随机选择的审稿提供了可选反馈。为了确保大规模审稿反馈的高品质，我们还开发了一套由LLMs驱动的自动化可靠性测试工具，这些工具作为护栏确保反馈质量，只有在所有测试都通过后才会将反馈发送给审稿人。结果显示，27%收到反馈的审稿人更新了他们的审稿，超过12,000条来自代理的反馈建议被这些审稿人采纳。这表明许多审稿人认为AI生成的反馈足够有用，值得更新他们的审稿。采用AI反馈导致了显著增加的审稿长度（在收到反馈后更新审稿的人平均增加了80个单词），以及更加详实的审稿内容，这些均得到了盲审研究人员的评估。此外，选择接受AI反馈的审稿人在论文反驳环节也更加积极，体现在更长的作者-审稿人讨论中。这项工作证明，精心设计的LLM生成的审稿反馈可以通过使审稿更具体和可操作，同时增加审稿人与作者之间的互动来提升审稿质量。审稿反馈代理系统已在 https://github.com/zou-group/review_feedback_agent 公开可用。