LLM2D
Re$^2$:一个确保一致性的数据集,用于全方位同行评审和多轮反驳讨论
Re$^2$: A Consistency-ensured Dataset for Full-stage Peer Review and Multi-turn Rebuttal Discussions
作者: Daoze Zhang, Zhijian Bao, Sihang Du, Zhiyi Zhao, Kuangling Zhang, Dezheng Bao, Yang Yang
发布日期: 5/14/2025
arXiv ID: oai:arXiv.org:2505.07920v1

摘要

arXiv:2505.07920v1 宣布类型: cross 摘要:同行评审是人工智能等领域的科学进步的关键组成部分,但提交量的快速增加已经对评审系统造成了压力,不可避免地导致评审人员短缺和评审质量下降。除了研究 popularity 的增长之外,导致这种负担的另一个关键因素是提交低质量手稿的重复提交,很大程度上是由于作者在提交前缺乏有效的自我评估工具。大规模语言模型(LLMs)在协助作者和评审人员方面显示出巨大的潜力,其性能从根本上受限于同行评审数据的质量。然而,现有的同行评审数据集面临三个主要限制:(1)数据多样性的限制,(2)由于使用修订版而非初始提交而导致的一致性差和数据质量低,以及(3)对涉及反驳和评审者-作者互动的任务支持不足。为了应对这些挑战,我们引入了一个最大的一致性保障的同行评审和反驳数据集,名为 Re^2,该数据集包含来自 OpenReview 上 24 个会议和 21 个工作坊的 19,926 个初始提交、70,668 条评审评论和 53,818 条反驳。此外,反驳和讨论阶段被重新构想为多轮对话范式,以支持传统的静态评审任务和动态互动的 LLM 辅助程序,从而为作者提供更实际的指导以完善他们的手稿,并帮助缓解日益增加的评审负担。我们的数据和代码可在 https://anonymous.4open.science/r/ReviewBench_anon/ 获取。