LLM2D

摘要

arXiv:2505.07920v1 宣布类型: cross 摘要：同行评审是人工智能等领域的科学进步的关键组成部分，但提交量的快速增加已经对评审系统造成了压力，不可避免地导致评审人员短缺和评审质量下降。除了研究 popularity 的增长之外，导致这种负担的另一个关键因素是提交低质量手稿的重复提交，很大程度上是由于作者在提交前缺乏有效的自我评估工具。大规模语言模型（LLMs）在协助作者和评审人员方面显示出巨大的潜力，其性能从根本上受限于同行评审数据的质量。然而，现有的同行评审数据集面临三个主要限制：（1）数据多样性的限制，（2）由于使用修订版而非初始提交而导致的一致性差和数据质量低，以及（3）对涉及反驳和评审者-作者互动的任务支持不足。为了应对这些挑战，我们引入了一个最大的一致性保障的同行评审和反驳数据集，名为 Re^2，该数据集包含来自 OpenReview 上 24 个会议和 21 个工作坊的 19,926 个初始提交、70,668 条评审评论和 53,818 条反驳。此外，反驳和讨论阶段被重新构想为多轮对话范式，以支持传统的静态评审任务和动态互动的 LLM 辅助程序，从而为作者提供更实际的指导以完善他们的手稿，并帮助缓解日益增加的评审负担。我们的数据和代码可在 https://anonymous.4open.science/r/ReviewBench_anon/ 获取。